做SEO怎么用好scrapy

SEO怎么用好scrapy?python的爬虫框架,scrapy,收集效率相当高,一只蜘蛛跑一万url收集题目之类的10分钟不到就搞定了,当然了,不妨同时跑多只蜘蛛。

首先是scrapy的安装教程,就不搬砖了,直接贴上位置:

http://blog.csdn.net/pleasecallmewhy/article/details/19354723

而后是新建名目标教程:

http://blog.csdn.net/pleasecallmewhy/article/details/19642329

之后就不妨收集了。

SEO

在Scrapy里,运用的是叫做 XPath selectors的机制,它基于 XPath表明式。所以,假如要收集仍然要了解下Xpath(正则也行)。之后的事情就简单多了。底下融合自身写的一只爬虫来吧,这个应当是属于scrapy简单的爬虫了:

baidu_spider.py 取排名,题目,快照,和url(暂未引入其余模块获得真切url),当然,想取描述相同的,再写一个xpath法则,并在items.py中对应的肋下增添dec=Field()能够(拜见新建名目标教程)。

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import BaiduItem

class BaiduSpider(Spider):

name = "baidu"

allowed_domains = ["baidu.com"]

start_urls = ["http://www.baidu.com/s?q1=%BD%F0%B8%D5%C9%B0"]

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//div[@class="result c-container "]'😉

items = []

for site in sites:

item = BaiduItem()

item['num'] = site.re('(id="d{1,3}"😉'😉

item['title'] = site.xpath('h3/a/text()'😉.extract()

item['link'] = site.xpath('h3/a/@href'😉.extract()

item['date'] = site.re('�(d{4}-d{2}-d{2})�'😉

items.append(item)

return items

复制代码

运转号令:

json数据:

上边是一个简单的使用,在此基本上,咱们将以上代码改进,批量获得一些内容:

以爬某站的spider为例:

SEO

1、url.txt存储url,一行一个。读取后作为参数传给start_urls。

2、咱们要取的是他的全部h1,那么修正xpath表明式。

3、url.txt需求放在根目次下,蜘蛛也是在根目次下号令行运转。运转的号令为scrapy crawl mouzhan -o items.json -t json.(这里咱们保存成功了json格式,文件名叫做items.json)

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import MouzhanItem

class MouzhanSpider(Spider):

name = "mouzhan"

allowed_domains = ["mouzhan.com"]

start_urls = open('url.txt','r'😉.readlines()

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//h1/text()'😉.extract()

items = []

for site in sites:

item = MouzhanItem()

item['h1'] = site

items.append(item)

return items

复制代码

收集到的数据:

后输送的文件是json格式(也不妨存储为csv等格式),编码是unicode,收集的中文在读取时处理下能够。测试的是一只蜘蛛10分钟1万url。不妨同时运转多只蜘蛛。这里没有研究ip代理,ua那些器材,不晓得是收集的网站没有限制仍然scrapy内部有处理,不过查了下,scrapy不妨自行配置代理的。

scrapy也只是刚接触,并未有更深的研讨,可是相对而言收集的速度相当快,我用beautifulsoup分析html收集的脚本要运转2个半小时才能收集1万数据,应当是不用给定url,在写的过程中制订法则就不妨让蜘蛛去爬的。

至于scrapy在seo上的使用,我也说不走出多少,起码用这个器材用来查排名应当不慢(杀鸡焉用牛刀),批量查收录之类的,收集效率也高,至于收集谁,收集回来的器材怎么用,看你自身了。ps(轻喷:原本我也不晓得学这器材做什么,反正我是小企业站,暂且不晓得用来做什么。)

本文来自投稿,不代表科技代码立场,如若转载,请注明出处https://www.cwhello.com/39344.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
上一篇 2022年5月31日 21:22
下一篇 2022年5月31日 21:22

相关推荐

  • 一个seo良好的网站。

    一个seo良好的网站,在于网站的结构,内容建设等。笔者按自己的经验,讲讲下面几点: 1. 网站结构利于蜘蛛爬行 网站应该有清晰的结构,既能帮助用户找到需要的内容,也可以帮助蜘蛛快速理解网站中每一个网页...

    2022年3月12日
    0176
  • 如何查看竞争对手最新的外链。

      做seo的过程往往也是个学习的过程,俗话说知己知彼百战不殆也是这个道理。那么关于外链建设,如何查看竞争对手最新发的外链呢? 在查看竞争对手最新外链之前我们先学会下面两点:    1.如何在搜索引擎...

    2022年3月12日
    0292
  • 科学的搜索引擎优化工作需要设计规划

    搜索引擎优化思维导图让你做科学的搜索引擎优化作业需要规划,做网站优化需要搜索引擎优化思维导图每个SEOER都可以形成自己的思维流程图,这可以提高工作能力。这是科学的搜索引擎优化。许多朋友和我交谈,说他们...

    2022年6月3日
    0284
  • 网站的相似或重复页该如何处理

    什么是相似度页面? 众所周知搜寻引擎是对原创内容情有独钟,那么这就要求咱们在做网站内容时重视内容品质。相似度页面即是内容的重复率或相似水准很高的页面。 什么是重复页面? 重复页面即是内容几乎或许完全相同...

    2022年5月30日
    0281
  • 网站百度收录需要注意的问题

    1.时间问题:网站是新站,百度对于新站的考察时间是1-3个月.在这三个月中,我们site自己的网站经常会出现网站有时间可以查询到一个首页,有时查询不到.这是正常的情况,我个人的网站如果一天不更新文章 ,第二天site不...

    2022年5月28日
    0369
  • 网站降权的解决方法。

    1、内容更新最好是定时定点,另外保持持续增加的数量。 2、外链建设也同样重要,每天给自己规划好发多少外链,同时,外链的平台要多样性。 3、网站内容:多原创,现在百度越来越重视内容的原创性,另外重复性的内...

    2022年3月12日
    0171
  • 如何利用seo优化工具分析我们的网站数据?

    很多SEOer都比较了解百度站长工具,但是也有很多初次使用百度站长工具平台的,对一些功能都不是很清楚,下面SEO小编具体分析各种工具的用处。 链接分析 链接分析工具包括死链分析和外链分析,前者又分为内链死链...

    2022年6月2日
    0250
  • 三方面让你的SEO博客出类拔萃。

      记得刚做SEO那会,发现遍地都是什么SEO博客的网站,身边的SEO朋友,每两个就有一个有SEO博客了。他们都用这些博客来记录自己的SEO生涯与心得体会,也可以看到很多博主在很认真地用心写作传播知识。   ...

    2022年3月12日
    0183

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息