做SEO怎么用好scrapy

SEO怎么用好scrapy?python的爬虫框架,scrapy,收集效率相当高,一只蜘蛛跑一万url收集题目之类的10分钟不到就搞定了,当然了,不妨同时跑多只蜘蛛。

首先是scrapy的安装教程,就不搬砖了,直接贴上位置:

http://blog.csdn.net/pleasecallmewhy/article/details/19354723

而后是新建名目标教程:

http://blog.csdn.net/pleasecallmewhy/article/details/19642329

之后就不妨收集了。

SEO

在Scrapy里,运用的是叫做 XPath selectors的机制,它基于 XPath表明式。所以,假如要收集仍然要了解下Xpath(正则也行)。之后的事情就简单多了。底下融合自身写的一只爬虫来吧,这个应当是属于scrapy简单的爬虫了:

baidu_spider.py 取排名,题目,快照,和url(暂未引入其余模块获得真切url),当然,想取描述相同的,再写一个xpath法则,并在items.py中对应的肋下增添dec=Field()能够(拜见新建名目标教程)。

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import BaiduItem

class BaiduSpider(Spider):

name = "baidu"

allowed_domains = ["baidu.com"]

start_urls = ["http://www.baidu.com/s?q1=%BD%F0%B8%D5%C9%B0"]

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//div[@class="result c-container "]')

items = []

for site in sites:

item = BaiduItem()

item['num'] = site.re('(id="d{1,3}")')

item['title'] = site.xpath('h3/a/text()').extract()

item['link'] = site.xpath('h3/a/@href').extract()

item['date'] = site.re('�(d{4}-d{2}-d{2})�')

items.append(item)

return items

复制代码

运转号令:

json数据:

上边是一个简单的使用,在此基本上,咱们将以上代码改进,批量获得一些内容:

以爬某站的spider为例:

SEO

1、url.txt存储url,一行一个。读取后作为参数传给start_urls。

2、咱们要取的是他的全部h1,那么修正xpath表明式。

3、url.txt需求放在根目次下,蜘蛛也是在根目次下号令行运转。运转的号令为scrapy crawl mouzhan -o items.json -t json.(这里咱们保存成功了json格式,文件名叫做items.json)

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import MouzhanItem

class MouzhanSpider(Spider):

name = "mouzhan"

allowed_domains = ["mouzhan.com"]

start_urls = open('url.txt','r').readlines()

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//h1/text()').extract()

items = []

for site in sites:

item = MouzhanItem()

item['h1'] = site

items.append(item)

return items

复制代码

收集到的数据:

后输送的文件是json格式(也不妨存储为csv等格式),编码是unicode,收集的中文在读取时处理下能够。测试的是一只蜘蛛10分钟1万url。不妨同时运转多只蜘蛛。这里没有研究ip代理,ua那些器材,不晓得是收集的网站没有限制仍然scrapy内部有处理,不过查了下,scrapy不妨自行配置代理的。

scrapy也只是刚接触,并未有更深的研讨,可是相对而言收集的速度相当快,我用beautifulsoup分析html收集的脚本要运转2个半小时才能收集1万数据,应当是不用给定url,在写的过程中制订法则就不妨让蜘蛛去爬的。

至于scrapy在seo上的使用,我也说不走出多少,起码用这个器材用来查排名应当不慢(杀鸡焉用牛刀),批量查收录之类的,收集效率也高,至于收集谁,收集回来的器材怎么用,看你自身了。ps(轻喷:原本我也不晓得学这器材做什么,反正我是小企业站,暂且不晓得用来做什么。)

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/39344.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
优化家优化家订阅用户
上一篇 2022年5月31日 21:22
下一篇 2022年5月31日 21:22

相关推荐

  • 搜索引擎一般多长时间更新一次,SEO 多长时间有效果。

    搜索引擎基本每天都更新网页数据库,隔两三天都会对每个关键词进行一次排名。一般情况下,对于具体的某个关键词,其搜索结果不会突然发现巨大的变动。我们很少看到某关键词的搜索结果前10位突然都换成其他的了,除…

    2022年3月12日
    0383
  • 假如:某个主关键词指数在40左右 排名在22名怎么去进行网站优化。

    我有个主关键词指数在40左右 排名在22名左右每回排不上去,怎么去进行网站优化呢? 答:指数40不能说就是就代表竞争不大,首先是要综合所有查看并解析你主关键词搜索引擎有多少百度推广,相关搜索,是否有商业价值…

    2022年3月12日
    0199
  • SEO优化不要随意修改网站标题

    网站的标题是网站最重要的标签。它应该是网站内容的集中和细化。这个网站的内容应该用简洁明了的语言和关键词进行全面总结,让搜索引擎和网民一眼就能知道网站的独特内容。那么网站标题的修改会影响到网站的SEO优化…

    2022年6月3日
    0259
  • 遇到seo瓶颈这种情况到底如何处理呢?

    seo是什么意思?其实就是指我们做网站的排名优化,让自己的网站排名更高,最好是可以排名到首页,现实中许多人说自己做seo走入了一些瓶颈,不知道该怎么做,做了很久也没有一个好的效果,非常着急,到底这个时候应…

    2022年5月29日
    0246
  • 解读网站降权和网站被K。

    网站降权和网站被K到底有什么关系呢?今天就解读下它们之间的关系和对应的解决方法,希望能帮助对这个问题还有困扰的站长朋友们。 一、网站降权 网站降权的现象: 1、收录减少 2、关键词排名下降 3、网站流量减少 …

    2022年3月12日
    0160
  • 高质量内容制定策略。

      一个健康的网站,能没有内容吗?肯定是不行的。没有高质量的原创内容?更是不行!长期创造源源不断的高质量原创内容是每一个良好网站具备的基础,那么高质量的内容应该如何做? (高质量内容具备的三种特性) …

    2022年3月12日
    0159
  • 关键词在文章中应当出现多少次。

    提高网站的排名让更多的用户进入我们的网站体验,为网站提高点击率是网站优化的主要目的,那么网站优化中关键词的使用是一个非常关键的步骤,当然这也并不意味着关键词在网站中出现的频率越高,网站的排名就越高。 …

    2022年3月12日
    0155
  • 【长春网站优化】百度冰桶算法5.0有怎样的改变?

    关于现在百度上线冰桶算法5.0,它有怎样的改变,以及它到底有着怎样的目的,这是站长们必须要了解的,今天就给各位新手长春网站优化站长来简单的介绍一下关于这方面的问题。(一)、百度上线冰桶算法5.0的目的。其实…

    2022年5月29日
    0207

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息