搜索引擎访问网站返回码最全解答。

当搜索引擎蜘蛛抓取网站的时候,每一次都会有一个返回码,表示本条内容抓取的状态,我们可以通过网站日志中查看这些返回码信息,来提升青岛网站建设的优化效果。

你把IIS日志从空间下到自己电脑,然后用文本工具打开;

2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

分析下 200 0 0组成部分 sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)

sc-status(协议状态): 200 连接成功

sc-substatus(协议子状态) :0 成功

sc-win32-status(Win32状态码):0 代表抓取成功并带回数据库 ; 64 指定的网络名不再可用

1: 在这个访问记录里面121.187.5.143是你服务器的IP地址,220.181.7.74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 为蜘蛛访问你的页面 80是端口 GET是打开方式 W3SVC1是记录的文件夹,这里说明,bd蜘蛛已经访问了你的category-8-b0-min1100-max2200.html 这个页面,那么最重要的是最后面的这个参数200 0 0。

2、200 0 0 成功访问该页面,0代表抓取成功并带回数据库。这个时候你就放心了,这个页面已经被bd收录,但是还没有释放出来,bd更新时就可能释放出来。

3:200 0 64 网络上流传着这么三种解释

第164为K站的前兆。

第264的出现只是64位操作系统。

第三:网络不可达,由于某种原因无法完全打开页面,或者网络不稳定这些原因,导致蜘蛛无法带回页面或者说不抓取该页面,

所以200 0 64的解释也应该为:访问了该页面,但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。

或者说是蜘蛛访问了但快照不更新

4:304 0 0这个返回码代表蜘蛛访问的页面没有更新,和他之前来的时候是一样的,所以看到这个不要担心,蜘蛛来过,只不过你没有更新,所以他也不愿意带走这个页面。

5:404 0 0这个是代表404页面,但是有个很严重的问题,这个返回码告诉我们,蜘蛛来到了404页面并把他带走了

,要是这样的话基本上你要倒霉了,要你有太多的404,那么蜘蛛就会不断是抓取,不断的带走,这样会造成无数的重复页面,最终导致K站或者降权,

正确的返回码是404 0 64 这就代表蜘蛛没有抓取你这个页面。 (好像是内容有死链的意思)

6:500错误500错误是服务器内部错误,是由程序的错误造成的,我不懂程序,但是500错误是会给你减分的,这点基本的逻辑都可以想的到,要发现500错误,马上查看是哪个页面的,然后去修正以下错误吧!

7:302要在日志中发现302的返回码也是需要注意的,302为临时重定向,要你是长期的将这个页面重定向到另一个页面,麻烦你使用301永久重定向,要是302的话bd蜘蛛下次来还会访问这个页面,这样又会造成复制大量页面的问题,结果肯定是K,所以,抽空检查以下。

每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。

返回码大全:

2xx 成功

200 正常;请求已完成。

201 正常;紧接 POST 命令。

202 正常;已接受用于处理,但处理尚未完成。

203 正常;部分信息 — 返回的信息只是一部分。

204 正常;无响应 — 已接收请求,但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题,或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源;文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况,服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。

根据不同的IP我们可以分析网站是个怎样的状态.下面就按照我IIS日记上的百度蜘蛛IP为例:

123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。

220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。

121.14.89.*这个ip段作为度过新站考察期。

203.208.60.*这个ip段出现在新站及站点有不正常现象后。

210.72.225.*这个ip段不间断巡逻各站。

125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。

220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。

220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不

放出来.(意思也就是说待定)。

220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!

一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,

所以返回就是这个代码。

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/110210.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
优化家优化家订阅用户
上一篇 2022年10月17日 00:01
下一篇 2022年10月17日 00:01

相关推荐

  • 企业网站建设下面几个想法必定失败。

    随着互联网的发展,每个企业都会建立一个甚至更多的官网,然后有些网站能成为业界的典范,而有些网站却在互联网中石沉大海。造成这一原因与后期的推广工作有关系外,更重要的是与当时建站的想法有直接关系,小编列…

    2023年2月14日
    00
  • 全世界一个网站已经25岁了 。

    [div][div] 1990年12月20日,瑞士CERN研究所的科学家蒂姆·伯纳斯·李完成了世界上第一个网页设计。这个网页只包含简单的文字,教你如何使用HTML技术制作一个带有图片和文字的文档,任何人都可以很容易地检查。这个网…

    2022年9月10日 网站搭建
    062
  • 在网站建设规则中如何选取关键词。

    企业网站建设过程中,关键词的选取是很重要的一环,关键词会增加网站的权重,筛选不好还会影响网站排名,那么网站建设时如何选取关键词呢?1、定期观察百度指数反映关键词在过去30天内的网络曝光率及用户关注度,它…

    2023年2月22日
    02
  • 建站之前我们需要做好哪些工作呢。

    在做一个网站之前,我们会对网站做一次整体的规划,网站规划看起来是一项简单的工作,但是假如想让我们的网站在上线之后也会很好,那么网站规划工作便会显得尤为重要,在我们对网站进行规划的时候也是需要我们下很…

    2022年10月17日
    043
  • 网络营销它们两个的是彻底不同的概念。

    其实网络推广和网络营销是一门很深的学问,有着完全不同的概念和意义。网络推广和网络营销是一门非常高深的学问。三言两语说不清楚。之前大学有一门选修课,讲的是网络营销和网络推广,略知一二。 先简单说一下网络…

    2022年9月10日
    0138
  • 在当下的互联网市场中营销型网站如何做好网站转化率大幅提升。

      在营销型网站提升网站转化率过程当中首先要明确什么样类型的企业致力于搭建营销型网站,比如说B2B企业、B2C电商企业等等一系列企业,旨在通过营销型网站扩大企业在搜索引擎中的影响力和成交量,那么对于这些企…

    2022年10月18日
    023
  • 更换网站服务器或空间ip对网站SEO有影响吗。

    相信大家在做seo或者网站维护的时候,都遇到过域名空间、过期服务器或者需要更换的问题。当您更改主机和服务器时,您必须更改ip。那么本文中seo的小编会告诉你改变空间和服务器IP对网站SEO排名优化有没有影响?请大…

    2022年9月10日
    054
  • 网站模板设计中导航的4点要素。

    网站模板的出现,让我们可以更轻松地建设多种不同风格的网站。在这模板网站设计中,导航是个需要重视的部分,因为导航可以引导用户浏览网站,并顺利地进入到他们想到达的页面中。那么,在网站模板导航设计的时候,…

    2022年7月4日
    0129

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息