爬虫抓取策略有哪些?

在爬虫系统中.待抓取URL队列是很关健的部分,需要爬虫抓取的网页URL在其中顺序排列.形成壹个队列结构,调度程序每次从队列头取出某个URL.发送给网页下载器下载页面内容.每个新下载的页面包含的URL会追加到待抓取URL队列的末尾,如此形成循环,整个爬虫系统可以说是由这个队列驱动运转的.

待抓取URL队列中的页面URL顺序是如何确定的?上面所述将新下载页面中包含的链接追加到队列尾部,这固然是壹种确定队列URL顺序的方法,但并非唯壹的手段,事实上,还可以采纳很多其他技术.将队列中待抓取的URL进行排序。而爬虫的不同抓取策略。就是利用不同的方法来确定待抓取URL队列中URL优先顺序的。

爬虫的抓取策略有很多种.但不论方法如何,其基本目标壹致:优先选择重要网页进行抓取。在爬虫系统中.所谓网页的重要性.共评判标准可以选择不同方法,但是大部分都是按照网页的流行性来定义的

本文来自投稿,不代表科技代码立场,如若转载,请注明出处https://www.cwhello.com/40888.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
上一篇 2014年1月21日 00:00
下一篇 2014年1月26日 00:00

相关推荐

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息