PHP实现抓取百度搜索结果,并分析数据结构

PHP实现抓取百度搜索结果,并分析数据结构

PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\\QueryList;
//进入网页
$jar = new \\GuzzleHttp\\Cookie\\CookieJar;
$client = new GuzzleHttp\\Client(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
    echo '网站状态不正常';die;
}
echo  $ql->getBody();

6b0d42b0ac5af250f8026e0f3ff8423.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar,
    'headers' => [
    'Accept-Encoding' => 'gzip, deflate, br',
    'Accept'     => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Language'      => 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cache-Control'      => 'no-cache',
    'Connection'      => 'keep-alive',
    'User-Agent'      => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

我测试了下,网站打开了。

8e377d524c553551086d93d9f40c90b.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\\QueryList;
use QL\\Ext\\Chrome;
$ql = QueryList::getInstance();
// 注册插件,默认注册的方法名为: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
    $page->goto('https://www.baidu.com');
    // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动
    sleep(3);
    //输入关键词
    $wd = '简庆旺博客';
    $page->type("input[id='kw']",$wd);
    sleep(1);
    //点击搜索
    $page->click("input[type='submit']");
    //等待搜索结果
    sleep(3);
    //获取结果
    $html = $page->content();
    //用jquery选择器抽取结果
    $rules = array(
        'title'=>['#content_left h3 a','text'],//标题
        'url'=>['#content_left h3 a','href'],//跳转网址
        'description'=>['div .c-abstract','text'],//描述
    );
    $ql = QueryList::html($html);
    $rt = $ql->rules($rules)->query()->getData();
    //如果有需要,可以把$rt入库,以及做其他操作
    sleep(10);
    $browser->close();
    // 返回值一定要是页面的HTML内容
    return $html;
},[
    'headless' => false, // 启动可视化Chrome浏览器,方便调试
    'devtools' => false, // 打开浏览器的开发者工具
])->find('title')->text();

$rt是我的结果集合,打印下,如下

b8484929df81399679d8932930690fd.png

57c970e6dcf42d1a286ea23682e0591.png

关于PHP实现抓取百度搜索结果,并分析数据结构的文章就分享到这,如果对你有帮助欢迎继续关注我们哦

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/41181.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
php学习php学习订阅用户
上一篇 2022年6月20日 22:50
下一篇 2022年6月20日 22:51

相关推荐

  • PHP整数型--INT

    说明:是负数和0和整数的集合,在PHP中存储整数为10进制、八进制、十六进制 语法:$var = 整数数字; 八进制的写法:在数字之前加0,就是八进制,数字是有0-7 十六位进制的写法:在数字前面加0x,数字为:0-f  01234…

    2017年11月20日
    0286
  • 如何使用PHP进行多语言框架开发?

    随着全球化的深入发展,越来越多的网站和应用程序需要支持多种语言。而PHP作为一种广泛应用于Web开发的编程语言,也需要支持多语言框架的开发。本文将介绍如何使用PHP进行多语言框架开发。一、什么是多语言框架首先…

    2023年5月17日
    02
  • Redis中的布隆过滤器和PHP的使用方法。

    Redis是一个开源的内存数据库,被广泛应用于缓存、消息队列、分布式锁等场景。其中,布隆过滤器是一种高效的数据结构,可以用于判断一个元素是否存在于一个集合中,在Redis中得到了广泛的应用。本文将介绍Redis中布…

    2023年5月21日
    00
  • PHP8.0中的文本处理库:Phonetic

    随着PHP 8.0的发布,很多人都在关注它的新特性。其中一个备受瞩目的特性是它的文本处理库,Phonetic。这个库提供了一些有用的方法,如音标转换、拼音转换和近似字符串匹配。在本文中,我们将深入探讨这个库的功能和…

    2023年5月18日
    02
  • 如何在PHP中进行虚拟人和语音交互。

    在当今快速发展的互联网时代,虚拟人和语音交互成为了最具前景的技术热点。这些技术可以为企业提供更便捷的客户服务,也可以为用户提供更人性化的体验。而PHP作为一款广泛应用于Web开发的语言,也可以通过多种方式…

    2023年5月28日
    022
  • PHP中Memcache缓存原理及其对缓存数据的作用

    随着互联网的发展,数据量的快速增长,缓存技术的应用越来越广泛,它既可以提升网站的访问速度,也可以减轻服务器的负担。在服务器端,Memcache作为 PHP 缓存技术的一种,被广泛应用于大型网站的访问优化。本文将介…

    2023年5月19日
    00
  • PHP变量间的传值方式

    总体说明: 1,这里讨论的传值方式是指:一个变量对另一个变量 2,它不仅仅适用于赋值语句,也适用于其他有同样含义的语句,比如:函数的实参到形参 3,传值方式只有2种:值传递,引用传递 4,php中,所有变量,默…

    2017年11月4日 PHP自学教程
    0212
  • PHP中使用Redis实现ID生成器。

    随着互联网的飞速发展,越来越多的网站和应用程序需要支持海量数据的高效存储与访问,同时,随着数据量的不断增加,各种数据处理需求也变得越来越复杂。为了解决这些问题,开发人员通常需要使用强大的数据处理工具…

    2023年5月21日
    01

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息