PHP实现抓取百度搜索结果,并分析数据结构

PHP实现抓取百度搜索结果,并分析数据结构

PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\\QueryList;
//进入网页
$jar = new \\GuzzleHttp\\Cookie\\CookieJar;
$client = new GuzzleHttp\\Client(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
    echo '网站状态不正常';die;
}
echo  $ql->getBody();

6b0d42b0ac5af250f8026e0f3ff8423.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar,
    'headers' => [
    'Accept-Encoding' => 'gzip, deflate, br',
    'Accept'     => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Language'      => 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cache-Control'      => 'no-cache',
    'Connection'      => 'keep-alive',
    'User-Agent'      => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

我测试了下,网站打开了。

8e377d524c553551086d93d9f40c90b.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\\QueryList;
use QL\\Ext\\Chrome;
$ql = QueryList::getInstance();
// 注册插件,默认注册的方法名为: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
    $page->goto('https://www.baidu.com');
    // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动
    sleep(3);
    //输入关键词
    $wd = '简庆旺博客';
    $page->type("input[id='kw']",$wd);
    sleep(1);
    //点击搜索
    $page->click("input[type='submit']");
    //等待搜索结果
    sleep(3);
    //获取结果
    $html = $page->content();
    //用jquery选择器抽取结果
    $rules = array(
        'title'=>['#content_left h3 a','text'],//标题
        'url'=>['#content_left h3 a','href'],//跳转网址
        'description'=>['div .c-abstract','text'],//描述
    );
    $ql = QueryList::html($html);
    $rt = $ql->rules($rules)->query()->getData();
    //如果有需要,可以把$rt入库,以及做其他操作
    sleep(10);
    $browser->close();
    // 返回值一定要是页面的HTML内容
    return $html;
},[
    'headless' => false, // 启动可视化Chrome浏览器,方便调试
    'devtools' => false, // 打开浏览器的开发者工具
])->find('title')->text();

$rt是我的结果集合,打印下,如下

b8484929df81399679d8932930690fd.png

57c970e6dcf42d1a286ea23682e0591.png

关于PHP实现抓取百度搜索结果,并分析数据结构的文章就分享到这,如果对你有帮助欢迎继续关注我们哦

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/41181.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
php学习php学习订阅用户
上一篇 2022年6月20日 22:50
下一篇 2022年6月20日 22:51

相关推荐

  • PHP文件下载

    文件下载 如果下载的文件较多、文件大,通常就会使用百度云,如果下载的文件小、文件少的话,通常会使用php进行下载 通过php下载文件的原理: 先通过php读取下载的文件资源,读取到这些资源之后,再将其保存到文件…

    2018年9月18日
    0342
  • 自学PHP的绘图具体演示(附代码)

    (1)绘制线条  imageline() (2)绘制三角形:imageline() (3)绘制矩形:imagerectangle()、imagefilledrectangle() 描边矩形:imagerectangle() 填充矩形:imagefilledrectangle() (4)绘制圆形 和 椭圆形:im…

    2018年9月1日 PHP自学教程
    0531
  • PHP与数据库性能调优的集成。

    随着互联网技术的飞速发展,数据库是网站开发中必不可少的一部分。而PHP是目前最常用的服务器端语言之一,它的高效性能和便捷的开发方式已经被广泛认可。但是,即使是最流行的技术也有其局限性,数据库性能问题是PH…

    2023年5月21日
    01
  • 阿里云PHP SMS短信服务验证码发送方法详解

    开通SMS服务首先去这个网站开通阿里云的SMS短信服务:https://www.aliyun.com/product/sms?spm=5176.8142029.388261.295.vU5T5g创建签名、模板要使用短信服务器需要先创建签名和模板,并提交给阿里云审核通过才可以…

    2022年6月17日 PHP自学教程
    0347
  • PHP中的对象存储。

    随着互联网技术的不断发展,越来越多的企业和开发者开始选择使用对象存储来存储和管理大量的数据。对象存储是一种存储数据的方式,它将数据存储为对象,每个对象都有唯一的标识符并且可以被随时访问。相比传统的文…

    2023年5月30日
    02
  • 我来分享php探针使用的方法有哪些图片。

    PHP探针是一种用PHP语言编写的程序,它能够实时查看服务器硬盘资源、内存占用、网卡流量、系统负载、服务器时间等信息。PHP探针还可以检测服务器的操作系统信息,CPU、内存和硬盘的使用状况,PHP版本和组件信息,数…

    2024年7月5日
    03
  • 小编教你php字符串长度。

    在PHP中,获取字符串的长度是一个常见的需求,我们可以使用内置的`strlen()`函数来实现这个功能,`strlen()`函数返回一个字符串的长度(以字节为单位),如果字符串包含多字节字符(例如某些特殊符号),则返回的长度可…

    2024年6月20日
    02
  • PHP中的测试数据管理工具。

    PHP是一种广泛应用于Web开发的脚本语言,由于其易于学习和扩展性,已经成为大多数Web开发人员的首选语言。随着Web应用程序越来越复杂,测试也变得更加重要。为了成功地测试PHP代码,测试数据是必不可少的。在本文中…

    2023年5月28日
    02

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息