PHP实现抓取百度搜索结果,并分析数据结构

PHP实现抓取百度搜索结果,并分析数据结构

PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\\QueryList;
//进入网页
$jar = new \\GuzzleHttp\\Cookie\\CookieJar;
$client = new GuzzleHttp\\Client(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
    echo '网站状态不正常';die;
}
echo  $ql->getBody();

6b0d42b0ac5af250f8026e0f3ff8423.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar,
    'headers' => [
    'Accept-Encoding' => 'gzip, deflate, br',
    'Accept'     => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Language'      => 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cache-Control'      => 'no-cache',
    'Connection'      => 'keep-alive',
    'User-Agent'      => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

我测试了下,网站打开了。

8e377d524c553551086d93d9f40c90b.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\\QueryList;
use QL\\Ext\\Chrome;
$ql = QueryList::getInstance();
// 注册插件,默认注册的方法名为: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
    $page->goto('https://www.baidu.com');
    // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动
    sleep(3);
    //输入关键词
    $wd = '简庆旺博客';
    $page->type("input[id='kw']",$wd);
    sleep(1);
    //点击搜索
    $page->click("input[type='submit']");
    //等待搜索结果
    sleep(3);
    //获取结果
    $html = $page->content();
    //用jquery选择器抽取结果
    $rules = array(
        'title'=>['#content_left h3 a','text'],//标题
        'url'=>['#content_left h3 a','href'],//跳转网址
        'description'=>['div .c-abstract','text'],//描述
    );
    $ql = QueryList::html($html);
    $rt = $ql->rules($rules)->query()->getData();
    //如果有需要,可以把$rt入库,以及做其他操作
    sleep(10);
    $browser->close();
    // 返回值一定要是页面的HTML内容
    return $html;
},[
    'headless' => false, // 启动可视化Chrome浏览器,方便调试
    'devtools' => false, // 打开浏览器的开发者工具
])->find('title')->text();

$rt是我的结果集合,打印下,如下

b8484929df81399679d8932930690fd.png

57c970e6dcf42d1a286ea23682e0591.png

关于PHP实现抓取百度搜索结果,并分析数据结构的文章就分享到这,如果对你有帮助欢迎继续关注我们哦

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/41181.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
php学习php学习订阅用户
上一篇 2022年6月20日 22:50
下一篇 2022年6月20日 22:51

相关推荐

  • PHP防盗链的基本设置方法

      盗链是指服务提供商自己不提供服务的内容,通过技术手段绕过其它有利益的最终用户界面(如广告),直接在自己的网站上向最终用户提供其它服务提供商的服务内容,骗取最终用户的浏览和点击率。受益者不提供资源…

    2018年3月30日
    0176
  • PHP中的自动化测试工具。

    随着现代软件开发的进化,自动化测试已成为不可或缺的一环。在PHP开发中,自动化测试工具的使用也越来越普遍。本文将介绍PHP中常用的自动化测试工具以及它们的优缺点。PHPUnitPHPUnit是PHP最流行的自动化测试框架,…

    2023年5月30日
    01
  • 最简洁的PHP生成指定长度随机数的方法

    刚才在写短信验证码模块,需要用到指定位数的随机数,然后网上一找发现太可怕了这么简单的事情竟然用了好几十行多个循环嵌套……看来没有好脑仁儿真的不适合当程序员。自写了一行版本:function generate_code($lengt…

    2022年6月11日
    0202
  • PHP8.0中的trait组合

    随着PHP语言的不断发展和升级,trait(特征)这个概念也越来越被程序员所认知和广泛应用。在PHP8.0版本中,trait组合成为了一个非常有价值的特性,对于编写高质量、易维护的代码来说,这是至关重要的。在过去的版本…

    2023年5月18日
    06
  • PHP循环输出某个文件夹下所有子文件以及子文件夹

    静态变量 一般用于函数内,需要使用static关键字定义,静态变量的赋值语句只会执行一次。 第一次执行display,会执行static $i=10,i再加1,再输出i,函数执行后i不会被回收 第二次执行display,不会执行static $i=1…

    2017年11月13日 PHP自学教程
    0332
  • 小编分享教程宝塔面板上的PHP优化攻略。

    宝塔面板PHP优化攻略,提供有效提升网站性能的方法和技巧。 教程宝塔面板上的PHP优化攻略 在网站开发过程中,PHP是一种广泛使用的服务器端脚本语言,有时候我们可能会遇到PHP性能不佳的问题,这时候就需要对PHP进行…

    2024年7月17日
    01
  • 我来教你php字符串连接函数。

    PHP中,可以使用 .= 运算符将字符串连接起来。要将两个字符串连接起来,可以使用以下代码:,,“php,$string1 = "Hello";,$string2 = "World!";,$string3 = $string1 . " " . $string2; // 现在 $string3 …

    2024年7月10日
    00
  • PHP入门指南:SQL注入。

    PHP入门指南:SQL注入随着互联网的快速发展,Web应用程序越来越普及,其安全性也成为了人们极为关注的问题。SQL注入是 Web应用程序中的一种常见攻击方式,它可以导致严重的安全问题,从而对 Web应用程序的正常运行…

    2023年5月22日
    01

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息