PHP采集任意网址自动识别并提取页面主体内容

对于PHP采集很多种方式,但是都是指定dom哪个节点来采集内容,这样太麻烦了,有没有一方式可以任意网址可以自动识别主本内容呢。答案是有。
用到的组件:

  • QueryList:先用Queyrylist采集页面内容html
  • readability:把采集到的HTML原始内容给readability分析树结构,提取页面内容。

组件仓库地址:

https://querylist.cc/

https://github.com/andreskrey/readability.php

看效果:

代码:

php 复制代码
public function readability()
    {
        $param = $this->request->param();
        if($this->request->isPost())
        {
            $url = trim($param['url']);

            $ql = QueryList::get($url);
            $html = $ql->getHtml();
            //$html = file_get_contents($url);
            //$html = HttpService::request($url);

            $rules = [
                'keywords' => ['meta[name=keywords]','content'],
                'description' => ['meta[name=description]','content']
            ];
            $query =  $ql->rules($rules)->queryData();

            $readability = new Readability(new Configuration());
            $readability->parse($html);


            $data['title'] = $readability->getTitle();
            $data['seo_title'] = $readability->getTitle();
            $data['keywords'] = $query['keywords'];
            $data['description'] = '';
            $data['source'] = $url;
            $data['status'] = true;

            $content = $readability->getContent();
            $content = preg_replace("/<!--[^\!\[]*?(?<!\/\/)-->/","",$content);//删除注释
            $content = preg_replace("/<div (id|class)=('|\")(.*?)(\'|\")>/","",$content);//删除最外层idv
            $content = preg_replace("/(↵|\r\n|\n|\r)<\/div>$/","",$content);//删除最外层idv

            $data['content'] = $content;
            $data['thumb'] = $readability->getImage();
            $images = $readability->getImages();
            $photos = [];
            if(!empty($images))
            {
                foreach($photos as $v)
                {
                    $photo = [
                        'src'   => $v,
                        'alt'   => '',
                    ];
                    array_push($photos,$photo);
                }
                $data['photos'] = $photos;
            }


            return $data;
        }
        else
        {
            return $this->fetch();
        }

    }
相关推荐
江南十四行14 分钟前
并发编程(四)
开发语言·python
葱卤山猪16 分钟前
C++17 联合体
开发语言·c++
折哥的程序人生 · 物流技术专研17 分钟前
Java 23 种设计模式:从踩坑到精通 | 抽象工厂 —— 支付/收款如何成套创建?跨平台 UI 如何一键换肤?
java·开发语言·后端·设计模式
方也_arkling20 分钟前
【Java-Day11】抽象类和抽象方法
java·开发语言
Ulyanov26 分钟前
深入QML-Python通信 构建响应式交互界面的桥梁设计:QML+PySide6现代开发入门(五)
开发语言·python·算法·交互·qml·系统仿真
就叫_这个吧29 分钟前
JavaScript中常用事件示例展示附源码
开发语言·javascript·html
不会C语言的男孩30 分钟前
C++ Primer Plus 第9章:内存模型和名称空间
开发语言·c++
zz345729811333 分钟前
函数:python与c语言
c语言·开发语言·python
峥嵘life1 小时前
Android getprop 属性限制详解:User 版本属性获取问题分析
android·开发语言·python·学习
郝学胜-神的一滴1 小时前
Qt 高级开发 019:从零定制登录窗口按钮、Logo 样式与交互悬浮效果
开发语言·c++·qt·程序人生·交互·用户界面