PHP采集任意网址自动识别并提取页面主体内容

对于PHP采集很多种方式,但是都是指定dom哪个节点来采集内容,这样太麻烦了,有没有一方式可以任意网址可以自动识别主本内容呢。答案是有。
用到的组件:

  • QueryList:先用Queyrylist采集页面内容html
  • readability:把采集到的HTML原始内容给readability分析树结构,提取页面内容。

组件仓库地址:

https://querylist.cc/

https://github.com/andreskrey/readability.php

看效果:

代码:

php 复制代码
public function readability()
    {
        $param = $this->request->param();
        if($this->request->isPost())
        {
            $url = trim($param['url']);

            $ql = QueryList::get($url);
            $html = $ql->getHtml();
            //$html = file_get_contents($url);
            //$html = HttpService::request($url);

            $rules = [
                'keywords' => ['meta[name=keywords]','content'],
                'description' => ['meta[name=description]','content']
            ];
            $query =  $ql->rules($rules)->queryData();

            $readability = new Readability(new Configuration());
            $readability->parse($html);


            $data['title'] = $readability->getTitle();
            $data['seo_title'] = $readability->getTitle();
            $data['keywords'] = $query['keywords'];
            $data['description'] = '';
            $data['source'] = $url;
            $data['status'] = true;

            $content = $readability->getContent();
            $content = preg_replace("/<!--[^\!\[]*?(?<!\/\/)-->/","",$content);//删除注释
            $content = preg_replace("/<div (id|class)=('|\")(.*?)(\'|\")>/","",$content);//删除最外层idv
            $content = preg_replace("/(↵|\r\n|\n|\r)<\/div>$/","",$content);//删除最外层idv

            $data['content'] = $content;
            $data['thumb'] = $readability->getImage();
            $images = $readability->getImages();
            $photos = [];
            if(!empty($images))
            {
                foreach($photos as $v)
                {
                    $photo = [
                        'src'   => $v,
                        'alt'   => '',
                    ];
                    array_push($photos,$photo);
                }
                $data['photos'] = $photos;
            }


            return $data;
        }
        else
        {
            return $this->fetch();
        }

    }
相关推荐
ServBay1 天前
告别面条代码,PSL 5.0 重构 PHP 性能与安全天花板
后端·php
JaguarJack3 天前
FrankenPHP 原生支持 Windows 了
后端·php·服务端
BingoGo3 天前
FrankenPHP 原生支持 Windows 了
后端·php
JaguarJack4 天前
PHP 的异步编程 该怎么选择
后端·php·服务端
BingoGo4 天前
PHP 的异步编程 该怎么选择
后端·php
JaguarJack5 天前
为什么 PHP 闭包要加 static?
后端·php·服务端
ServBay6 天前
垃圾堆里编码?真的不要怪 PHP 不行
后端·php
用户962377954486 天前
CTF 伪协议
php
BingoGo8 天前
当你的 PHP 应用的 API 没有限流时会发生什么?
后端·php
JaguarJack8 天前
当你的 PHP 应用的 API 没有限流时会发生什么?
后端·php·服务端