正则表达式与bs4选择器筛选论文数准确率之比较

一、正则爬取论文网首页论文标题的示例

python 复制代码
import requests
import re
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/83.0.4103.116 Safari/537.36'}


def get_html(url):
    try:
        res = requests.get(url, headers=headers)
        res.raise_for_status()
        res.encoding = 'gbk'
        return res.text
    except:
        print('response error!')


def paper_title(page):
    my_items = re.findall(r'<a href="(.*?)" target="_blank">(.*?)</a>', page)
    print('paper count of main page:' + str(len(my_items)))       # 用正则的findall得出首页所有论文的超链接数量
    for item in my_items:
        print(item)

二、主函数使用bs4的CSS选择器select()一样算出了论文数:

python 复制代码
if __name__ == '__main__':
    url = 'https://www.lunwendata.com/'
    html = get_html(url)
    soup = BeautifulSoup(html, 'html.parser')
    size = len(soup.select('a[target="_blank"]'))  # 用CSS选择器得出首页所有论文超链接数
    print('paper count of main page:' + str(size))
    paper_title(html)

三、输出结果得出用正则方法筛选准确率更高:

可以看到,用正则的方法筛选出的数量比bs4的select选择器筛选出的少了20个,证明正则的方法筛选数量的准确率更高。

相关推荐
利刃大大9 小时前
【高并发服务器】三、正则表达式的使用
服务器·c++·正则表达式·项目
尘觉4 天前
正则表达式入门与进阶(优化版)
正则表达式
AI悦创|编程1v15 天前
00-1-正则表达式学习心得:从入门到上瘾,再到克制
数据仓库·正则表达式·数据挖掘·ai悦创编程一对一教学·python一对一辅导·python一对一教学
带土15 天前
PHP 中的正则表达式
正则表达式·php
taller_20005 天前
VBA之正则表达式(45)-- 拆分材料和规格
正则表达式·正则·数据清洗·提取数据·材料规格
光明磊5 天前
正则表达式Regex
正则表达式
AI悦创|编程1v16 天前
01-元字符:如何巧妙记忆正则表达式的基本元件?
正则表达式·ai悦创编程一对一教学·python一对一辅导·python一对一教学
課代表7 天前
Acrobat DC 文本域表单验证中的 js 使用
javascript·正则表达式·表单验证·数据完整性·字段验证·事件对象·自定义验证
风语者6669 天前
perl踩坑系列===正则表达式第2坑---split中的“或”操作符
开发语言·正则表达式·perl
AI悦创|编程1v112 天前
00-为什么要系统学习正则表达式?
学习·正则表达式·python一对一辅导·python一对一教学