Xpath爬取Crossin教室的文章详情页的阅读数等示例(二)

一、爬取目标描述:

从Crossin编程教室的站点的爬虫练习专栏展示的文章列表页(爬虫练习)分别进入每一篇文章的详细页面,获得每一篇文章的阅读数、点赞数和评论数并打印。

二、代码示例:

python 复制代码
from lxml import etree
import requests


def pages_spider(id):
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 '
                      'Safari/537.36'
    }

    url = 'http://111.230.211.102:8080/tasks/article/' + str(id)
    res = requests.get(url, headers=headers)
    html = res.text
    selector = etree.HTML(html)

    result = selector.xpath('//*[contains(@class,"ppx-main-block")]/p/text()')
    result2 = selector.xpath('//*[contains(@class,"col-xs-12")]/h5/span/text()')
    print(result)
    print(result2)


for i in range(1, 9):
    pages_spider(i)

三、代码总结:

本次代码不像前一篇博文那样只是将爬取代码按照爬取流程的逻辑写了出来。而是将某个页面的爬取流程放入了函数体中。实现爬取流程逻辑的模块化。这样就可以用for循环来循环调用函数获取所有详情页的文章内容及获得每篇文章的阅读数、点赞数和评论数。

相关推荐
超龄超能程序猿10 分钟前
(5)机器学习小白入门 YOLOv:数据需求与图像不足应对策略
人工智能·python·机器学习·numpy·pandas·scipy
cooldream20092 小时前
Python 包管理新时代:深入了解 `uv` 的使用与实践
python·uv·包管理器
之歆2 小时前
Python-魔术方法-创建、初始化与销毁-hash-bool-可视化-运算符重载-容器和大小-可调用对象-上下文管理-反射-描述器-二分-学习笔记
笔记·python·学习
胖达不服输2 小时前
「日拱一码」025 机器学习——评价指标
人工智能·python·机器学习·评价指标
brave_zhao3 小时前
JavaBeanUtils javaBean转map, 实体类转map,实体集合转List<Map>
linux·windows·python
apihz5 小时前
通用图片搜索-搜狗源免费API接口使用指南
android·java·python·php·音视频
爱吃面条的猿5 小时前
pycharm中自动补全方法返回变量
ide·python·pycharm
倔强青铜三5 小时前
苦练Python第15天:Lambda函数——Python的匿名一行杀器
人工智能·python·面试
云空5 小时前
《QtPy:Python与Qt的完美桥梁》
开发语言·python·qt·pyqt
Hi_kenyon5 小时前
UV的使用总结
python·uv