Xpath爬取Crossin教室的文章详情页的阅读数等示例(二)

一、爬取目标描述:

从Crossin编程教室的站点的爬虫练习专栏展示的文章列表页(爬虫练习)分别进入每一篇文章的详细页面,获得每一篇文章的阅读数、点赞数和评论数并打印。

二、代码示例:

python 复制代码
from lxml import etree
import requests


def pages_spider(id):
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 '
                      'Safari/537.36'
    }

    url = 'http://111.230.211.102:8080/tasks/article/' + str(id)
    res = requests.get(url, headers=headers)
    html = res.text
    selector = etree.HTML(html)

    result = selector.xpath('//*[contains(@class,"ppx-main-block")]/p/text()')
    result2 = selector.xpath('//*[contains(@class,"col-xs-12")]/h5/span/text()')
    print(result)
    print(result2)


for i in range(1, 9):
    pages_spider(i)

三、代码总结:

本次代码不像前一篇博文那样只是将爬取代码按照爬取流程的逻辑写了出来。而是将某个页面的爬取流程放入了函数体中。实现爬取流程逻辑的模块化。这样就可以用for循环来循环调用函数获取所有详情页的文章内容及获得每篇文章的阅读数、点赞数和评论数。

相关推荐
zzb158011 分钟前
Agent案例-智能文档问答助手
java·人工智能·笔记·python
HP-Patience19 分钟前
【Python爬虫常见错误】- AJAX动态加载数据爬取
爬虫·python·ajax
青瓷程序设计23 分钟前
【基于 YOLO的咖啡豆果实成熟度检测系统】+ Python+算法模型+目标检测+2026原创
python·算法·yolo
天才测试猿24 分钟前
Python接口自动化测试之Token详解及应用
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·接口测试
童园管理札记32 分钟前
2026实测|GPT-4.5+Agent智能体:3小时搭建企业级客服系统,附完整源码与部署教程(二)
人工智能·python
:mnong38 分钟前
附图报价系统设计分析3
python·openvino
AmyLin_200139 分钟前
【pdf2md-2:关键核心】PDF 转 Markdown 技术拆解:两阶段流水线、四级标题检测与段落智能合并
windows·python·pdf·pip·pdf2md
薛不痒42 分钟前
Llamafactory的使用(1)
人工智能·python·llama
不喝水的鱼儿44 分钟前
KT Qwen3.5-35B-A3B 记录
java·前端·python
小陈工1 小时前
Python Web开发入门(三):配置文件管理与环境变量最佳实践
开发语言·jvm·数据库·python·oracle·性能优化·开源