Xpath爬取Crossin教室的文章详情页的阅读数等示例(二)

一、爬取目标描述:

从Crossin编程教室的站点的爬虫练习专栏展示的文章列表页(爬虫练习)分别进入每一篇文章的详细页面,获得每一篇文章的阅读数、点赞数和评论数并打印。

二、代码示例:

python 复制代码
from lxml import etree
import requests


def pages_spider(id):
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 '
                      'Safari/537.36'
    }

    url = 'http://111.230.211.102:8080/tasks/article/' + str(id)
    res = requests.get(url, headers=headers)
    html = res.text
    selector = etree.HTML(html)

    result = selector.xpath('//*[contains(@class,"ppx-main-block")]/p/text()')
    result2 = selector.xpath('//*[contains(@class,"col-xs-12")]/h5/span/text()')
    print(result)
    print(result2)


for i in range(1, 9):
    pages_spider(i)

三、代码总结:

本次代码不像前一篇博文那样只是将爬取代码按照爬取流程的逻辑写了出来。而是将某个页面的爬取流程放入了函数体中。实现爬取流程逻辑的模块化。这样就可以用for循环来循环调用函数获取所有详情页的文章内容及获得每篇文章的阅读数、点赞数和评论数。

相关推荐
用户6064876718896几秒前
国内开发者如何接入 Claude API?中转站方案实战指南(Python/Node.js 完整示例)
人工智能·python·api
只与明月听33 分钟前
RAG深入学习之Chunk
前端·人工智能·python
用户8356290780512 小时前
自动化文档处理:Python 批量提取 PDF 图片
后端·python
多恩Stone19 小时前
【C++入门扫盲1】C++ 与 Python:类型、编译器/解释器与 CPU 的关系
开发语言·c++·人工智能·python·算法·3d·aigc
QQ40220549619 小时前
Python+django+vue3预制菜半成品配菜平台
开发语言·python·django
百锦再19 小时前
Django实现接口token检测的实现方案
数据库·python·django·sqlite·flask·fastapi·pip
QQ51100828519 小时前
python+springboot+django/flask的校园资料分享系统
spring boot·python·django·flask·node.js·php
QQ_196328847519 小时前
Python-flask框架西山区家政服务评价系统网站设计与开发-Pycharm django
python·pycharm·flask
遥遥江上月19 小时前
Node.js + Stagehand + Python 部署
开发语言·python·node.js
B站计算机毕业设计超人19 小时前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计