xpath翻页爬取

目标:

使用xpath+csv方式,获取豆瓣前250名电影的名称和影评

思路:

循环每一页电影,对每一部电影内容进行遍历,最后保存

python 复制代码
# xpath翻页获取数据(电影名+影评)并将其保存
# 思路:结构相似的情况下,就是参数问题

#引入请求头,csv保存,时间
import requests
import csv
import time
#创建表格的表头
#csv要求是可迭代对象即可
csv_data= [
    ('电影名称','电影评价')
]
#设置自己的身份
headers = {"user-agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36 Edg/137.0.0.0"}
#一共10页,需要10次循环
#翻页是参数的不同,对于get方式,url中找参数不同
#页数下标从0开始,对应参数值0开始,每次25增加
for i in range(10):
    #设置目标地址
    #找得是HTML框架,不是json数据且为静态数据,从url或是标头中得到即可
    url=f'https://movie.douban.com/top250?start={i*25}&filter='
    #发送请求
    response=requests.get(url,headers=headers)
    #设置xpath需要的相关工具包
    from lxml import etree
    #将获取到的HTML格式字符串转换为python对象
    html_obj = etree.HTML(response.text)
    #使用xpath方式对python对象获取相关数据
    #1-10对应的网页结构一致
    #获取每页电影对应的总标签名
    m_list=html_obj.xpath('//*[@id="content"]/div/div[1]/ol/li')
    #循环每页每一部电影
    for item in m_list:
        # . 代表当前目录
        # 将电影名称完整路径拼接
        title = item.xpath('./div/div[2]/div[1]/a/span[1]/text()')
        # 将影评完整路径拼接
        yp = item.xpath('./div/div[2]/div[2]/p[2]/span/text()')
        # 如果影评为空,使用zip方法将其每一部电影名和影评组合一起会失败,所以需要判断
        # 遍历的是每一页中的其中一部电影,所以对应的影评只有一个值,所以为空状态即为[]
        if yp == []:
            # 将其为空列表添加数据,防止zip匹配不上
            yp.append('无')
        # 通过zip方法会将其中的参数拼组成一个可迭代对象,使用for循环遍历
        for item_ in zip(title,yp):
            #添加到表格中为表体
            csv_data.append(item_)
            #验证每一次影评是否成功获取,或是赋值
            print(item_[1],'保存成功')
        #休眠,防爬
        time.sleep(1)
#固定格式写入csv中
with open('NewDoBan250','w',encoding='utf-8-sig',newline='') as f:
    writer = csv.writer(f)
    writer.writerows(csv_data)
相关推荐
love530love12 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
遇事不決洛必達12 小时前
【Python基础】GIL 锁是什么及其对爬虫的影响
爬虫·python·线程·进程·gil锁
CryptoPP13 小时前
快速对接东京证券交易所API数据:实战指南与代码示例
开发语言·人工智能·windows·python·信息可视化·区块链
探物 AI14 小时前
把 MambaOut 塞进 YOLOv11:会有什么样的反应
python·yolo·计算机视觉
如竟没有火炬14 小时前
最大矩阵——单调栈
数据结构·python·线性代数·算法·leetcode·矩阵
阳区欠14 小时前
【LangChain】LLM基础介绍
开发语言·python·langchain
Cosolar14 小时前
保姆级 CrewAI 教程:从零构建多智能体协作系统
人工智能·python·架构
GDAL15 小时前
使用 uv 管理 Python 版本
python·uv·版本
真实的菜15 小时前
Redis 从入门到精通(十二):典型业务场景实战 —— 排行榜、限流器、秒杀系统、Session 共享
数据库·redis·python
cup1115 小时前
[开源] Meta Assistant / 告别命令行,我为一堆 Python 脚本做了一个 Windows 任务栏的“家”
windows·python·工具·nuitka·脚本运行