xpath翻页爬取

目标:

使用xpath+csv方式,获取豆瓣前250名电影的名称和影评

思路:

循环每一页电影,对每一部电影内容进行遍历,最后保存

python 复制代码
# xpath翻页获取数据(电影名+影评)并将其保存
# 思路:结构相似的情况下,就是参数问题

#引入请求头,csv保存,时间
import requests
import csv
import time
#创建表格的表头
#csv要求是可迭代对象即可
csv_data= [
    ('电影名称','电影评价')
]
#设置自己的身份
headers = {"user-agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36 Edg/137.0.0.0"}
#一共10页,需要10次循环
#翻页是参数的不同,对于get方式,url中找参数不同
#页数下标从0开始,对应参数值0开始,每次25增加
for i in range(10):
    #设置目标地址
    #找得是HTML框架,不是json数据且为静态数据,从url或是标头中得到即可
    url=f'https://movie.douban.com/top250?start={i*25}&filter='
    #发送请求
    response=requests.get(url,headers=headers)
    #设置xpath需要的相关工具包
    from lxml import etree
    #将获取到的HTML格式字符串转换为python对象
    html_obj = etree.HTML(response.text)
    #使用xpath方式对python对象获取相关数据
    #1-10对应的网页结构一致
    #获取每页电影对应的总标签名
    m_list=html_obj.xpath('//*[@id="content"]/div/div[1]/ol/li')
    #循环每页每一部电影
    for item in m_list:
        # . 代表当前目录
        # 将电影名称完整路径拼接
        title = item.xpath('./div/div[2]/div[1]/a/span[1]/text()')
        # 将影评完整路径拼接
        yp = item.xpath('./div/div[2]/div[2]/p[2]/span/text()')
        # 如果影评为空,使用zip方法将其每一部电影名和影评组合一起会失败,所以需要判断
        # 遍历的是每一页中的其中一部电影,所以对应的影评只有一个值,所以为空状态即为[]
        if yp == []:
            # 将其为空列表添加数据,防止zip匹配不上
            yp.append('无')
        # 通过zip方法会将其中的参数拼组成一个可迭代对象,使用for循环遍历
        for item_ in zip(title,yp):
            #添加到表格中为表体
            csv_data.append(item_)
            #验证每一次影评是否成功获取,或是赋值
            print(item_[1],'保存成功')
        #休眠,防爬
        time.sleep(1)
#固定格式写入csv中
with open('NewDoBan250','w',encoding='utf-8-sig',newline='') as f:
    writer = csv.writer(f)
    writer.writerows(csv_data)
相关推荐
m0_741173332 小时前
MySQL导入大SQL文件报错怎么办_拆分文件与优化系统参数
jvm·数据库·python
矢志航天的阿洪2 小时前
手动安装Gurobi并配置gurobipy到Python环境(Windows/Conda)
windows·python·conda
IT空门:门主2 小时前
Python 数据类型学习笔记
python·学习
m0_588758482 小时前
如何解决Oracle启动ORA-00119错误_网络服务名与listener相关性
jvm·数据库·python
PSLoverS2 小时前
MySQL如何利用防火墙限制MySQL端口_使用iptables或安全组防御
jvm·数据库·python
qq_414256572 小时前
Go语言如何用strings.Builder_Go语言strings.Builder教程【总结】
jvm·数据库·python
lulu12165440782 小时前
国内怎么用GPT5.5?基于weelinking零门槛合规接入GPT5.5全系列生产级能力
java·人工智能·python·gpt·ai编程
南宫萧幕2 小时前
基于 DQN 与 Python-Simulink 联合仿真的 HEV 能量管理策略实战
开发语言·python·matlab·汽车·控制
iwS2o90XT2 小时前
Java多线程编程:Thread与Runnable的并发控制
java·开发语言·python