目标:
使用xpath+csv方式,获取豆瓣前250名电影的名称和影评
思路:
循环每一页电影,对每一部电影内容进行遍历,最后保存
python
# xpath翻页获取数据(电影名+影评)并将其保存
# 思路:结构相似的情况下,就是参数问题
#引入请求头,csv保存,时间
import requests
import csv
import time
#创建表格的表头
#csv要求是可迭代对象即可
csv_data= [
('电影名称','电影评价')
]
#设置自己的身份
headers = {"user-agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36 Edg/137.0.0.0"}
#一共10页,需要10次循环
#翻页是参数的不同,对于get方式,url中找参数不同
#页数下标从0开始,对应参数值0开始,每次25增加
for i in range(10):
#设置目标地址
#找得是HTML框架,不是json数据且为静态数据,从url或是标头中得到即可
url=f'https://movie.douban.com/top250?start={i*25}&filter='
#发送请求
response=requests.get(url,headers=headers)
#设置xpath需要的相关工具包
from lxml import etree
#将获取到的HTML格式字符串转换为python对象
html_obj = etree.HTML(response.text)
#使用xpath方式对python对象获取相关数据
#1-10对应的网页结构一致
#获取每页电影对应的总标签名
m_list=html_obj.xpath('//*[@id="content"]/div/div[1]/ol/li')
#循环每页每一部电影
for item in m_list:
# . 代表当前目录
# 将电影名称完整路径拼接
title = item.xpath('./div/div[2]/div[1]/a/span[1]/text()')
# 将影评完整路径拼接
yp = item.xpath('./div/div[2]/div[2]/p[2]/span/text()')
# 如果影评为空,使用zip方法将其每一部电影名和影评组合一起会失败,所以需要判断
# 遍历的是每一页中的其中一部电影,所以对应的影评只有一个值,所以为空状态即为[]
if yp == []:
# 将其为空列表添加数据,防止zip匹配不上
yp.append('无')
# 通过zip方法会将其中的参数拼组成一个可迭代对象,使用for循环遍历
for item_ in zip(title,yp):
#添加到表格中为表体
csv_data.append(item_)
#验证每一次影评是否成功获取,或是赋值
print(item_[1],'保存成功')
#休眠,防爬
time.sleep(1)
#固定格式写入csv中
with open('NewDoBan250','w',encoding='utf-8-sig',newline='') as f:
writer = csv.writer(f)
writer.writerows(csv_data)