Python 爬虫实战----3(实力展现)

实战:获取豆瓣电影top250的电影名字

1.获取url:打开网站按发f12,点击网络,刷新找到第一个截取url和User-Agent。

2.请求爬取数据

python 复制代码
mport requests
import fake_useragent
from lxml import etree
import re
#UA
head = {
    "User-Agent": fake_useragent.UserAgent().random

}#这里使用了fake_useragent,会自动生成一个user-agent

url = "https://movie.douban.com/top250"
response = requests.get(url, headers=head)

2.定位想要的数据(其他数据也可以,同样找地址)

在元素中定位(列表一般都是有序的,所以只用定位一个例子)

python 复制代码
response = requests.get(url, headers=head)
res_text = response.text
tree = etree.HTML(res_text)
#定位需要的数据
list_li=tree.xpath("//ol[@class='grid_view']/li")
for li in list_li:
    movie_name="".join(li.xpath(".//span[@class='title'][1]/text()"))

我们进入下一个页面,发现下一个页面多了start=25的参数,可判断下下个页面是start=50,以此类推,可以通过遍历访问每一个页面。

python 复制代码
https://movie.douban.com/top250?start=25&filter=
python 复制代码
for i in range(0, 250, 25):
    url = f"https://movie.douban.com/top250?start={i}&filter="

修改url

3.输出并储存:

python 复制代码
# 打开一个文件写入数据
fp = open("./doubanFilm.txt", "w", encoding="utf8")
fp.write(movie_name+"\n")
        print(movie_name)
fp.close()

总结:将每一步整合:

python 复制代码
import requests
import fake_useragent
from lxml import etree

#UA
head = {
    "User-Agent": fake_useragent.UserAgent().random

}
# 打开一个文件写入数据
fp = open("./doubanFilm.txt", "w", encoding="utf8")

for i in range(0, 250, 25):
    url = f"https://movie.douban.com/top250?start={i}&filter="

    response = requests.get(url, headers=head)
    res_text = response.text
    tree = etree.HTML(res_text)
#定位需要的数据
    list_li=tree.xpath("//ol[@class='grid_view']/li")
    for li in list_li:
        movie_name="".join(li.xpath(".//span[@class='title'][1]/text()"))


        fp.write(movie_name+"\n")
        print(movie_name)
fp.close()

运行:

运行成功,想要其他的数据也是可行的,只需找到需要的地址,以一个为例即可,每个的规律相同

爬虫重在仔细,耐心。

相关推荐
小_太_阳7 分钟前
Scala_【1】概述
开发语言·后端·scala·intellij-idea
向宇it8 分钟前
【从零开始入门unity游戏开发之——unity篇02】unity6基础入门——软件下载安装、Unity Hub配置、安装unity编辑器、许可证管理
开发语言·unity·c#·编辑器·游戏引擎
Kai HVZ42 分钟前
python爬虫----爬取视频实战
爬虫·python·音视频
古希腊掌管学习的神44 分钟前
[LeetCode-Python版]相向双指针——611. 有效三角形的个数
开发语言·python·leetcode
赵钰老师1 小时前
【R语言遥感技术】“R+遥感”的水环境综合评价方法
开发语言·数据分析·r语言
m0_748244831 小时前
StarRocks 排查单副本表
大数据·数据库·python
就爱学编程1 小时前
重生之我在异世界学编程之C语言小项目:通讯录
c语言·开发语言·数据结构·算法
B站计算机毕业设计超人1 小时前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
路人甲ing..1 小时前
jupyter切换内核方法配置问题总结
chrome·python·jupyter
游客5201 小时前
opencv中的常用的100个API
图像处理·人工智能·python·opencv·计算机视觉