【爬虫实战项目一】Python爬取豆瓣电影榜单数据

目录

一、环境准备

二、编写代码

[2.1 分页分析](#2.1 分页分析)

[2.2 编码](#2.2 编码)


一、环境准备

安装requests和lxml

python 复制代码
pip install requests
pip install lxml

二、编写代码

2.1 分页分析

编写代码前我们先看看榜单的url

我们假如要爬取五页的数据,那么五个url分别是:

https://movie.douban.com/top250?start=0\&filter=
https://movie.douban.com/top250?start=25\&filter=
https://movie.douban.com/top250?start=50\&filter=
https://movie.douban.com/top250?start=75\&filter=
https://movie.douban.com/top250?start=100\&filter=

不难看出,规律在于start参数,每页有25条数据。

那么按照分页计算公式**(当前页数 - 1) * 每页数据量** 得出 代码逻辑。

2.2 编码

我们复制下xpath。

python 复制代码
import random
from lxml import etree
import requests
import time

# 请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
# 共取5页数据
for i in range(1, 6):
    start = (i - 1) * 25
    url = f'https://movie.douban.com/top250?start={start}&filter='
    response = requests.get(url, headers=headers)
    tree = etree.HTML(response.text)
    div = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div')
    for d in div:
        # 获取当前电影标题
        title = d.xpath('.//span[@class="title"][1]/text()')[0]
        print(title)
    time.sleep(random.randint(1, 3))

成功爬取豆瓣电影TOP250榜单。

相关推荐
阿kun要赚马内2 分钟前
Python五类数据容器的对比和通用方法
开发语言·python
RE-19013 分钟前
Polars:告别 Pandas 性能瓶颈,用 Rust 驱动的 DataFrame 库处理亿级数据
开发语言·rust·pandas·polars·ai生成
2301_793804696 分钟前
C++中的备忘录模式
开发语言·c++·算法
好家伙VCC7 分钟前
# 发散创新:用 Rust 实现高性能事件驱动架构的实践与优化 在现代软件系统中,**事件驱动编程模型**已经成为构
java·开发语言·python·架构·rust
梦醒过后说珍重9 分钟前
Python 工程化实战:如何将复杂的EndoMamba感知损失封装为“即插即用”的独立模块包
python·深度学习
2501_9454235411 分钟前
C++编译期多态实现
开发语言·c++·算法
2401_8796938711 分钟前
设计模式在C++中的实现
开发语言·c++·算法
爱钓鱼的程序员小郭12 分钟前
阿里云自动配置安全组IP白名单
python·tcp/ip·安全·阿里云
程序员Ctrl喵13 分钟前
状态管理与响应式编程 —— 驾驭复杂应用的“灵魂工程”
开发语言·flutter·ui·架构
☆56614 分钟前
C++中的代理模式高级应用
开发语言·c++·算法