【爬虫实战项目一】Python爬取豆瓣电影榜单数据

目录

一、环境准备

二、编写代码

[2.1 分页分析](#2.1 分页分析)

[2.2 编码](#2.2 编码)


一、环境准备

安装requests和lxml

python 复制代码
pip install requests
pip install lxml

二、编写代码

2.1 分页分析

编写代码前我们先看看榜单的url

我们假如要爬取五页的数据,那么五个url分别是:

https://movie.douban.com/top250?start=0\&filter=
https://movie.douban.com/top250?start=25\&filter=
https://movie.douban.com/top250?start=50\&filter=
https://movie.douban.com/top250?start=75\&filter=
https://movie.douban.com/top250?start=100\&filter=

不难看出,规律在于start参数,每页有25条数据。

那么按照分页计算公式**(当前页数 - 1) * 每页数据量** 得出 代码逻辑。

2.2 编码

我们复制下xpath。

python 复制代码
import random
from lxml import etree
import requests
import time

# 请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
# 共取5页数据
for i in range(1, 6):
    start = (i - 1) * 25
    url = f'https://movie.douban.com/top250?start={start}&filter='
    response = requests.get(url, headers=headers)
    tree = etree.HTML(response.text)
    div = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div')
    for d in div:
        # 获取当前电影标题
        title = d.xpath('.//span[@class="title"][1]/text()')[0]
        print(title)
    time.sleep(random.randint(1, 3))

成功爬取豆瓣电影TOP250榜单。

相关推荐
dhxhsgrx38 分钟前
PYTHON训练营DAY25
java·开发语言·python
伊织code3 小时前
PyTorch API 5 - 全分片数据并行、流水线并行、概率分布
pytorch·python·ai·api·-·5
风逸hhh3 小时前
python打卡day25@浙大疏锦行
开发语言·python
刚入门的大一新生3 小时前
C++初阶-string类的模拟实现与改进
开发语言·c++
魔尔助理顾问4 小时前
Flask如何读取配置信息
python·flask·bootstrap
chxii5 小时前
5java集合框架
java·开发语言
老衲有点帅5 小时前
C#多线程Thread
开发语言·c#
C++ 老炮儿的技术栈5 小时前
什么是函数重载?为什么 C 不支持函数重载,而 C++能支持函数重载?
c语言·开发语言·c++·qt·算法
jc_hook5 小时前
Python 接入DeepSeek
python·大模型·deepseek