Python爬取豆瓣电影Top250数据

任务

爬取豆瓣电影top250中的影片名称、影片海报、年份、地区、类型、评分、评价人数、总体评价,并输出到douban_top250.xlsx文件中

环境

Python 3.8

requests

bs4

openpyxl

源码

python 复制代码
# 创建一个新的Excel工作簿
workbook = openpyxl.Workbook()
# 获取默认的工作表
sheet = workbook.active
# 写入数据
sheet['A1'] = '序号'
sheet['B1'] = '电影名'
sheet['C1'] = '海报'
sheet['D1'] = '年份'
sheet['E1'] = '地区'
sheet['F1'] = '类型'
sheet['G1'] = '评分'
sheet['H1'] = '评价人数'
sheet['I1'] = '总体评价'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
}
index = 1
for start_page in range(0, 250, 25):
    response = requests.get(f"https://movie.douban.com/top250?start={start_page}", headers=headers)
    html = response.text
    # html.parser表示使用html进行解析
    soup = BeautifulSoup(html, "html.parser")
    items = soup.find_all("div", attrs={"class": "item"})
    for item in items:
        # 海报
        post = item.find("img").get('src')
        # 名称
        name = item.find('span', class_="title").text
        # 年份
        infos = item.find('p', class_='').text.split("\n")[2].split("/")
        year = infos[0].strip()
        location = infos[1].strip()
        category = infos[2].strip()
        rate = item.find('span', class_='rating_num').text
        stars = item.find('div', class_='star')
        rate_people = stars.contents[7].text[:-3]
        review = ""
        if item.find('span', class_='inq') is not None:
            review = item.find('span', class_='inq').text
        sheet.append([index, name, post, year, location, category, rate, rate_people, review])
        index = index + 1
# 保存工作簿
workbook.save('./files/douban_top250.xlsx')

结果

相关推荐
学测绘的小杨6 分钟前
CompassFusion:一个从 GNSS 到 GNSS/INS 组合导航的独立工程包
python
zzzzzz3107 小时前
当产品经理说这个很简单:我用Python自动化处理奇葩需求的实战指南
python·pycharm·产品经理
雪隐7 小时前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
兵慌码乱19 小时前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot20 小时前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海1 天前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱1 天前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽1 天前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码1 天前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱2 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理