【实战项目二】Python爬取豆瓣影评

目录

一、环境准备

二、编写代码


一、环境准备

bash 复制代码
pip install beautifulsoup4
pip intall lxml
pip install requests

我们需要爬取这些影评

二、编写代码

我们发现每个影评所在的div的class都相同,我们可以从这入手

python 复制代码
from bs4 import BeautifulSoup
import requests

# 请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
url = 'https://movie.douban.com/review/best/'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
div = soup.find_all('div', class_='main review-item') # 找到每个影评的div,返回所有影评div列表
for d in div:
    # 获取所有img标签
    img = d.img
    # 获取硬盘标题
    title = d.h2.string
    # 获取影评
    con = list(d.find('div', class_="short-content").stripped_strings)[0]
    print(con)
相关推荐
米优16 小时前
C/C++中实现自定义自动释放堆内存空间类
c语言·开发语言·c++
傻啦嘿哟17 小时前
Python上下文管理器:优雅处理资源释放的魔法工具
开发语言·python
阿方索17 小时前
Python 基础简介
开发语言·python
Data_agent17 小时前
CNFANS模式淘宝1688代购系统搭建指南
大数据·开发语言·前端·javascript
Sammyyyyy17 小时前
MongoDB 的文档模型与 CRUD 实战
开发语言·数据库·mongodb·servbay
帅那个帅17 小时前
go的雪花算法代码分享
开发语言·后端·golang
BBB努力学习程序设计17 小时前
Python异步编程完全指南:从asyncio到高性能应用
python·pycharm
deephub17 小时前
机器学习时间特征处理:循环编码(Cyclical Encoding)与其在预测模型中的应用
人工智能·python·机器学习·特征工程·时间序列
挖矿大亨17 小时前
C++中的引用
开发语言·c++