【实战项目二】Python爬取豆瓣影评

目录

一、环境准备

二、编写代码


一、环境准备

bash 复制代码
pip install beautifulsoup4
pip intall lxml
pip install requests

我们需要爬取这些影评

二、编写代码

我们发现每个影评所在的div的class都相同,我们可以从这入手

python 复制代码
from bs4 import BeautifulSoup
import requests

# 请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
url = 'https://movie.douban.com/review/best/'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
div = soup.find_all('div', class_='main review-item') # 找到每个影评的div,返回所有影评div列表
for d in div:
    # 获取所有img标签
    img = d.img
    # 获取硬盘标题
    title = d.h2.string
    # 获取影评
    con = list(d.find('div', class_="short-content").stripped_strings)[0]
    print(con)
相关推荐
想吃火锅10053 小时前
【leetcode】405.数字转换为十六进制数js
开发语言·javascript·ecmascript
珺毅同学3 小时前
YOLO生成预测json标签迁移问题
python·yolo·json
骑士雄师3 小时前
18.4 长期记忆可修改版
python
专注VB编程开发20年3 小时前
AI 生成C# WinForm 窗体 = 目前就是垃圾
开发语言·人工智能·c#
cfm_29143 小时前
JVM GC垃圾回收初步了解
java·开发语言·jvm
~小先生~3 小时前
Python从入门到放弃(一)
开发语言·python
天佑木枫4 小时前
第2天:变量与数据类型 —— 让程序记住信息
python
许彰午4 小时前
17_synchronized关键字深度解析
java·开发语言
z落落4 小时前
C# 泛型接口和泛型类+泛型约束
开发语言·c#
阿正的梦工坊4 小时前
【Rust】02-变量、不可变性与基础类型
开发语言·后端·rust