【实战项目二】Python爬取豆瓣影评

目录

一、环境准备

二、编写代码


一、环境准备

bash 复制代码
pip install beautifulsoup4
pip intall lxml
pip install requests

我们需要爬取这些影评

二、编写代码

我们发现每个影评所在的div的class都相同,我们可以从这入手

python 复制代码
from bs4 import BeautifulSoup
import requests

# 请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
url = 'https://movie.douban.com/review/best/'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
div = soup.find_all('div', class_='main review-item') # 找到每个影评的div,返回所有影评div列表
for d in div:
    # 获取所有img标签
    img = d.img
    # 获取硬盘标题
    title = d.h2.string
    # 获取影评
    con = list(d.find('div', class_="short-content").stripped_strings)[0]
    print(con)
相关推荐
趣知岛37 分钟前
初识Java
java·开发语言
IT·小灰灰38 分钟前
探索即梦生图AI与AI Ping平台的创新融合:技术实践与代码实现
人工智能·python
deephub41 分钟前
CALM自编码器:用连续向量替代离散token,生成效率提升4倍
人工智能·python·大语言模型
步菲3 小时前
springboot canche 无法避免Null key错误, Null key returned for cache operation
java·开发语言·spring boot
94621931zyn63 小时前
关于应用 - Cordova 与 OpenHarmony 混合开发实战
笔记·python
知远同学8 小时前
Anaconda的安装使用(为python管理虚拟环境)
开发语言·python
小徐Chao努力8 小时前
【Langchain4j-Java AI开发】09-Agent智能体工作流
java·开发语言·人工智能
Blossom.1188 小时前
AI编译器实战:从零手写算子融合与自动调度系统
人工智能·python·深度学习·机器学习·flask·transformer·tornado
CoderCodingNo8 小时前
【GESP】C++五级真题(贪心和剪枝思想) luogu-B3930 [GESP202312 五级] 烹饪问题
开发语言·c++·剪枝
kylezhao20198 小时前
第1章:第一节 开发环境搭建(工控场景最优配置)
开发语言·c#