3.2 Beautiful Soup使用

课程目标

  • 理解HTML文档结构和解析方法
  • 学习使用Beautiful Soup库解析HTML和XML文档

课程内容

Beautiful Soup
1. HTML文档结构

HTML(超文本标记语言)是构建网页的标准标记语言。了解HTML的基本结构对于使用Beautiful Soup解析网页至关重要。

  • 标签 :HTML由一系列的标签组成,例如<p>表示段落。
  • 属性 :标签可以包含属性,例如<img src="image.jpg">中的src属性。
2. 安装Beautiful Soup和Pandas

使用pip命令安装所需的库。

bash 复制代码
pip install beautifulsoup4 
3. 使用Beautiful Soup解析HTML

Beautiful Soup是一个用于解析HTML和XML文档的Python库。

python 复制代码
from bs4 import BeautifulSoup
import requests

# 获取网页内容
response = requests.get('https://www.example.com')
html_content = response.text

# 解析HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 找到所有的段落标签
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text)
4. Beautiful Soup的定位

Beautiful Soup提供了丰富的方法来导航和搜索解析树。

  • find(): 查找一个标签。
  • find_all(): 查找所有匹配的标签。
  • select(): 使用CSS选择器查找标签。
python 复制代码
# 查找ID为"main-content"的div
main_content = soup.find('div', id='main-content')

# 查找所有的图片标签
images = soup.find_all('img')

# 使用CSS选择器
links = soup.select('a[href]')
5. 值的获取
python 复制代码
# 获取属性值
img_src = soup.find('img').get('src')
# 获取文本内容
text = soup.text
相关推荐
UR的出不克几秒前
【Python实战】基于Flask+TensorFlow的网易云音乐数据分析系统:从数据爬取到情感分析的全流程实现
python·flask·tensorflow
涅小槃4 分钟前
Carla仿真学习笔记(版本0.9.16)
开发语言·python·ros·carla
witAI6 分钟前
2025动漫剧本创作工具推荐,助力逆袭重生动态漫
python·量子计算
wujialaoer7 分钟前
常用软件阿里源地址
开发语言·python
Ro Jace11 分钟前
A Real-Time Cross Correlator for Neurophysiological Research
人工智能·python·算法
还不秃顶的计科生11 分钟前
查看linux服务器中某文件夹占用空间大小
服务器·python
T_Fire_of_Square12 分钟前
crewai的进一步工具扩展
python·github
喵手16 分钟前
Python爬虫零基础入门【第三章:Requests 静态爬取入门·第3节】稳定性第一课:超时、重试、退避(指数退避)!
爬虫·python·python爬虫实战·python爬虫工程化实战·python爬虫零基础入门·requests静态爬取·超时、重试、退避
啊阿狸不会拉杆22 分钟前
《机器学习》第 7 章 - 神经网络与深度学习
人工智能·python·深度学习·神经网络·机器学习·ai·ml
没有bug.的程序员31 分钟前
Spring Boot 启动原理:从 @SpringBootApplication 到自动配置深度解析
java·spring boot·后端·python·springboot·application