3.2 Beautiful Soup使用

欧阳枫落2024-08-23 20:16

课程目标

理解HTML文档结构和解析方法
学习使用Beautiful Soup库解析HTML和XML文档

课程内容

Beautiful Soup

1. HTML文档结构

HTML（超文本标记语言）是构建网页的标准标记语言。了解HTML的基本结构对于使用Beautiful Soup解析网页至关重要。

标签：HTML由一系列的标签组成，例如<p>表示段落。
属性：标签可以包含属性，例如<img src="image.jpg">中的src属性。

2. 安装Beautiful Soup和Pandas

使用pip命令安装所需的库。

bash 复制代码

pip install beautifulsoup4

3. 使用Beautiful Soup解析HTML

Beautiful Soup是一个用于解析HTML和XML文档的Python库。

python 复制代码

from bs4 import BeautifulSoup
import requests

# 获取网页内容
response = requests.get('https://www.example.com')
html_content = response.text

# 解析HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 找到所有的段落标签
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text)

4. Beautiful Soup的定位

Beautiful Soup提供了丰富的方法来导航和搜索解析树。

find(): 查找一个标签。
find_all(): 查找所有匹配的标签。
select(): 使用CSS选择器查找标签。

python 复制代码

# 查找ID为"main-content"的div
main_content = soup.find('div', id='main-content')

# 查找所有的图片标签
images = soup.find_all('img')

# 使用CSS选择器
links = soup.select('a[href]')

5. 值的获取

python 复制代码

# 获取属性值
img_src = soup.find('img').get('src')
# 获取文本内容
text = soup.text