爬虫-BeautifulSoup之XML篇

1. 发送 HTTP 请求获取页面内容

python 复制代码
url = "https://example.com"
response = requests.get(url)
xml_content = response.text

2. 创建 Beautiful Soup 对象

python 复制代码
soup = BeautifulSoup(xml_content, 'xml')

3. 解析 XML 标签

3.1. 标签选择器

python 复制代码
# 选择所有的 <element> 标签
elements = soup.find_all('element')

# 选择第一个 <element> 标签
first_element = soup.find('element')

3.2. 属性选择器

python 复制代码
# 选择属性 id 为 '1' 的所有 <element> 标签
elements_with_id = soup.find_all('element', id='1')

4. 提取标签内容

python 复制代码
# 获取标签文本内容
first_element_content = first_element.text

5. 遍历标签集合

python 复制代码
for element in elements:
    print(element.text)

6. 使用 CSS 选择器

python 复制代码
# 通过 CSS 选择器选择所有 <element> 标签
elements_css = soup.select('element')

7. 处理嵌套标签

python 复制代码
# 获取嵌套标签的内容
nested_content = soup.select_one('root element').text

8. 提取嵌套标签的内容

python 复制代码
# 嵌套选择标签
nested_element_content = soup.find('root').find('element').text

9. 使用 find_all 方法

python 复制代码
# 使用 `find_all` 方法选择属性 id 为 "1" 的所有 <element> 标签
elements_with_id = soup.find_all("element", attrs={"id": "1"})
相关推荐
浪子不回头41519 小时前
推理建模学习笔记
笔记·学习
小张是铁粉19 小时前
oracle 数据库学习之体系结构(1-4章)
数据库·学习
会编程的吕洞宾19 小时前
智能体学习记录二之发展史
学习
代码游侠19 小时前
应用——基于Linux的音乐播放器项目
linux·运维·笔记·学习·算法
Yyyyy123jsjs19 小时前
Python 如何做量化交易?从行情获取开始
开发语言·python
长安牧笛19 小时前
制作无人直播文案生成工具,输入直播主题,产品信息,自动生成直播文案,支持一键复制
python
廋到被风吹走19 小时前
【Spring】DefaultListableBeanFactory 详解
java·python·spring
子夜江寒19 小时前
Python 操作 MySQL 数据库
数据库·python·mysql
梦帮科技19 小时前
第二十二篇:AI驱动的工作流优化:性能瓶颈自动检测
数据结构·数据库·人工智能·python·开源·极限编程
myzzb19 小时前
python调用ffmpeg.exe封装装饰类调用
python·学习·ffmpeg·开发