系列文章目录
提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第一章 Python 机器学习入门之pandas的使用
文章目录
- 系列文章目录
- 前言
- [2.1 概述](#2.1 概述)
- [2.2 re 解析](#2.2 re 解析)
- [2.3 bs4 解析](#2.3 bs4 解析)
- [2.4 xpath 解析](#2.4 xpath 解析)
- 总结
前言
2.1 概述
- 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取。
- 常见有 3 种方式:
re
bs4
xpath
2.2 re 解析
2.3 bs4 解析
- 首先掌握 html 标签语法
2.4 xpath 解析
xpath
可⽤来在XML
⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。- 用法:
- 将要解析的html内容构造出
etree
对象。 - 使⽤
etree
对象的xpath()
⽅法配合xpath表达式
来完成对数据的提取。
- 将要解析的html内容构造出

总结
- 尝试使用3种解析方法解析网页源代码。