【Python第三方库】lxml 解析器和xpath路径语言

1.lxml是做什么的

是xml/html的解析器,主要是用来解析和提取html/xml数据

2.lxml语法
  • 使用etree.HTML(html字符串),将字符串转换为Element对象
  • 通过使用Element对象.xpath(语法)提取信息,返回的是一个列表的内存地址,需要通过使用索引获取信息
3.Xpath是什么

在HTML/xml文档中查找信息的语言,使用路径表达式来选取html/xml文档中的节点/节点集

4.常用节点选取工具
  • 谷歌浏览器里面使用XPath Helper
5.XPath 语法
节点选择语法​​​​​​​
|----------|----------------------------|----------------------------------------------------------------------------------------------------------------|
| **节点分类** | **概念**                     | **举例**                                                                                                         |
| /        | 从根节点取                      | /html/head/div 获取的html节点下的head节点下所有的div节点内容信息                                                                  |
| //       | 从匹配选择的当前节点选择文档中的节点,不考虑节点位置 | //div 获取全html文档内的所有div节点的内容信息,返回列表                                                                             |
| .        | 选取当前节点                     |                                                                                                                |
| ..       | 选取当前节点的父节点                 |                                                                                                                |
| @        | 选取指定节点内的属性                 | //div\[@class="map"\] 获取全文档下的div节点中属性class的值为map的节点内容信息,返回的是列表 //img\[@id="s_log"\]/@scid获取img标签的id为s_log的scid |
节点修饰语法
相关推荐
0zxm5 分钟前
06 - Django 视图view
网络·后端·python·django
ROBOT玲玉1 小时前
Milvus 中,FieldSchema 的 dim 参数和索引参数中的 “nlist“ 的区别
python·机器学习·numpy
Kai HVZ2 小时前
python爬虫----爬取视频实战
爬虫·python·音视频
古希腊掌管学习的神2 小时前
[LeetCode-Python版]相向双指针——611. 有效三角形的个数
开发语言·python·leetcode
m0_748244832 小时前
StarRocks 排查单副本表
大数据·数据库·python
B站计算机毕业设计超人2 小时前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
路人甲ing..2 小时前
jupyter切换内核方法配置问题总结
chrome·python·jupyter
游客5202 小时前
opencv中的常用的100个API
图像处理·人工智能·python·opencv·计算机视觉
每天都要学信号2 小时前
Python(第一天)
开发语言·python
凡人的AI工具箱3 小时前
每天40分玩转Django:Django国际化
数据库·人工智能·后端·python·django·sqlite