【Python第三方库】lxml 解析器和xpath路径语言

1.lxml是做什么的

是xml/html的解析器,主要是用来解析和提取html/xml数据

2.lxml语法
  • 使用etree.HTML(html字符串),将字符串转换为Element对象
  • 通过使用Element对象.xpath(语法)提取信息,返回的是一个列表的内存地址,需要通过使用索引获取信息
3.Xpath是什么

在HTML/xml文档中查找信息的语言,使用路径表达式来选取html/xml文档中的节点/节点集

4.常用节点选取工具
  • 谷歌浏览器里面使用XPath Helper
5.XPath 语法
节点选择语法​​​​​​​
|----------|----------------------------|----------------------------------------------------------------------------------------------------------------|
| **节点分类** | **概念**                     | **举例**                                                                                                         |
| /        | 从根节点取                      | /html/head/div 获取的html节点下的head节点下所有的div节点内容信息                                                                  |
| //       | 从匹配选择的当前节点选择文档中的节点,不考虑节点位置 | //div 获取全html文档内的所有div节点的内容信息,返回列表                                                                             |
| .        | 选取当前节点                     |                                                                                                                |
| ..       | 选取当前节点的父节点                 |                                                                                                                |
| @        | 选取指定节点内的属性                 | //div\[@class="map"\] 获取全文档下的div节点中属性class的值为map的节点内容信息,返回的是列表 //img\[@id="s_log"\]/@scid获取img标签的id为s_log的scid |
节点修饰语法
相关推荐
LKID体1 分钟前
Python操作neo4j库py2neo使用之创建和查询(二)
数据库·python·neo4j
LKID体5 分钟前
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作(三)
开发语言·python·neo4j
小屁孩大帅-杨一凡7 分钟前
Python-flet实现个人视频播放器
开发语言·python·音视频
算家云9 分钟前
快速识别模型:simple_ocr,部署教程
开发语言·人工智能·python·ocr·数字识别·检测模型·英文符号识别
Thomas_Cai20 分钟前
Python后端flask框架接收zip压缩包方法
开发语言·python·flask
亚图跨际43 分钟前
Python和R荧光分光光度法
开发语言·python·r语言·荧光分光光度法
谢眠1 小时前
深度学习day3-自动微分
python·深度学习·机器学习
z千鑫1 小时前
【人工智能】深入理解PyTorch:从0开始完整教程!全文注解
人工智能·pytorch·python·gpt·深度学习·ai编程
MessiGo2 小时前
Python 爬虫 (1)基础 | 基础操作
开发语言·python