【Python第三方库】lxml 解析器和xpath路径语言

1.lxml是做什么的

是xml/html的解析器,主要是用来解析和提取html/xml数据

2.lxml语法
  • 使用etree.HTML(html字符串),将字符串转换为Element对象
  • 通过使用Element对象.xpath(语法)提取信息,返回的是一个列表的内存地址,需要通过使用索引获取信息
3.Xpath是什么

在HTML/xml文档中查找信息的语言,使用路径表达式来选取html/xml文档中的节点/节点集

4.常用节点选取工具
  • 谷歌浏览器里面使用XPath Helper
5.XPath 语法
节点选择语法​​​​​​​
复制代码
|----------|----------------------------|----------------------------------------------------------------------------------------------------------------|
| **节点分类** | **概念**                     | **举例**                                                                                                         |
| /        | 从根节点取                      | /html/head/div 获取的html节点下的head节点下所有的div节点内容信息                                                                  |
| //       | 从匹配选择的当前节点选择文档中的节点,不考虑节点位置 | //div 获取全html文档内的所有div节点的内容信息,返回列表                                                                             |
| .        | 选取当前节点                     |                                                                                                                |
| ..       | 选取当前节点的父节点                 |                                                                                                                |
| @        | 选取指定节点内的属性                 | //div\[@class="map"\] 获取全文档下的div节点中属性class的值为map的节点内容信息,返回的是列表 //img\[@id="s_log"\]/@scid获取img标签的id为s_log的scid |
节点修饰语法
相关推荐
AI街潜水的八角3 小时前
Python电脑屏幕&摄像头录制软件(提供源代码)
开发语言·python
hadage2333 小时前
--- git 的一些使用 ---
开发语言·git·python
笨笨聊运维9 小时前
CentOS官方不维护版本,配置python升级方法,无损版
linux·python·centos
Gerardisite9 小时前
如何在微信个人号开发中有效管理API接口?
java·开发语言·python·微信·php
小毛驴8509 小时前
软件设计模式-装饰器模式
python·设计模式·装饰器模式
闲人编程10 小时前
Python的导入系统:模块查找、加载和缓存机制
java·python·缓存·加载器·codecapsule·查找器
weixin_4577600010 小时前
Python 数据结构
数据结构·windows·python