【Python第三方库】lxml 解析器和xpath路径语言

1.lxml是做什么的

是xml/html的解析器,主要是用来解析和提取html/xml数据

2.lxml语法
  • 使用etree.HTML(html字符串),将字符串转换为Element对象
  • 通过使用Element对象.xpath(语法)提取信息,返回的是一个列表的内存地址,需要通过使用索引获取信息
3.Xpath是什么

在HTML/xml文档中查找信息的语言,使用路径表达式来选取html/xml文档中的节点/节点集

4.常用节点选取工具
  • 谷歌浏览器里面使用XPath Helper
5.XPath 语法
节点选择语法​​​​​​​
复制代码
|----------|----------------------------|----------------------------------------------------------------------------------------------------------------|
| **节点分类** | **概念**                     | **举例**                                                                                                         |
| /        | 从根节点取                      | /html/head/div 获取的html节点下的head节点下所有的div节点内容信息                                                                  |
| //       | 从匹配选择的当前节点选择文档中的节点,不考虑节点位置 | //div 获取全html文档内的所有div节点的内容信息,返回列表                                                                             |
| .        | 选取当前节点                     |                                                                                                                |
| ..       | 选取当前节点的父节点                 |                                                                                                                |
| @        | 选取指定节点内的属性                 | //div\[@class="map"\] 获取全文档下的div节点中属性class的值为map的节点内容信息,返回的是列表 //img\[@id="s_log"\]/@scid获取img标签的id为s_log的scid |
节点修饰语法
相关推荐
孟健11 小时前
Karpathy 用 200 行纯 Python 从零实现 GPT:代码逐行解析
python
码路飞13 小时前
写了个 AI 聊天页面,被 5 种流式格式折腾了一整天 😭
javascript·python
曲幽15 小时前
FastAPI压力测试实战:Locust模拟真实用户并发及优化建议
python·fastapi·web·locust·asyncio·test·uvicorn·workers
敏编程19 小时前
一天一个Python库:jsonschema - JSON 数据验证利器
python
前端付豪20 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
databook20 小时前
ManimCE v0.20.1 发布:LaTeX 渲染修复与动画稳定性提升
python·动效
花酒锄作田1 天前
使用 pkgutil 实现动态插件系统
python
前端付豪2 天前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
曲幽2 天前
FastAPI实战:打造本地文生图接口,ollama+diffusers让AI绘画更听话
python·fastapi·web·cors·diffusers·lcm·ollama·dreamshaper8·txt2img
老赵全栈实战2 天前
Pydantic配置管理最佳实践(一)
python