XPath:学习使用XPath语法提取HTML/XML文档中的数据使用语法

以下是一些XPath语法示例,用于提取HTML/XML文档中的数据:

  1. 选择元素:
    • 选择所有p元素: //p
    • 选择根元素: /
  2. 属性匹配:
    • 选择class属性为"example"的div元素: //div[@class='example']
  3. 文本内容提取:
    • 提取所有a元素的文本内容: //a/text()
    • 提取第一个p元素的文本内容: //p[1]/text()
  4. 使用逻辑运算符:
    • 选择同时具有class属性为"example"且id属性为"heading"的元素: //*[@class='example' and @id='heading']
  5. 使用位置谓词:
    • 选择前三个li元素: //li[position() <= 3]
    • 选择最后一个p元素: //p[last()]
  6. 使用通配符:
    • 选择所有元素: //*
    • 选择div元素下的任意子元素: //div/*
  7. 使用轴:
    • 选择div元素的所有祖先元素: //div/ancestor::*
    • 选择span元素之后的所有兄弟元素: //span/following-sibling::*

以上只是XPath语法的一些示例,您可以根据实际需求进行组合和调整。使用XPath语法,您能够更精确地选择和提取HTML/XML文档中的数据。

本文由mdnice多平台发布

相关推荐
aq55356003 分钟前
HTML头部元信息避坑指南
前端·html
skywalk816312 分钟前
CherryStudioWeb:一个优雅的 AI 聚合导航页,让你在一个页面访问所有主流 AI 服务。
前端·css·人工智能·html
ZC跨境爬虫12 小时前
3D 地球卫星轨道可视化平台开发 Day7(AI异步加速+卫星系列精简+AI Agent自动评论)
前端·人工智能·3d·html·json
ZC跨境爬虫14 小时前
3D 地球卫星轨道可视化平台开发 Day8(分步渲染200颗卫星+ 前端分页控制)
前端·python·3d·重构·html
大黄说说16 小时前
HTML5语义化标签:从div到article与section的进化之路
前端·html·html5
qq43569470118 小时前
JavaWeb05
前端·html
ZC跨境爬虫20 小时前
3D 地球卫星轨道可视化平台开发 Day6(SEC数据接口扩展实现)
前端·microsoft·3d·html·json·交互
qq4356947011 天前
JavaWeb03
前端·css·html
a1117761 天前
演唱会3D选座网页(HTML 开源)
前端·3d·html
Tisfy2 天前
CORS 跨域重定向后 Origin 变 null —— 一次 Nginx 字体加载失败的排查记录
运维·nginx·html·cors