xpath的基本使用,精准定位html中的元素

元素定位

基本语法

/ 从根节点开始选取 /html/div/span

// 从任意节点开始选取 //input

. 选取当前节点

.. 选取当前节点的父节点 //input/.. 会选取 input 的父节点

@ 选取属性或者根据属性选取 //input@data 选取具备 data 属性的 input 元素 //@data 选取所有 data 属性

* 通配符,表示任意节点或任意属性

标签名

寻找特定标签名的元素

复制代码
/div        从根节点获取div
//div       从任意节点获取div
/*          从根节点获取任意元素

属性名

寻找带有特定属性的元素,@符号代表要对属性值进行操作了

复制代码
//div[@class="c1"]        class为c1的div元素
//*[@class="c1"]          class为c1的任意元素

层级

寻找特定层级的元素

复制代码
//div[@class="c1"]/p        class为c1的div元素下的p元素
//*[@class="c1"]/span[@class="c2"]          class为c1的任意元素下的class为c2的span元素

次序

寻找指定排名的元素

复制代码
//div[@class="c1"]/p[1]        class为c1的div元素下的第一个p元素
//*[@class="c1"]/span[@class="c2"][2]          class为c1的任意元素下的第二个class为c2的span元素

元素筛选

逻辑表达式

|为逻辑或表达式,表示二者满足其一便可用于链接两个完整的xpath表达式,注意是完整的。

复制代码
//div[@class="c1"]/p[1]|//*[@class="c1"]/span[@class="c2"][2]

and,or,not是在方括号内用的

复制代码
//div[@class="c1" or @class="c2"]

判断语句

起始方括号内的语句就是判断语句

复制代码
/items/item[position() >= 2 and position() <= 5]        寻找/items/item,只匹配其中的第二到第五个

a[text()='Login']             可以匹配文本为"Login"的所有 <a> 元素。

函数的使用

text

获取节点中所有的字符组成字符串

html 复制代码
<book>  
    <title>Learning XPath</title>  
</book>

/book/title/text()

结果:
Learning XPath

concat()

concat() 函数用于将两个或多个字符串值连接成一个字符串。

html 复制代码
<book>  
    <title>Learning XPath</title>  
</book>

concat('The book title is: ', /book/title/text())

结果:The book title is: Learning XPath

substring()

substring() 函数用于从一个字符串中提取子字符串。

html 复制代码
<book>  
    <title>XPath for Dummies</title>  
</book>

substring(/book/title/text(), 1, 4)

contains()

html 复制代码
<book>  
    <title>XPath Fundamentals</title>  
</book>

contains(/book/title/text(), 'Path')

true

starts-with()

starts-with() 函数检查一个字符串是否以指定的前缀开始。

html 复制代码
<book>  
    <title>XPath Basics</title>  
</book>

starts-with(/book/title/text(), 'XPath')

true

number()

number() 函数将字符串转换为数字。

html 复制代码
<book>  
    <price>29.99</price>  
</book>

number(/book/price/text())

29.99

sum()

sum() 函数用于计算节点集中所有节点的数值之和。

html 复制代码
<books>  
    <book>  
        <price>19.99</price>  
    </book>  
    <book>  
        <price>24.99</price>  
    </book>  
</books>

sum(/books/book/price/text())

44.98

温馨提示

xpath在定位网页元素和获取内容时很有用,它的特性用在爬虫上非常好用,下一篇文章是在python的lxml库中使用xpath。

相关推荐
张拭心3 分钟前
Android 17 新特性:ProfilingManager 新触发器
android·前端
weixin_4713830312 分钟前
Taro-03-页面生命周期
前端·javascript·taro
张拭心15 分钟前
Android 17 新特性:MessageQueue 无锁实现
android·前端
Asize18 分钟前
数组数据结构底层:从灵活到陷阱
前端·javascript·算法
十九画生18 分钟前
Ajax 入门:用 XHR 理解前后端异步请求
前端·javascript·后端
yingyima19 分钟前
Python re 模块速查:从实战对比中掌握正则表达式
前端
放下华子我只抽RuiKe51 小时前
FastAPI 全栈后端(三):数据库与 ORM
前端·数据库·react.js·oracle·性能优化·前端框架·fastapi
梵得儿SHI2 小时前
Vue 项目实战与性能优化全攻略:从代码、渲染到首屏,一站式解决卡顿慢加载
前端·vue.js·性能优化·vite·前端面试·前端优化·首屏优化
ShyanZh2 小时前
【skill】HTML PPT Skill:用 Claude Code 一句话生成专业演示文稿
前端·ai·html·powerpoint·skill
AI视觉网奇2 小时前
three教学 3d资产拼接源代码
前端·css·css3