xpath定位

一、路径符号核心区别(表格速查)

符号 名称 作用范围 典型使用场景 性能影响
/ 单斜杠 ./ 相对路径直接子级, /绝对路劲-根路径 精确层级定位 高效
// 双斜杠 //当前元素下开始查找,可以跨嵌套层 模糊层级/跨嵌套定位 较低效

一、XPath基础定位类型(适合小白入门)

绝对路径定位

示例:/html/body/div[2]/div[3]/span

特点:从根节点开始逐层查找,像文件路径

缺点:路径长且容易受页面结构调整影响

相对路径定位

示例://div//span 或者 .//div/span

特点:用双斜杠//表示任意层级,更灵活

作用:查找所有div下的任意层级的span标签

示例2:./div 相对当前元素的直接子元素div

标签名+属性定位

示例://input[@id="username"]

解析:查找所有input标签中id属性等于"username"的元素

常用属性:@id、@class、@name、@type等

模糊匹配定位

示例1://div[contains(@class, "page")]

作用:查找class属性包含"page"的div

示例2://a[starts-with(@href, "https")]

作用:查找href属性以https开头的链接

文本内容定位

示例://button[text()="提交"]

进阶://h2[contains(text(), "最新消息")]

注意:text()方法对隐藏文本可能无效

二、进阶定位技巧(需要理解DOM结构)

6. 索引定位

示例://ul/li[3]

作用:选择第三个li元素(注意索引从1开始)

风险:页面结构变化时容易失效

逻辑运算符

示例://input[@type="text" and @required]

组合条件:and/or 连接多个条件

通配符使用

示例1://[@class="item"] 匹配任何标签

示例2://div[@] 匹配有任意属性的div

三、高级轴定位(处理复杂文档结构)

9. 父子关系

parent轴://span/parent::div

child轴://ul/child::li

后代: //ul/descendant:😗

descendant-or-self

兄弟关系

当前节点之前的所有同级节点:following-sibling://h3/following-sibling::p

当前节点后的同级节点:preceding-sibling://span/preceding-sibling::a

祖先关系

所有先辈: ancestor轴://em/ancestor::div[@class="container"]

后代关系

所有后代:descendant轴://div[@id="main"]/descendant::img

//div[contains(@class, 'chapter-name')]/parent::div/following-sibling::div[position() <= 20]

相关推荐
狗都不学爬虫_17 小时前
JS逆向 - (国外)SHEIN站 - 请求头(armorToken、Anti-in)
javascript·python·ajax·网络爬虫·wasm
小白学大数据1 天前
基于Python的新闻爬虫:实时追踪行业动态
开发语言·爬虫·python
小白iP代理1 天前
动态IP+AI反侦测:新一代爬虫如何绕过生物行为验证?
人工智能·爬虫·tcp/ip
致远ccc2 天前
DuoPlus云手机再上新:统一配置品牌型号、代理分组与便捷搜索功能全面提升!
功能测试·云手机·多账号·跨境运营
叫我:松哥2 天前
基于网络爬虫的在线医疗咨询数据爬取与医疗服务分析系统,技术采用django+朴素贝叶斯算法+boostrap+echart可视化
人工智能·爬虫·python·算法·django·数据可视化·朴素贝叶斯
bksheng2 天前
【SSL证书校验问题】通过 monkey-patch 关掉 SSL 证书校验
网络·爬虫·python·网络协议·ssl
叫我:松哥3 天前
优秀案例:基于python django的智能家居销售数据采集和分析系统设计与实现,使用混合推荐算法和LSTM算法情感分析
爬虫·python·算法·django·lstm·智能家居·推荐算法
xnglan3 天前
使用爬虫获取游戏的iframe地址
开发语言·爬虫·python·学习
荼蘼3 天前
python爬虫实战-小案例:爬取苏宁易购的好评
开发语言·爬虫·python
香蕉可乐荷包蛋3 天前
爬虫基础概念
爬虫