xpath定位

一、路径符号核心区别(表格速查)

符号 名称 作用范围 典型使用场景 性能影响
/ 单斜杠 ./ 相对路径直接子级, /绝对路劲-根路径 精确层级定位 高效
// 双斜杠 //当前元素下开始查找,可以跨嵌套层 模糊层级/跨嵌套定位 较低效

一、XPath基础定位类型(适合小白入门)

绝对路径定位

示例:/html/body/div[2]/div[3]/span

特点:从根节点开始逐层查找,像文件路径

缺点:路径长且容易受页面结构调整影响

相对路径定位

示例://div//span 或者 .//div/span

特点:用双斜杠//表示任意层级,更灵活

作用:查找所有div下的任意层级的span标签

示例2:./div 相对当前元素的直接子元素div

标签名+属性定位

示例://input[@id="username"]

解析:查找所有input标签中id属性等于"username"的元素

常用属性:@id、@class、@name、@type等

模糊匹配定位

示例1://div[contains(@class, "page")]

作用:查找class属性包含"page"的div

示例2://a[starts-with(@href, "https")]

作用:查找href属性以https开头的链接

文本内容定位

示例://button[text()="提交"]

进阶://h2[contains(text(), "最新消息")]

注意:text()方法对隐藏文本可能无效

二、进阶定位技巧(需要理解DOM结构)

6. 索引定位

示例://ul/li[3]

作用:选择第三个li元素(注意索引从1开始)

风险:页面结构变化时容易失效

逻辑运算符

示例://input[@type="text" and @required]

组合条件:and/or 连接多个条件

通配符使用

示例1://[@class="item"] 匹配任何标签

示例2://div[@] 匹配有任意属性的div

三、高级轴定位(处理复杂文档结构)

9. 父子关系

parent轴://span/parent::div

child轴://ul/child::li

后代: //ul/descendant:😗

descendant-or-self

兄弟关系

当前节点之前的所有同级节点:following-sibling://h3/following-sibling::p

当前节点后的同级节点:preceding-sibling://span/preceding-sibling::a

祖先关系

所有先辈: ancestor轴://em/ancestor::div[@class="container"]

后代关系

所有后代:descendant轴://div[@id="main"]/descendant::img

//div[contains(@class, 'chapter-name')]/parent::div/following-sibling::div[position() <= 20]

相关推荐
0思必得01 小时前
[Web自动化] Selenium处理滚动条
前端·爬虫·python·selenium·自动化
vx_biyesheji00012 小时前
豆瓣电影推荐系统 | Python Django 协同过滤 Echarts可视化 深度学习 大数据 毕业设计源码
大数据·爬虫·python·深度学习·django·毕业设计·echarts
深蓝电商API3 小时前
爬虫IP封禁后的自动切换与检测机制
爬虫·python
喵手5 小时前
Python爬虫实战:公共自行车站点智能采集系统 - 从零构建生产级爬虫的完整实战(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集公共自行车站点·公共自行车站点智能采集系统·采集公共自行车站点导出csv
喵手5 小时前
Python爬虫实战:地图 POI + 行政区反查实战 - 商圈热力数据准备完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·地区poi·行政区反查·商圈热力数据采集
芷栀夏5 小时前
从 CANN 开源项目看现代爬虫架构的演进:轻量、智能与统一
人工智能·爬虫·架构·开源·cann
喵手21 小时前
Python爬虫实战:HTTP缓存系统深度实战 — ETag、Last-Modified与requests-cache完全指南(附SQLite持久化存储)!
爬虫·python·爬虫实战·http缓存·etag·零基础python爬虫教学·requests-cache
喵手21 小时前
Python爬虫实战:容器化与定时调度实战 - Docker + Cron + 日志轮转 + 失败重试完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·容器化·零基础python爬虫教学·csv导出·定时调度
软件检测小牛玛1 天前
具备软件功能测试资质的机构哪家更权威?山东软件测评机构 中承信安
功能测试·单元测试·软件测试报告·软件测评机构
喵手1 天前
Python爬虫实战:全站 Sitemap 自动发现 - 解析 sitemap.xml → 自动生成抓取队列的工业级实现!
爬虫·python·爬虫实战·零基础python爬虫教学·sitemap·解析sitemap.xml·自动生成抓取队列实现