xpath应用大全 - 技术栈

一、xpath在爬虫中的应用

1、/div 表示从根节点开始选取div节点

2、/span 表示从根节点开始选取span节点

3、//a 表示选取文档中所有a节点而不考虑其位置

4、@class 表示选取名为class的属性

5、 . 表示选取当前节点

6、 .. 表示选取当前节点的父节点

7、/div/a 表示从根节点开始选取div节点下的a节点

8、 /div/a[2]/img 表示从根节点开始选取div节点下的第二个a节点下的img节点

9、//div[@class='header-wrapper' 表示选取所有属性class的值为header-warpper的div节点

10、//* 表示选取文档中所有元素

11、//@* 表示选取文档中所有带属性的元素

12、/div/p/text() 表示选取p节点的文本内容

13、/div[contains(@class,"post")] 表示选取带有class属性且包含"post"的所有的div节点，取反//div[not(contains(@class,"post"))]

14、//div/p[last()-1] 表示选取div下倒数第二个p节点

15、//div/p[position()>1] 表示选取div下第二个p节点后的所有兄弟节点

二、xpath在爬虫中的应用场景

定位元素：使用XPath表达式可以精确地定位到网页中的特定元素，如标题、链接、图片等。
提取数据：结合XPath和爬虫工具（如Python的lxml、BeautifulSoup等库），可以轻松地提取网页中的数据，如商品价格、新闻标题、文章正文等。
处理复杂的HTML结构：面对复杂的HTML结构，XPath的灵活性和强大功能使其成为处理这类问题的理想选择。
自动化表单填写：在网页自动化测试或数据提交过程中，XPath可以用来定位表单元素，并模拟用户输入。

三、使用xpath的基本步骤

四、xpath进阶用法

位置谓词 ：
- //ul/li[1]：选择ul下的第一个li元素。
- //div[@class='article']/p[position()=last()]：选择class为article的div下的最后一个p元素。
比较运算符 ：
- //p[@id='para1']：选择id属性为para1的p元素。
- //a[@href!='#']：选择href属性不等于#的a元素。
逻辑运算符 ：
- //input[@type='text' and (@name='username' or @name='email')]：选择type为text且name为username或email的input元素。
内置函数 ：
- contains(str1, str2)：判断str1是否包含str2。
- starts-with(str, prefix)：判断字符串str是否以prefix开头。
- substring-before(str, delim)：返回str中delim之前的子字符串。
- substring-after(str, delim)：返回str中delim之后的子字符串。