网络爬虫Xpath开发工具的使用

开发人员在编写网络爬虫程序时若遇到解析网页数据的问题,则需要花费大量的时间编
写与测试路径表达式,以确认是否可以解析出所需要的数据。为帮助开发人员在网页上直接
测试路径表达式是否正确,我们在这里推荐一款比较好用的 XPath 开发工具------ XPath Helper 。
XPath Helper 是一款运行在 Chrome 浏览器上的插件,它支持在网页上单击元素生成路径
表达式,也支持对照网页源代码手动编写路径表达式。在使用 XPath Helper 进行测试之前,
我们需要先在 Chrome 浏览器上添加 XPath Helper 插件。下面为大家分别介绍安装与使用 XPath
Helper 插件

1.安装 XPath Helper 插件

安装 XPath Helper 插件的方式比较简单。我们既可以通过 Chrome 网上应用店进行安装,
也可以通过下载到本地的 XPathHelper.crx 文件进行安装。在这里,我们以 XPathHelper.crx 文
件为例演示如何安装 XPath Helper 插件,具体步骤如下。
( 1 )在 Chrome 浏览器的右上角单击" "按钮,打开自定义及控制 Google Chrome 菜单,
在该菜单中单击"更多工具"→"扩展程序"进入扩展程序页面,如图 4-2 所示。

( 2 )将 XPathHelper.crx 文件拖入扩展程序页面,可以看到该页面中增加了扩展程序 XPath
Helper ,然后打开该扩展程序对应的开启按钮,此时扩展程序页面的右上角位置显示了 XPath
Helper 的图标 ,如图 4-3 所示。


( 3 )在图 4-3 中,单击 图标可以看到浏览器顶部弹出一个 XPath Helper 界面,具体如
图 4-4 所示。

在图 4-4 中,界面左侧的编辑区域用于输入路径表达式,右侧区域用于展示该路径表达式
选取的结果,并且会将结果总数目(默认显示的值为 0 )显示到 RESULTS 后面的括号里。

2.使用 XPath Helper 插件

下面以豆瓣网站上喜剧电影排行榜页面为例,为大家分步骤演示如何使用 XPath Helper
工具测试路径表达式,具体步骤如下。
(1 )在浏览器中打开豆瓣电影首页,在该页面中单击"排行榜" → "喜剧"进入喜剧电
影排行榜首页。喜剧电影排行榜首页中默认展示 20 部电影,当滚动条滑至页面底部时,会有
新的电影加载到页面中。在该页面顶部第一部电影名称"美丽人生"的上方单击鼠标右键,
打开快捷菜单,在该菜单中选择"检查"。页面底部弹出了 Elements 的面板,并定位到了电影
名称"美丽人生"对应元素源代码的位置,具体如图 4-5 所示。

(2 )分析图 4-5 中元素的层次结构后,推断出最终的路径表达式可以为:
//div[@class='movie-info']/div/span/a/text()
需要说明的是,路径表达式并不唯一,既可以是从根节点开始的绝对路径,也可以是从
任意节点开始的相对路径。
(3 )打开 XPath Helper 工具,在左侧的编辑区域中输入上述路径表达式。此时右侧区域
中展示了路径表达式选取的结果及数目,如图 4-6 所示。

从图 4-6 中可以看出,根据左边的路径表达式,该页面展示了所有的电影名称。

相关推荐
爬虫程序猿1 小时前
《京东商品详情爬取实战指南》
爬虫·python
ningmengjing_3 小时前
webpack打包方式
前端·爬虫·webpack·node.js·逆向
小白学大数据6 小时前
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
爬虫·tcp/ip·selenium
华科云商xiao徐9 小时前
详解Selenium爬虫部署七大常见错误及修复方案
爬虫·selenium
华科云商xiao徐9 小时前
Linux环境下爬虫程序的部署难题与系统性解决方案
爬虫·数据挖掘·数据分析
qq_3129201111 小时前
Nginx限流与防爬虫与安全配置方案
运维·爬虫·nginx·安全
华科云商xiao徐12 小时前
Java并发编程常见“坑”与填坑指南
javascript·数据库·爬虫
夜无霄12 小时前
安卓逆向(一)Ubuntu环境配置
linux·运维·爬虫·ubuntu
zhousenshan1 天前
Python爬虫常用框架
开发语言·爬虫·python
deepwater_zone1 天前
网络爬虫(web crawler)
爬虫