网络爬虫Xpath开发工具的使用

开发人员在编写网络爬虫程序时若遇到解析网页数据的问题,则需要花费大量的时间编
写与测试路径表达式,以确认是否可以解析出所需要的数据。为帮助开发人员在网页上直接
测试路径表达式是否正确,我们在这里推荐一款比较好用的 XPath 开发工具------ XPath Helper 。
XPath Helper 是一款运行在 Chrome 浏览器上的插件,它支持在网页上单击元素生成路径
表达式,也支持对照网页源代码手动编写路径表达式。在使用 XPath Helper 进行测试之前,
我们需要先在 Chrome 浏览器上添加 XPath Helper 插件。下面为大家分别介绍安装与使用 XPath
Helper 插件

1.安装 XPath Helper 插件

安装 XPath Helper 插件的方式比较简单。我们既可以通过 Chrome 网上应用店进行安装,
也可以通过下载到本地的 XPathHelper.crx 文件进行安装。在这里,我们以 XPathHelper.crx 文
件为例演示如何安装 XPath Helper 插件,具体步骤如下。
( 1 )在 Chrome 浏览器的右上角单击" "按钮,打开自定义及控制 Google Chrome 菜单,
在该菜单中单击"更多工具"→"扩展程序"进入扩展程序页面,如图 4-2 所示。

( 2 )将 XPathHelper.crx 文件拖入扩展程序页面,可以看到该页面中增加了扩展程序 XPath
Helper ,然后打开该扩展程序对应的开启按钮,此时扩展程序页面的右上角位置显示了 XPath
Helper 的图标 ,如图 4-3 所示。


( 3 )在图 4-3 中,单击 图标可以看到浏览器顶部弹出一个 XPath Helper 界面,具体如
图 4-4 所示。

在图 4-4 中,界面左侧的编辑区域用于输入路径表达式,右侧区域用于展示该路径表达式
选取的结果,并且会将结果总数目(默认显示的值为 0 )显示到 RESULTS 后面的括号里。

2.使用 XPath Helper 插件

下面以豆瓣网站上喜剧电影排行榜页面为例,为大家分步骤演示如何使用 XPath Helper
工具测试路径表达式,具体步骤如下。
(1 )在浏览器中打开豆瓣电影首页,在该页面中单击"排行榜" → "喜剧"进入喜剧电
影排行榜首页。喜剧电影排行榜首页中默认展示 20 部电影,当滚动条滑至页面底部时,会有
新的电影加载到页面中。在该页面顶部第一部电影名称"美丽人生"的上方单击鼠标右键,
打开快捷菜单,在该菜单中选择"检查"。页面底部弹出了 Elements 的面板,并定位到了电影
名称"美丽人生"对应元素源代码的位置,具体如图 4-5 所示。

(2 )分析图 4-5 中元素的层次结构后,推断出最终的路径表达式可以为:
//div[@class='movie-info']/div/span/a/text()
需要说明的是,路径表达式并不唯一,既可以是从根节点开始的绝对路径,也可以是从
任意节点开始的相对路径。
(3 )打开 XPath Helper 工具,在左侧的编辑区域中输入上述路径表达式。此时右侧区域
中展示了路径表达式选取的结果及数目,如图 4-6 所示。

从图 4-6 中可以看出,根据左边的路径表达式,该页面展示了所有的电影名称。

相关推荐
qq_402605658 分钟前
python爬虫(二) ---- JS动态渲染数据抓取
javascript·爬虫·python
浔川python社10 小时前
《网络爬虫技术规范与应用指南系列》(xc—5)完
爬虫·python
深蓝电商API14 小时前
爬虫的道德与法律边界:Robots 协议、版权与个人信息保护
爬虫
qq_4026056517 小时前
python爬虫(一) ---- 静态html数据抓取
爬虫·python·html
加油201917 小时前
爬虫框架: selenium API使用介绍
爬虫·selenium·测试工具
好开心啊没烦恼19 小时前
Python数据分析:使用爬虫从网页、社交媒体平台、论坛等公开资源提取中文和英文人名。
开发语言·爬虫·python·数据挖掘·数据分析
qq_4026056521 小时前
python爬虫(三) ---- 分页抓取数据
开发语言·爬虫·python
shelter -唯1 天前
基于selenium库的爬虫实战:京东手机数据爬取
爬虫·python·selenium
深蓝电商API2 天前
Scrapy 中间件详解:自定义下载器与爬虫的 “拦截器”
爬虫·scrapy·中间件
浔川python社3 天前
网络爬虫技术规范与应用指南系列(xc—1)
数据库·爬虫