Java:爬虫htmlunit实践

之前我们已经讲过使用htmlunit及基础,没有看过的可以参考Java:爬虫htmlunit-CSDN博客

我们今天就来实际操作一下,爬取指定网站的数据

1、首先我们要爬取一个网站数据的时候我们需要对其数据获取方式我们要进行分析,我们今天就拿双色球历史开奖查询-双色球历史开奖结果-彩经网作为我们示例目标,使用google浏览器,示例仅供学习使用

历史数据比较多,所以存在分页的情况,请打开f12调出开发者模式

在使用网站过程中我们点击下一页的时候发现,请求接口已经做了路由跳转,在右侧请求地址中未发现数据接口,在上方发现地址变化了,为什么会这样呢?这个其实涉及到了搜索引擎收录的问题这个在后续我们会具体讲解;我们现在可以继续尝试点击下一页,地址都会变化所以我们直接根据地址来进行爬数据操作就可以了,地址确定之后我们就需要对页面数据进行分析

实际我们只要获取列表数据即可,第一行数据是头所不需要获取,即获取第二个 //tbody[@id='kjnum']//tr ,代码如下 >>>

复制代码
@Slf4j
public class BaseTest {


	public static void main(String[] args) throws Exception {
		HtmlPage page = SpiderUtils.crawlPageWithoutAnalyseJs("https://www.cjcp.cn/kaijiang/ssqmingxi_154.html");
		//System.err.println(page);
		List<HtmlTableRow> htmlTableRowList = page.getByXPath("//tbody[@id='kjnum']//tr");
		htmlTableRowList.forEach(f -> {
			log.info("********************");
			List<HtmlTableCell> htmlTableCellList = f.getCells();

			log.info("开奖期数 >> " + htmlTableCellList.get(0).getTextContent());
			log.info("开奖时间 >> " + htmlTableCellList.get(1).getTextContent());
			log.info("双色球开奖结果 >> " + htmlTableCellList.get(2).getTextContent());

			log.info("总销售额 >> " + htmlTableCellList.get(3).getTextContent());
			log.info("奖池 >> " + htmlTableCellList.get(4).getTextContent());
			log.info("一等奖 >> 注数  >> " + htmlTableCellList.get(5).getTextContent());
			log.info("一等奖 >> 金额  >> " + htmlTableCellList.get(6).getTextContent());
			log.info("二等奖 >> 注数  >> " + htmlTableCellList.get(7).getTextContent());
			log.info("二等奖 >> 金额  >> " + htmlTableCellList.get(8).getTextContent());
			log.info("三等奖 >> 注数  >> " + htmlTableCellList.get(9).getTextContent());
			log.info("三等奖 >> 金额  >> " + htmlTableCellList.get(10).getTextContent());
			log.info("********************");
		});
	}
}

执行后,发现我们未获取到号码 >>>

通过对页面的分析,发现号码是图片形式所以我们要添加下获取方式 >>>

复制代码
List<HtmlImage> htmlImageList = htmlTableCellList.get(2).getByXPath("div//img");
htmlImageList.forEach(htmlImage -> {
    log.info(htmlImage.getAttribute("src"));
});

这个时候我们再跑一下数据 >>> 这时候我们就可以看到已经正常获取数据

注意:在此我们需要getByXPath中获取当前节点的根不能以"//"开始,"//为当前页面根目录搜索"

当然大家对爬虫比较感兴趣,htmlunit还提供了其它获取页面元素的方法,具体我们可以参考HtmlTableRow 类 (System.Web.UI.HtmlControls) | Microsoft Learn

相关推荐
ShiJiuD66688899930 分钟前
Java stream流和方法引用
java·开发语言
专注前端30年1 小时前
【Java微服务架构】Spring Cloud Alibaba全家桶实战:Nacos+Sentinel+Seata+分布式事务
java·微服务·架构
苏渡苇1 小时前
轻量化AI落地:Java + Spring Boot 实现设备异常预判
java·人工智能·spring boot·后端·网络协议·tcp/ip·spring
追随者永远是胜利者2 小时前
(LeetCode-Hot100)64. 最小路径和
java·算法·leetcode·职场和发展·go
学习是生活的调味剂2 小时前
nacos原理之服务注册浅析
java·开发语言·nacos·注册中心
没有bug.的程序员3 小时前
Arthas 深度进阶:线上问题非侵入式诊断内核、方法级监控与线程阻塞排查实战指南
java·arthas·线上问题·非侵入式·方法级监控·线程阻塞
亓才孓3 小时前
[Mybatis]Mybatis框架
java·数据库·mybatis
跟Tom学编程—一对一编程辅导3 小时前
基于 Java 的 SSM 架构电子商城项目毕业设计课题选型指导文档|名企高级开发工程师全程一对一指导(含详细文档+源码+部署)
java·架构·毕业设计·课程设计
编程小风筝3 小时前
编写java代码如何写文档注释?
java·开发语言
与衫4 小时前
如何将SQLFlow工具产生的血缘导入到Datahub平台中
java·开发语言·数据库