Java:爬虫htmlunit抓取a标签

如果对htmlunit还不了解的话可以参考Java:爬虫htmlunit-CSDN博客

了解了htmlunit之后,我们再来学习如何在页面中抓取我们想要的数据,我们在学习初期可以找一些结构比较清晰的网站来做测试爬取,首先我们随意找个网站如下:

当我们打开网站F12,进入开发者模式,我们在学习之前我们需要知道我们要爬取什么数据,了解数据和页面的结构。就拿这个网站来说我们如果要爬取它的数据,首先需要获取他们的类别,在获取类别下的数据。那我们在点击类别的时候,需要分析下地址有没有变化,如果变化了,我们需要拿到指定类别的地址,然后和域名拼接成完整地址抓取其类目下的数据。

为什么要拼接呢?因为在网站类目使用的跳转,会自动加上站点地址;我们在爬取的时候是没有该网站域名的。

这个列子非常简单,我们直接要获取它的类别跳转的地址,再根据爬取的地址爬取其详情数据;

分析下来我们只要抓取该页面的a标签即可。这个在 htmlunit 中提供了 HtmlAnchor直接可以获取所有的a标签,代码如下:

/**
 * <b>Function: </b> todo
 *
 * @program: 根据页面信息获取子页面信息
 * @Package: com.kingbal.king.dmp
 * @author: dingcho
 * @date: 2024/06/13
 * @version: 1.0
 * @Copyright: 2024 www.kingbal.com Inc. All rights reserved.
 */
@Slf4j
public class BaseTest {

	public static void main(String[] args) throws Exception {
		HtmlPage page = SpiderUtils.crawlPageWithoutAnalyseJs("https://www.yiyiwiy.com/");
		//System.err.println(page);
		List<HtmlAnchor> htmlAnchorList = page.getAnchors();
		log.info("htmlAnchorList.size() >>" + htmlAnchorList.size());
		log.info("********************");
		htmlAnchorList.forEach(f -> {
			if(f.getHrefAttribute().contains("vodtypehtml")){
				log.info(f.getHrefAttribute());
			}
		});
		log.info("********************");
	}

}

我们抓取的是所有页面的a标签,所以我们需要过滤掉我们不需要的地址:

if(f.getHrefAttribute().contains("vodtypehtml")){
	log.info(f.getHrefAttribute());
}

然后执行代码,就可以获取到对应数据

相关推荐
B站计算机毕业设计超人9 小时前
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统 体育赛事热度预测系统 体育赛事数据分析 体育赛事可视化 体育赛事大数据 大数据毕设
大数据·hadoop·爬虫·深度学习·机器学习·spark·推荐算法
python死忠30169 小时前
【爬虫工具】小红书评论高级采集软件
爬虫
Jason-河山10 小时前
PHP爬虫APP程序:打造智能化数据抓取工具
开发语言·爬虫·php
A~taoker14 小时前
scrapy爬虫基础
爬虫·scrapy
欧阳枫落17 小时前
3.4 爬虫实战-爬去智联招聘职位信息
爬虫
不写八个17 小时前
Python爬虫爬取王者荣耀英雄信息并保存到图数据库
数据库·爬虫·python
DisonTangor20 小时前
Cloudflare为网站添加AI审计 可检查AI爬虫何时抓取和抓取频次以及直接屏蔽爬虫
人工智能·爬虫·搜索引擎
软糖工程0011 天前
正则表达式【详细解读】
大数据·前端·爬虫·python·学习·正则表达式·数据分析
爱技术的小伙子1 天前
【30天玩转python】网络爬虫开发
开发语言·爬虫·python
青果网络_xz1 天前
爬虫中,短效IP和长效IP哪个更好用?
服务器·爬虫·网络协议·tcp/ip·http