【爬虫】– 抓取原创力文档数据

使用RPA工具,实现针对于原创力中不可下载文档的抓取,可延用于其他类似文库

1 使用工具、环境

影刀RPA、WPS Office、谷歌浏览器(非指定)

2 代码流程

3 关键点

  1. 此方案只适合抓取非VIP即可预览全文的文档,抓取下来的数据是图片

  2. 打开网址后,需要鼠标向下滚动一段距离才能触发"下一页"按钮:

  3. 在节点路径:"//*[@id="main"]/div[1]/div[3]/div[2]//img"下,抓取链接(src属性),注意有些是文档中间的广告图片,有效的文档其实是"//view-cache.book118.com"开头的链接,需要过滤掉非此开头的广告链接,如下:

  4. 文档图片刷新很玄学,需要上下滑动网页才能刷新出来,代码中用了无限循环滚动鼠标+等距离上下移动来解决,检测到没有刷新时打转的"待刷新"才抓取图片链接:

  5. 判断是否抓取到最后一页,是对"继续预览"文字的检测,如果不出现就说明已经是最后一页,即可退出程序:

  6. 按照原文档排序命名图片,依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断,所以代码中将图片的名字和对应路径,分别构造成字典的键和值,再循环1到最大值,依次取出字典的对应值,插入word文档中,实现和原文档一样的排序效果

4 执行结果图

5 完整程序





相关推荐
Eiceblue1 天前
使用 Java 将 Excel 工作表转换为 CSV 格式
java·intellij-idea·excel·myeclipse
卍郝凝卍1 天前
NVR(网络视频录像机)和视频网关的工作方式
网络·图像处理·物联网·音视频·视频解决方案
Bianca4271 天前
Excel正则表达式.获取字符
正则表达式·excel
Dotrust东信创智1 天前
从“手动试错”到“自动化闭环”:实车OTA测试的效率革命
运维·自动化
办公解码器1 天前
Excel怎么在下拉菜单中选择计算方式?
excel
AndrewHZ1 天前
【图像处理基石】如何在图像中实现光晕的星芒效果?
图像处理·opencv·计算机视觉·cv·图像增强·算法入门·星芒效果
梦里不知身是客111 天前
kettle的mysql 根据条件,导出到不同的excel中
数据库·mysql·excel
J.xx1 天前
在线excel数据导入导出框架
excel
sali-tec1 天前
C# 基于halcon的视觉工作流-章54-N点标定
开发语言·图像处理·算法·计算机视觉·c#
小龙报1 天前
《赋能AI解锁Coze智能体搭建核心技能(2)--- 智能体开发基础》
人工智能·程序人生·面试·职场和发展·创业创新·学习方法·业界资讯