【爬虫】– 抓取原创力文档数据

使用RPA工具,实现针对于原创力中不可下载文档的抓取,可延用于其他类似文库

1 使用工具、环境

影刀RPA、WPS Office、谷歌浏览器(非指定)

2 代码流程

3 关键点

  1. 此方案只适合抓取非VIP即可预览全文的文档,抓取下来的数据是图片

  2. 打开网址后,需要鼠标向下滚动一段距离才能触发"下一页"按钮:

  3. 在节点路径:"//*[@id="main"]/div[1]/div[3]/div[2]//img"下,抓取链接(src属性),注意有些是文档中间的广告图片,有效的文档其实是"//view-cache.book118.com"开头的链接,需要过滤掉非此开头的广告链接,如下:

  4. 文档图片刷新很玄学,需要上下滑动网页才能刷新出来,代码中用了无限循环滚动鼠标+等距离上下移动来解决,检测到没有刷新时打转的"待刷新"才抓取图片链接:

  5. 判断是否抓取到最后一页,是对"继续预览"文字的检测,如果不出现就说明已经是最后一页,即可退出程序:

  6. 按照原文档排序命名图片,依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断,所以代码中将图片的名字和对应路径,分别构造成字典的键和值,再循环1到最大值,依次取出字典的对应值,插入word文档中,实现和原文档一样的排序效果

4 执行结果图

5 完整程序





相关推荐
Java开发-楠木3 小时前
【猿人学】web第一届 第13题 入门级 cookie
爬虫·python
揭老师高效办公6 小时前
在Excel和WPS表格中拼接同行列对称的不连续数据
excel·wps表格
清咖啡7 小时前
相关法律、法规知识(五)
学习方法
山烛8 小时前
深度学习:卷积神经网络(CNN)
图像处理·人工智能·python·深度学习·cnn·卷积神经网络
用户0332126663678 小时前
Java 设置 Excel 行高列宽:告别手动调整,拥抱自动化高效!
java·excel
神秘人X70710 小时前
Ansible自动化运维介绍与安装
运维·自动化·ansible
Amazon数据采集11 小时前
[5 万字]手把手教你写一个能打的Amazon评论爬虫,搞定反爬和登录限制!(2025版)
爬虫·python
专注VB编程开发20年13 小时前
.NET组件读取压缩包中的内存数据电子表格XLSX文件和图片,不需要解压
linux·服务器·windows·c#·.net·excel·zip
菌王18 小时前
EXCEL自动调整列宽适应A4 A3 A2
excel
爱隐身的官人19 小时前
爬虫基础学习-链接协议分析,熟悉相关函数
爬虫·学习