大家好,我是淘小白,采集软件已经更新了好多个版本,文档介绍,还是用的旧版本,今天重新整理一份新的版本。
一、头条按照作者采集

按照作者采集前几天头条这边做了主页列表的更新了,之前的接口没法用了,目前采用的是驱动浏览器,监听网页数据包,进行采集。我们的电脑需要安装谷歌浏览器,谷歌浏览器安装好之后,设置完点击开始,如果可以驱动下面的谷歌浏览器程序路径可以不填,如果驱动不起来,就选择一下chrome.exe,桌面的浏览器图标右键,打开文件所在位置,就能准确找到chrome.exe
下面来说下界面上的所有内容:
1、网址路径:txt的路径,我们需要把头条作者主页的网址(电脑端的)放到txt中去,点击"选择",选中这个文件。
2、保存目录:采集之后,文章的保存目录。
3、翻页数量:可以理解成下拉次数,作者主页的下拉次数越多采集的越多。
4、时间限制:从这个时间点开始采集,这个时间点之后,作者发布的文章采集下来,这个时间点之前的文章不采集。
这里要明确一下,翻页数量(下拉次数)首先决定了你的采集数量,其次,是时间限制,例子:
翻页数量设置:1,时间我们设置2021-01-01 01:01:01,软件只能采集到1个列表页的文章,大约20条左右。
翻页数量设置:10,时间还是设置的 2021-01-01 01:01:01,软件就会采集到更多的文章。
5、图片下载水印设置:给下载的图片添加文字水印
6、字数至少:筛选文章字数大于该设置的文章
7、最小阅读量:根据阅读量筛选文章
8、分作者保存:一个作者一个文件夹保存
9、下载图片:是:下载图片,否:不下载图片
10、图片宽高设置:下载图片,根据图片大小过滤下载;
11、监控采集:自动循环采集,5分钟循环一次
12、图文同目录:图片和txt文章保存在一个目录下面
13、无头模式:隐藏浏览器
14、延迟时间:采集一篇文章后的暂停时间
15、裁剪像素:图片下载的时候,从底部往上裁剪掉图片的一部分,主要是裁掉水印,可设置3--50中间第一个数字。
16、标题禁采词:一行一个,不要有空行,标题中含有设置的关键词,就跳过采集。
17、文章屏蔽词:一行一个,不要有空行,文章中存在有这些词,就把他们替换成空。
18、头条cookie:设置自己账号的头条cookiejike ,也可以使用我提供的cookie。
19、清空缓存:清空缓存是清空的采集过的文章数据,清空缓存之后,软件会重新记录采集过的数据,记录数据的主要作用是用于滤重,避免重复采集,如果多次采集,开始之前,可以点击一下这个按钮,先清空一下缓存。
20、采集类目:采集头条或者微头条文章
21、保存格式:txt、docx这两个是常用的保存格式,保存csv是把采集到的数据保存到表格中去,里面会有一些预设的字段,做数据分析的朋友可以使用。存url,只会把网址保存下来,存html,会把数据保存成html文档。
以上就是按照作者采集的主要设置项,设置好之后,点击开始,软件会自动记忆设置,下次启动会自动加载设置。只要点击开始才会保存设置,否则不会生效。
二、头条按照链接采集

按照链接,我们把整理好的爆文网址(头条、微头条),放到记事本中去,然后采集到本地。
1、网址文件:格式txt,把网址存到txt软件调用
2、保存目录:选择一个文件夹
3、保存格式:txt、docx
4、裁剪像素:下载图片的时候,从下往上裁剪掉一部分。
5、图文同目录:至针对txt保存有效,采集的图片和txt文件在同一个目录下面。
6、采集模式:爬虫模式(推荐)
7、图片水印设置,给下载的图片设置文字水印
8、文章字数最少:根据文章字数进行过滤采集
9、图片数量最少:根据图片的数量进行过滤采集
10、采集评论:采集文章的评论内容
11、cookie:设置头条的cookie
按照链接采集的功能相对简单,也相对稳定,大部分用户会采用这个采集功能,尤其是量大的朋友,这个功能必不可少。
三、百度按照作者采集

按照百家作者采集功能,这个功能是采集百家作者的,和头条作者功能类似,主要区别是,这个功能只能用网页模式采集,主要是反爬的原因。
1、网址文件:格式txt,把作者主页的网址存到txt软件调用
2、保存目录:选择一个文件夹
3、谷歌浏览器程序,和头条设置的一样,找到chrome.exe,进行调用,如果不设置可以自动驱动可以不进行设置。
4、最小阅读量:根据阅读量进行文章的筛选
5、延迟时间:采集一篇之后的暂停时间
6、裁剪像素:图片从下往上进行裁剪,主要是裁剪掉水印部分
7、翻页数量:可以理解成作者主页的下拉次数,翻页数量月大,采集的数据越多
8、无头模式:因藏掉驱动起来的浏览器,避免影响其他工作
9、保存格式:txt\docx\url,文本文档 ,word文档,保存网址
10、时间限制:这个时间点以后发布的文章采集,否则不采集
11、图文同目录:txt文档和图片采集到一个目录下面,只针对txt保存模式有效
12、采集分类:文章、动态、视频可选
13、图鉴用户名密码设置,主要用于过旋转验证使用
14、百度cookie,自己账号的cookie
四、百度按照链接采集

百度按照链接采集,和头条按照链接采集一样,从大数据平台下载爆文网址,导入到软件中,然后下载到本地,这里只推荐使用网页模式采集,设置项和按照作者采集的设置项一致。
五、每日热点

这个功能只要是给大家看热点的,当点击开启自动更新之后,软件每间隔5分钟会刷新一次,导出至表格的主要作用是,把界面上的热门话题保存到本地。
因本人比较喜欢看热点,多个平台手动查看费劲,直接给汇总在了一起,方便查看实时热点。
六、头条视频采集

这个功能放到最后,因为不太常用,我们可以从罐头,把热门的头条视频下载到本地,把网址保存到txt,软件调用,软件会驱动浏览器,进行下载,这个不常用,主要是上面的文章采集。