头条百度批量采集软件说明文档

旧版说明文档《头条号文章批量采集软件4.0版本说明文档!头条/微头条文章批量采集》 头条的采集软件已经更新了好多个版本了,一直没有做详细的介绍文档,最近更新了一些功能进去,一块来写一下说明文档。

1、主界面

2、头条作者采集

网址文件选择txt ,使用选择按钮选择,不要手动复制路径进去

保存目录选择一个文件夹

保存的格式有:

url:网址放在一个txt中去)、txt:一篇文章一个txt,图片自动下载到images目录下面、docx:保存成word、保存成html、数据存储成csv只存网址

最小阅读量:小于这个阅读量的文章不采集

翻页数量:作者列表的下拉次数

字数限制:文章内容低于这个数值不采集

时间限制:一定要按照给的示例进行填写,年-月-日 时:分:秒 个位数的数字补零,比如2025-01-02 03:04:12 这里面的01 02 03 04都补零了

下载图片的宽高限制,可以是200,意思宽高小于200不保存,也可以填200,300 宽小于200高小于300不下载

延迟时间:采集一篇之后的暂停时间

屏蔽图片:0不屏蔽图片下载,1屏蔽图片下载(意思就是不下载图片了)

裁剪像素:下载图片的时候,从底部往上裁剪图片像素,设置30-50即可

图文同目录:只对txt采集模式有效,设置1,txt保存的时候会保存到文章图片目录下面,0就是常规模式

屏蔽词:一行一个,文章中包含里面的关键词不采集,不要有空行

头条cookie:我提供的cookie有效尽量不要换,换了可能采集不到

强制监控采集:无限循环作者列表进行采集,慎用,可能会被反爬

采集头条文章/微头条文章,这里不做说明了。

2、头条链接采集

这里是我们整理好头条网址或者微头条网址,放到txt中,软件调用进行采集,比如:有些客户可以从易撰这种网站下载爆文网址,那么可以用这个功能,把文章和图片下载到本地。

这里要说明一点,如果是我们下载的微头条网址中,不带/w/我们需要把下载的网址改动一下,比如我们从易撰下载下来的微头条网址是https://www.toutiao.com/item/123/,我们需要改成https://www.toutiao.com/w/123/这种个样式的,把item改成w,这样软件才能识别。

网址文件:调用txt文件,使用选择按钮进行选择

保存目录:使用选择按钮,选择一个保存目录

保存txt:把数据保存成txt

保存docx:把数据保存成docx

裁剪像素:和上面的原理一样,裁剪图片。

txt图文同目录:只针对txt数据,把txt保存到文章图片目录下面去

采集模式:爬虫模式是直接爬取源码,网页模式是驱动谷歌浏览器进行采集,使用网页模式爬取的时候,一定要使用自己头条账号的cookie,很多链接只有登录才会看的到,否则会出现一个头条的登录页面。

3、头条热点采集

采集最新热点资讯关键词,注意使用频次,不要太快。

保存关键词:保存热点关键词

保存txt:根据热点关键词采集相关文章保存txt

保存docx:根据热点关键词采集相关文章保存成docx

文章下载数量:一个关键词采集相关文章的数量

时间间隔:采集一篇之后的暂停时间

4、按照百家作者采集

UK文件存放是百家作者的UK id,打开百家作者主页,右键查看源代码,ctrl+f 搜索 uk ,匹配上的第一个字段值,就是百家作者的uk id,一行一个,放到txt中,使用选择按钮调用该文件。

百家的一些设置项目和头条作者的基本是一致的,其中有一个不同是:生成竖图,这个地方是为了发布百家的时候方便调用竖图缩略图设置的,这个功能是从作者百家号发布软件迁移过来的,可以选择生成,也可以选择不生成,自定义即可。

标题禁止包含关键词:一行一个,标题中包含这些关键词,就不采集该文章。

百度cookie:使用自己百度账号的cookie 即可。

5、百家链接采集

把整理好的百家号文章链接,百度动态文章链接,整理好,放到txt中让软件调用,软件就可以自动以采集了,设置选项和头条按照链接采集的基本一致。

采集模式也是两种 ,爬虫模式、网页模式

6、软件下载链接:

百度网盘下载链接: https://pan.baidu.com/s/1C9nt4NHr49jzSY-J6pF0ZQ?pwd=e2cb 提取码: e2cb

蓝奏云下载地址:https://wwyl.lanzouv.com/b0r9o03qf密码:4zdg

相关推荐
Sherlock Ma20 小时前
百度开源文心一言4.5:论文解读和使用入门
人工智能·百度·自然语言处理·开源·大模型·文心一言·多模态
一支烟一朵花21 小时前
630,百度文心大模型4.5系列开源!真香
人工智能·百度·开源·文心一言
特立独行的猫a1 天前
百度AI文心大模型4.5系列开源模型评测,从安装部署到应用体验
人工智能·百度·开源·文心一言·文心一言4.5
在美的苦命程序员2 天前
中文语境下的视频生成革命:百度 MuseSteamer 的“产品级落地”启示录
人工智能·百度
海拥✘2 天前
文心一言开源版测评:能力、易用性与价值的全面解析
百度·开源·文心大模型·gitcode
大力财经2 天前
百度文库智能PPT月访问量超3400万,用户规模翻倍增长
百度
高校俱乐部2 天前
百度文心智能体平台x小米应用商店:联手打造行业首个智能体与应用市场跨端分发模式
人工智能·百度
道可云2 天前
道可云人工智能每日资讯|浦东启动人工智能创新应用竞赛
人工智能·百度·ar·xr·deepseek
明似水14 天前
文心一言(ERNIE Bot):百度打造的知识增强大语言模型
百度·语言模型·文心一言
陈思杰系统思考Jason14 天前
系统思考VS心智模式
百度·微信·微信公众平台·新浪微博·微信开放平台