头条百度批量采集软件说明文档

旧版说明文档《头条号文章批量采集软件4.0版本说明文档!头条/微头条文章批量采集》 头条的采集软件已经更新了好多个版本了,一直没有做详细的介绍文档,最近更新了一些功能进去,一块来写一下说明文档。

1、主界面

2、头条作者采集

网址文件选择txt ,使用选择按钮选择,不要手动复制路径进去

保存目录选择一个文件夹

保存的格式有:

url:网址放在一个txt中去)、txt:一篇文章一个txt,图片自动下载到images目录下面、docx:保存成word、保存成html、数据存储成csv只存网址

最小阅读量:小于这个阅读量的文章不采集

翻页数量:作者列表的下拉次数

字数限制:文章内容低于这个数值不采集

时间限制:一定要按照给的示例进行填写,年-月-日 时:分:秒 个位数的数字补零,比如2025-01-02 03:04:12 这里面的01 02 03 04都补零了

下载图片的宽高限制,可以是200,意思宽高小于200不保存,也可以填200,300 宽小于200高小于300不下载

延迟时间:采集一篇之后的暂停时间

屏蔽图片:0不屏蔽图片下载,1屏蔽图片下载(意思就是不下载图片了)

裁剪像素:下载图片的时候,从底部往上裁剪图片像素,设置30-50即可

图文同目录:只对txt采集模式有效,设置1,txt保存的时候会保存到文章图片目录下面,0就是常规模式

屏蔽词:一行一个,文章中包含里面的关键词不采集,不要有空行

头条cookie:我提供的cookie有效尽量不要换,换了可能采集不到

强制监控采集:无限循环作者列表进行采集,慎用,可能会被反爬

采集头条文章/微头条文章,这里不做说明了。

2、头条链接采集

这里是我们整理好头条网址或者微头条网址,放到txt中,软件调用进行采集,比如:有些客户可以从易撰这种网站下载爆文网址,那么可以用这个功能,把文章和图片下载到本地。

这里要说明一点,如果是我们下载的微头条网址中,不带/w/我们需要把下载的网址改动一下,比如我们从易撰下载下来的微头条网址是https://www.toutiao.com/item/123/,我们需要改成https://www.toutiao.com/w/123/这种个样式的,把item改成w,这样软件才能识别。

网址文件:调用txt文件,使用选择按钮进行选择

保存目录:使用选择按钮,选择一个保存目录

保存txt:把数据保存成txt

保存docx:把数据保存成docx

裁剪像素:和上面的原理一样,裁剪图片。

txt图文同目录:只针对txt数据,把txt保存到文章图片目录下面去

采集模式:爬虫模式是直接爬取源码,网页模式是驱动谷歌浏览器进行采集,使用网页模式爬取的时候,一定要使用自己头条账号的cookie,很多链接只有登录才会看的到,否则会出现一个头条的登录页面。

3、头条热点采集

采集最新热点资讯关键词,注意使用频次,不要太快。

保存关键词:保存热点关键词

保存txt:根据热点关键词采集相关文章保存txt

保存docx:根据热点关键词采集相关文章保存成docx

文章下载数量:一个关键词采集相关文章的数量

时间间隔:采集一篇之后的暂停时间

4、按照百家作者采集

UK文件存放是百家作者的UK id,打开百家作者主页,右键查看源代码,ctrl+f 搜索 uk ,匹配上的第一个字段值,就是百家作者的uk id,一行一个,放到txt中,使用选择按钮调用该文件。

百家的一些设置项目和头条作者的基本是一致的,其中有一个不同是:生成竖图,这个地方是为了发布百家的时候方便调用竖图缩略图设置的,这个功能是从作者百家号发布软件迁移过来的,可以选择生成,也可以选择不生成,自定义即可。

标题禁止包含关键词:一行一个,标题中包含这些关键词,就不采集该文章。

百度cookie:使用自己百度账号的cookie 即可。

5、百家链接采集

把整理好的百家号文章链接,百度动态文章链接,整理好,放到txt中让软件调用,软件就可以自动以采集了,设置选项和头条按照链接采集的基本一致。

采集模式也是两种 ,爬虫模式、网页模式

6、软件下载链接:

百度网盘下载链接: https://pan.baidu.com/s/1C9nt4NHr49jzSY-J6pF0ZQ?pwd=e2cb 提取码: e2cb

蓝奏云下载地址:https://wwyl.lanzouv.com/b0r9o03qf密码:4zdg

相关推荐
摘星编程10 天前
中国MCP市场:腾讯、阿里、百度的本土化实践
百度·阿里巴巴·腾讯·中国mcp市场·本土化实践
市象11 天前
百度智能云给“数字人”发工牌
百度
白杨SEO营销13 天前
白杨SEO:百度搜索开放平台发布AI计划是什么?MCP网站红利来了?顺带说说其它
人工智能·百度
倔强的石头10613 天前
[源力觉醒 创作者计划]_文心4.5开源测评:国产大模型的技术突破与多维度能力解析
百度·开源·文心一言·文心大模型
数据知道13 天前
百度翻译详解:包括PaddleNLP、百度AI开放平台、接口逆向(包括完整代码)
人工智能·百度·语言模型·自然语言处理·机器翻译
下页、再停留16 天前
【PHP】接入百度AI开放平台人脸识别API,实现人脸对比
人工智能·百度·php
京东零售技术16 天前
京东零售在智能供应链领域的前沿探索与技术实践
人工智能·百度·零售
高hongyuan20 天前
搜索引擎高级搜索指令大全(Google、百度等浏览器通用)
搜索引擎·百度·google
趣味科技v21 天前
WAIC直击:百度慧播星发布新一代数字人技术NOVA
百度