头条文章采集软件,百家文章采集软件介绍

一、主界面


二、头条作者采集

用于批量采集指定头条号作者的所有文章(或微头条),支持按阅读量、字数、发布时间等条件过滤。

2.1 基本设置

  • 网址文件:请使用「选择」按钮选取存放作者主页网址的 TXT 文件。

  • 保存目录:点击「选择」按钮指定一个文件夹,用于存放采集结果。

2.2 保存格式

支持以下输出格式(可多选或单选,根据实际需求勾选):

  • url:只保存文章网址,生成一个 TXT 文件。

  • txt:每篇文章保存为一个独立 TXT 文件,图片自动下载到同目录下的 images 文件夹。

  • docx:保存为 Microsoft Word 文档(.docx)。

  • html:保存为网页文件(.html)。

  • csv:仅存储文章网址,生成 CSV 表格文件。

2.3 采集过滤条件

  • 最小阅读量:低于此数值的文章将跳过不采集。

  • 翻页数量:指在作者文章列表页执行下拉加载的次数(用于触发更多历史文章)。

  • 字数限制:文章正文总字数低于此值时不予采集。

  • 时间限制:从该时间点开始采集,到当前时间为止,使用选择项选择时间

  • 文章屏蔽词:每行一个关键词。文章标题或正文包含其中任一关键词,则不采集该文章。注意不要留空行。

  • 标题禁采词:标题中包含下面关键词,跳过采集,一行一个

2.4 图片相关设置

  • 下载图片的宽高限制

    • 单个数值(如 200):表示图片宽度或高度小于 200 像素则不下载。

    • 两个数值(如 200,300):表示宽度小于 200 高度小于 300 时不下载。

  • 屏蔽图片0 = 正常下载图片;1 = 完全不下载图片。

  • 裁剪像素:下载图片时从底部向上裁剪指定像素(建议值 30~50),常用于去除水印或无关区域。

  • 图文同目录仅对 txt 保存模式有效

    • 1:txt 文件与图片共同存放在该文章的专属目录下。

    • 0:常规模式,txt 与图片分别存放。

2.5 采集行为

  • 延迟时间:每采集完一篇文章后暂停的秒数(建议适当设置,避免触发反爬)。

  • 头条 Cookie:建议使用软件内置的 Cookie,请勿随意更换;若更换可能导致采集失败。

  • 强制监控采集:开启监控采集后,延迟时间要长一些。


三、头条链接采集

适用于已有具体文章链接(头条或微头条)的场景,例如从易撰等平台导出的爆文网址列表。软件会自动下载文章和图片到本地。

3.1 链接格式注意事项

  • 微头条链接转换 :若从易撰等获取的微头条链接格式为 https://www.toutiao.com/item/123/,需手动将 item 改为 w,即 https://www.toutiao.com/w/123/,否则软件无法识别。

3.2 基本设置

  • 网址文件:点击「选择」按钮选取存放链接的 TXT 文件(每行一个链接)。

  • 保存目录:点击「选择」按钮指定存放结果的文件夹。

  • 保存 txt:将每篇文章保存为 TXT 文件。

  • 保存 docx:将每篇文章保存为 Word 文档。

3.3 图片与采集模式

  • 裁剪像素:同头条作者采集中的说明(从底部裁剪图片)。

  • txt 图文同目录 :仅对 TXT 格式有效,设为 1 时 TXT 与图片存放在同一文章目录下。

  • 采集模式

    • 爬虫模式(推荐):直接请求网页源码(速度快,但可能被反爬)。

    • 网页模式 :驱动谷歌浏览器进行渲染采集。使用网页模式时必须填入自己的头条账号 Cookie,因为许多链接需要登录后才能访问,否则会跳转到登录页面。


四、每日热点

获取各个平台实时热门话题,实时关注热门词条!


五、百家号作者采集

本模块用于批量采集指定百家号作者发布的文章。

5.1 获取百家号作者网址

打开目标百家号作者的主页网址按行存入 TXT 文件,然后通过「选择」按钮加载该文件。

5.2 特有功能(与头条作者采集不同之处)

  • 生成竖图:为方便文章发布至百家号时调用竖图缩略图而设计。可根据需要选择开启(生成)或不生成。

  • 标题禁止包含关键词:每行一个关键词。若文章标题包含其中任一词语,则不采集该文章。

  • 百度 Cookie:请使用您自己的百度账号 Cookie 进行采集。

其余设置(保存格式、过滤条件、图片处理、延迟时间等)与头条作者采集基本一致,请参考第二节。


六、百家号链接采集

适用于已有具体百家号文章链接或百度动态文章链接的场景。将链接整理到 TXT 文件中,软件即可自动采集。

6.1 设置说明

  • 基本选项(保存目录、保存格式、图片裁剪、图文同目录等)与头条链接采集相同。

  • 采集模式同样提供:

    • 网页模式 (推荐)(驱动浏览器,需使用自己的百度账号 Cookie)

    • 爬虫模式(直接抓取源码)

相关推荐
淘小白_TXB21964 个月前
头条百度文章采集软件V15.7版介绍文档
百度·头条采集·头条号采集·文章采集·头条采集软件