我写了个公众号历史数据一键抓取脚本

这几天我一直在折腾一件小事:

把我个人公众号后台的历史文章和数据,完整提取出来。

一开始我以为不难,结果一上手就发现各种坑:

有时候只能抓到前几篇,有些文章会漏掉,指标也会错位。

最终,按照以下循环多轮迭代搞定了

1、先把现象丢给 AI,让它帮我拆问题

2、我按它给的思路去跑、去看日志

3、出现新问题再回到 AI,继续修正

当前实现的效果

现在已经可以抓取到:

  • 历史文章列表
  • 每篇文章的核心指标(阅读、点赞、分享、推荐、评论)
  • 对应文章正文

需要抓取文章数据时执行一行命令,就能更新最新数据,自带去重。

方案选择

这次我其实也评估过两条常见路线:

1)RAP 方案

优点:

  • 上手快
  • 对固定流程页面有效

缺点:

  • 页面结构一变就容易失效
  • 在多分页、异步加载、状态切换场景里维护成本高

2)浏览器自动化方案(如Browse-Use)

优点:

  • 对页面结构变化更"有弹性"
  • 不强依赖固定 DOM 选择器

缺点:

  • 成本更高,每次执行都需要Token(即使有些工具框架带了缓存机制)
  • 结果稳定性受截图质量、页面状态、模型波动影响
  • 目前更适合"操作自动化",不太适合"高一致性数据采集"
  • 更重要的一点,速度太慢了

3)我最终采用的方案:浏览器驱动的多源采集合并方案

原理也不复杂,核心就三步:

  1. 先用浏览器登录态打开公众号后台,按 begin=0/10/20... 直接翻历史列表页
  2. 每一页同时从多个来源取数据:可见列表、页面状态对象、HTML内嵌数据
  3. 把同一篇文章做去重和合并,最后统一落盘;如果主链路拿不全,再用后台接口做兜底

这么实现主要是以下几点考虑

  1. 运行速度够快(考虑频繁操作会触发WX的限流风控,采集也刻意增加了间隔控制速率)
  2. 不依赖任何模型,一行命令就可以开始采集

一点启发

我现在越来越相信,AI 最适合切入的地方,

不是先去追那些听起来很大的应用场景,而是先回到自己每天真的会碰到的问题。

这次我做这件事,原因其实很简单。

我不是为了展示什么技术,也不是为了做一个看起来很完整的项目,

就是因为我自己确实需要复盘内容,而数据整理这一步一直很麻烦。

所以这次最让我有感触的,不是"又跑通了一个流程",

而是我终于把一个自己会长期遇到的问题,借助AI往前推进了一步。

相关推荐
AI周红伟2 小时前
All in Token, 移动,电信,联通,阿里,百度,华为,字节,Token石油战争,Token经济,百度要“重写”AI价值度量
大数据·人工智能·机器学习·百度·copilot·openclaw
AI周红伟2 小时前
Token经济学:AI时代的新货币战争,All in Token, 新时代的石油战争,华为,阿里,百度,字节的石油战争
大数据·人工智能·机器学习·百度·华为·copilot·openclaw
XM_jhxx5 小时前
±0.03mm的精度怎么保证?翌东塑胶用AI赋能质量管控升级
人工智能
阿正的梦工坊6 小时前
深入理解 PyTorch 中的 unsqueeze 操作
人工智能·pytorch·python
秦歌6667 小时前
DeepAgents框架详解和文件后端
人工智能·langchain
测试员周周8 小时前
【Appium 系列】第06节-页面对象实现 — LoginPage 实战
开发语言·前端·人工智能·python·功能测试·appium·测试用例
霸道流氓气质8 小时前
基于 Milvus Lite 的 Spring AI RAG 向量库实践方案与示例
人工智能·spring·milvus
ar01238 小时前
AR巡检平台:构筑智能巡检新模式的数字化引擎
人工智能·ar
语音之家8 小时前
【预讲会征集】ACL 2026 论文预讲会
人工智能·论文·acl
碳基硅坊9 小时前
电商场景下的商品自动识别与辅助上架
人工智能