CLI一键采集,使用Python搭建TikTok电商爬虫Agent

最近CLI智能体很火,这是一种在命令行工作的AI工具,比如Claude Code、OpenClaw等,非常适合编程、自动化、爬虫等场景。

我花了半天时间,用Python开发了一个CLI爬虫智能体,可以实现自动化采集Tiktok上公开的商品数据信息,可以通过商品url、店铺url、关键词等进行采集,一行命令直接拿到结果表。

最关键的是,这个商品采集智能体集成了DeepSeek V4分析功能,能全方位分析商品信息,形成一份专业的分析markdown报告,指导竞品调研、打造爆款、选品策略等。

开发这个智能体需要用到的技术栈有Python、requests库、OpenAI库、scraper APIs、Trae。

其中,Python requests用于编写商品采集脚本,请求Tiktok网页数据,并构建完整的智能体框架,OpenAI库用于接入DeepSeek API,实现AI分析功能。

scraper APIs是亮数据开发的专门用于热门站点采集的接口,包括电商、社媒、搜索等,tiktok就是其中之一,既可以采集电商商品信息,也支持短视频评论、标题等公开数据。

用亮数据的好处在于它的接口配置了一整套网页解锁、IP代理服务,能处理各种爬虫限制,包括动态加载、人机验证、浏览器指纹等,非常适合作为智能体的数据采集接口,它还有MCP服务,相当的好用。

接下来是完整的CLI智能体搭建流程,不需要高超的Python代码技能,新手也能上手操作。

配置scraper APIs

首先,需要登录亮数据开发后台,在账户设置里新建你的API key,这个很重要,因为所有的采集功能都需要配置Key。

https://get.brightdata.com/webscra

然后找到Web Scrapers功能界面里的Tiktok采集接口,它有15个爬虫,涵盖了从短视频到商品的各种采集场景。

其中商品采集有4个爬虫,包括案商品url、分类页url、商品关键词、店铺url,每个爬虫都会对应一个接口。

比如说按商品url采集,你可以提交多个url或者直接提供csv表格,它就会直接采集商品信息,输出csv表格给到你,不需要任何其他操作。

采集到的字段多达50个,包括商品名称、描述、价格、颜色、尺寸等。

示例里提供了Python requests的采集代码,这是我们要用到的,只需按照它的规范就可以成功部署到智能体中,其他爬虫接口也都有示例代码。

上面代码返回的是用于存储数据的快照ID,你还需要从通过快照ID下载该数据,后台也提供了示例代码。

同样的你需要从分类页url、商品关键词、店铺url另外3个爬虫中找到Python接口代码,保存到本地备用。

获取DeepSeek V4接口

最近DeepSeek发布了V4版本,便宜且强大, 我这次用V4来分析商品数据,生成markdown报告。

在DeepSeek开发平台中找到Python接口代码,它是通过openai库来接入API的,代码很简单。

在Trae中开发CLI工具

将第1、2步的代码放到Trae中的py文件里,分为3个模块。

  • requests_data.py 负责请求下载数据获得快照id
  • dowload_snapshot_id.py 负责下载快照的数据集
  • deepseek_api.py 负责deepseek api接口,分析数据

然后通过code builder模式进行AI Coding开发,提示语如下:

复制代码
制作一个CLI智能体工具,用于采集tiktok的商品数据。

支持用户直接通过商品url或者分类页url或者关键词或者店铺url采集到商品,并下载整理成结构化的csv表格给到用户。

支持通过deepseek api分析csv形成结构化商品分析报告md文档。
文件中有3个脚本供参考, requests_data.py 负责请求下载数据获得快照id, dowload_snapshot_id.py 负责下载快照的数据集, deepseek_api.py 是deepseek api接口,负责分析数据。

要求智能体CLI功能清晰、操作简单,没有错误

Trae会按要求编写代码,部署为CLI模式,实现的功能如下:

简单来说,这个CLI智能体可以干以下3件事:

1、提交需要采集的信息csv表格,一行代码拿到结果

不管是商品url,还是关键词,CLI工具会自动识别不同类型的输入,统一批量处理。

2、采集后直接DeepSeek分析,形成分析报告,或者单独提交已有的商品csv表格,也可以AI分析。

分析维度如下,你也可以自定义提示语。

复制代码
# TikTok商品分析报告

## 一、数据概览
- 采集时间
- 商品总数
- 数据字段说明

## 二、品类分析
- 各品类商品数量分布
- 热门品类分析

## 三、价格分析
- 价格区间分布
- 平均价格
- 价格与销量关系

## 四、爆款商品分析
- 高销量商品TOP10
- 高评分商品TOP10
- 性价比分析

## 五、店铺分析
- 热门店铺排行
- 店铺竞争力分析

## 六、趋势洞察
- 市场趋势分析
- 选品建议

测试CLI智能体

打开命令行,输入:

复制代码
tiktok_scraper.py -i input_sample.csv -o output.csv

这行代码功能是采集input_sample.csv中的商品信息,输出结果数据到output.csv中。

input_sample.csv格式如下:

采集过程如下:

最终得到结果数据:

针对采集到的商品数据让DeepSeek进行分析,形成分析报告。

复制代码
python3 tiktok_scraper.py -i input_sample.csv --analyze

你会得到专业的TikTok商品报告。


这样咱们就实现一个专门用于采集和分析Tiktok商品数据的智能体,而且通过CLI实现一键搞定任务,非常便捷。

这里面主要用到Python、亮数据scraper APIs、DeepSeek V4,难点其实在于采集接口,这点用亮数据省了很多事,而且能保证稳定和安全。

个人测试案例,数据采集为极少量公开数据,均遵守法规约定。

下面可以免费试用scraper APIs,搭建一个小小的agent,挺好玩的

https://get.brightdata.com/webscra

相关推荐
研究点啥好呢1 小时前
高德多模态算法工程师面试题精选:10道高频考题+答案解析
python·面试·llm·求职招聘·笔试·高德
编程隐士1 小时前
爬虫管理系统实现方案
爬虫
测试员周周2 小时前
【AI测试系统】第3篇:AI生成的测试用例太“水”?14年老兵:规则引擎+AI才是王炸组合
人工智能·python·测试
@小码农2 小时前
2026年3月Scratch图形化编程等级考试一级真题试卷
开发语言·数据结构·c++·算法
这儿有一堆花2 小时前
住宅代理(Residential Proxy)技术指南
开发语言·数据库·php
一只大袋鼠2 小时前
Java进阶:CGLIB动态代理解析
java·开发语言
秦ぅ时2 小时前
保姆级教程|OpenAI tts-1-hd模型调用全流程(Python+curl+懒人用法)
开发语言·python
Muyuan19982 小时前
25.Paper RAG Agent 优化记录:上传反馈、计算器安全与 Chunk 参数调整
python·安全·django·sqlite·fastapi
Eiceblue2 小时前
使用 C# 将 Excel 转换为 Markdown 表格(含批量转换示例)
开发语言·c#·excel