使用Dify搭建工作流,实现自动化商品采集分析

最近用Dify做了一个工作流应用,可以实现自动化采集亚马逊商品信息,包括名称、价格、折扣、评分、评论等关键字段,然后使用DeepSeek对商品竞争力、价格、用户口碑进行分析,为跨境卖家提供一份完整的分析报告。

整个工作流搭建用到了几个核心工具,Dify不必多说,是专门用来设计工作流的开源框架,里面集成各种工具、接口、插件、LLM,非常适合做产品原型设计。

其中用于数据采集的是亮数据网页抓取器,Dify上有相应的插件接口,它可以对亚马逊等跨境平台进行关键字段采集,并能自动处理平台的反爬限制,比如设置ip代理池、验证码解锁等技术,所以是比较省心的一个爬虫接口。

https://get.brightdata.com/webscra

这里大概介绍下亮数据,因为网页抓取器是这个工作流的核心节点。亮数据是专门做数据采集的平台,有抓取器、解锁器、远程浏览器、MCP等工具,可以简化网页请求的复杂度,因为它把反爬处理技术嵌入在接口里,用户只需要提交需求和url就能直接采集到数据。

还会用到DeepSeek R1模型,用来对亮数据网页抓取器返回的JSON数据进行解析,提取关键字段,并形成商品分析报告。

接下来讲下这个工作是如何具体实现的。

首先你需要配置Dify应用,可以根据Github教程使用Docker进行部署,对电脑硬件要求比较简单,大于2核CPU、4G运行内存就可以跑。

如果你只是想测试,建议在Dify云版本上部署工作流,但云上的功能配置会有点缩水。

部署好Dify后,下一步需要配置亮数据网页抓取器,你需要先到亮数据平台申请key,它会赠送额度,测试够用了。

https://get.brightdata.com/webscra

然后在Dify插件里搜索找到亮数据网页抓取器,下载并配置好key后,这个插件就可以用了。

接着再配置DeepSeek API,到DeepSeek平台去申请key,在Dify上配置好就可以用,这里不多赘诉。

做好配置准备后,下面进入工作流搭建。

首先创建"输入"节点,设置输入变量字段:product_url,提示用户输入亚马逊商品链接。

然后开始创建"亮数据网页抓取器"节点,选择"Structured Data Feeds",并且设置输入变量描述、目标url,选择上一节点的输入变量"product_url",由于亮数据key在之前已经配置好,这里可以直接用。

下一步创建"LLM"节点,选择配置好的DeepSeek R1模型,设置输入变量和系统prompt,这个很重要,决定LLM输出什么样的内容,可以按照我的模版去设置。

最后创建"输出"节点,展示LLM输出的内容,这里你可以选择直接输出文本,也可以设置导出PDF、Word、Markdown都可以。

整个工作创建好后,呈现以下的结构形式。

随便找个亚马逊商品链接测试下,比如以下的Razer耳机。

执行工作流任务,它就会先采集数据,然后LLM分析数据,最后输出结论。

亮数据抓取器采集到的商品Json数据如下:

DeepSeek提炼Json数据,形成的商品分析报告如下。

核心字段值:

商品特性:

用户评价:

指导建议:

整个流程,DeepSeek提取了亮数据网页抓取器采集到的数据,并进行分析汇总,看起来蛮专业的。

除此之外,亮数据网页抓取器还有搜索引擎模式,可以按照用户需求来查询谷歌搜索,返回数据,比如我让它查询Open AI创始人Sam Altman最近一年在推特上的帖子,并让LLM提取关键信息进行总结。

通过上面Dify工作流的例子,可以看到现在数据采集开发模式发生了很大变化,不再需要你精通编程,也可以通过Dify+亮数据网页抓取器做到。

相关推荐
code tsunami2 小时前
如何将 Helium 与 CapSolver 集成,实现无缝 CAPTCHA 自动化解决
运维·数据库·人工智能·爬虫·python·自动化
玄同7652 小时前
Python 异常捕获与处理:从基础语法到工程化实践的万字深度指南
开发语言·人工智能·python·自然语言处理·正则表达式·nlp·知识图谱
quant_19862 小时前
BTC 行情预警系统实战教程
开发语言·后端·python·websocket·程序人生·金融
查拉图斯特拉面条2 小时前
JMeter JSR223后置处理器:JSON数据处理与格式转换实战指南
python·jmeter·json
Tipriest_2 小时前
Linux rpm 系和 debian 系发展史,相同,不同点详细介绍
linux·运维·debian·rpm
我是谁??2 小时前
Rocky9.2离线安装docker和NVIDIA Container Toolkit训练环境搭建
运维·docker·容器
岁岁的O泡奶2 小时前
NSSCTF_crypto_[SWPUCTF 2023 秋季新生赛]dpdp
经验分享·python·算法·密码学
smj2302_796826522 小时前
解决leetcode第3791题.给定范围内平衡整数的数目
python·算法·leetcode
本贾尼2 小时前
VMware的Ubuntu虚拟机显示网络有限线缆已被拔出的问题以及解决方法
linux·运维·ubuntu