基于Coze平台的自动化情报采集与处理引擎—实现小红书图文到飞书的端到端同步

本文介绍了一个基于Coze平台的智能工作流设计与实现,旨在解决内容运营中信息采集、处理与归档的自动化难题。该系统通过集成小红书内容提取、OCR文字识别及飞书多维表格同步三大核心功能,构建了一套完整的"信息获取-智能解析-结构化存储"闭环。项目不仅实现了技术上的创新,更在实际应用中显著提升了工作效率,为内容创作者和运营团队提供了强大的数据支持。

1. 项目背景与目标

在当前的社交媒体生态中,小红书已成为重要的内容分发与用户互动平台。然而,手动收集、整理和分析小红书笔记信息耗时耗力,且容易出错。本项目的目标是构建一个自动化智能体,能够:

  • 自动提取:精准抓取小红书笔记的标题、作者、文案、图片及视频链接。
  • 深度解析:利用OCR技术识别图片中的隐藏文字,补充完整信息。
  • 智能整理:对提取和识别出的信息进行语义重构与格式化。
  • 无缝同步:将处理后的结构化数据自动写入飞书多维表格,实现集中管理和分析。

2. 整体架构

  • 整体效果

2.1 人设与回复逻辑

复制代码
# 角色
你是一名专业的小红书文案助手,热情友好且耐心细致。你的任务是引导用户发送小红书分享链接,之后通过调用工作流提取小红书的内容并进行回复。

## 技能
### 技能 1: 引导用户发送链接
当用户与你交流时,友好地提示用户发送小红书分享链接,例如:"请您分享一下小红书链接哦,这样我就能为您提取相关内容啦。"

### 技能 2: 提取并回复内容
1. 当收到用户发送的小红书链接后,调用工作流提取小红书的内容。
2. 对提取到的内容进行整理和总结,以清晰、有条理的方式向用户回复。

## 限制:
- 仅围绕用户提供的小红书链接展开工作,不处理其他无关话题。
- 回复内容需基于提取到的小红书内容,不得编造虚假信息。
- 回复内容应简洁明了,避免过于冗长和复杂的表述。

2.2 创建工作流

2.2.1 小红书文章信息

添加插件,搜索小红书文章信息提取插件

URL:85 【闹钟一响,你我皆是牛马,高清壁纸 - 满季 | 小红书 - 你的生活兴趣社区】 😆 1ceZ3xxzMJcfQLM 😆 https://www.xiaohongshu.com/discovery/item/683674bb0000000022037d27?source=webshare\&xhsshare=pc_web\&xsec_token=ABi29iy8hFMqCejMZunYS1xsITSzFgl3Bw7fyyUfrsqNE=\&xsec_source=pc_share

基于输入的小红书文章的URL,提取小红书文章网页详细信息,包括作者信息、文章标题、内容、图片链接、视频链接、点赞、收藏、分享、评论等信息。

2.2.2 OCR插件批量识别图片

批量处理:对imageList中的每一张图片调用OCR插件。得到一个包含每张图片识别结果的ocrList数组。

2.2.3 整理ORC的图片文字流

已获取识别结果,但数据为JSON格式,需要对数组内容进行字符串拼接处理。建议添加"大模型"插件(重命名为"处理OCR结果")来实现此功能。


系统提示词:

复制代码
# 角色
你是一位专业的文本信息组装助手,擅长精准处理OCR提取出的文字信息。能巧妙地将这些信息整合为通顺连贯的语句,运用恰当的标点符号清晰划分语句,同时敏锐地识别并修正其中的错别字,最终提供高质量的修复内容。

## 技能
### 技能 1: 高效组装与修复文本
1. 迅速接收OCR提取出的文字信息。
2. 全面深入分析信息,将其巧妙组装成语句通顺、表意明确的内容,合理运用标点符号进行断句。
3. 细致检查语句,精准找出并修复存在的错别字。
4. 清晰规范地返回修复后的文案。

## 限制
- 输出内容中无需包含时间和日期信息。
- 仅返回修复后的文案,若内容为空,直接返回空值。
- 为每个结果添加序号,按行逐一列出 。 

用户提示词:

复制代码
{{input}}


📌注

关于用户提示词和系统提示词:

  1. 定义
    用户提示词:由使用者输入,通常是用户希望模型完成的具体任务、问题或请求。
    系统提示词:由模型的开发者或管理员设定,目的是指导模型的行为、风格和输出方式。
  2. 目的
    用户提示词:直接反映用户的需求,旨在获取特定的信息或完成某项任务。
    系统提示词:用于设置模型的上下文和预期行为,确保模型能够按照预定的方式响应用户请求。

2.2.4 集成结果

我们不仅需要OCR识别的结果,还需要包括标题和详细描述等关键信息。现需添加一个集成大模型(重命名为"集成结果")


系统提示词:

复制代码
# 角色
你是一个高效准确的内容整理助手,能够按照特定格式输出相关信息,并将数组内容按顺序输出。

## 技能
### 技能 1: 整理信息
1. 当接收到需要整理的信息时,按照以下格式输出:
【标题】
【作者】
【内容】
【图片列表】
【图片文字解析】
2. 对于图片列表,只需要给出链接,每个链接后面换行处理。
3. 对于图片文字解析,每一个解析前标注序号。

## 限制:
- 必须严格按照给定的格式输出信息,不能偏离框架要求。
- 确保图片链接的准确性和有效性。
- 图片文字解析序号要清晰、连续。

用户提示词:

复制代码
标题:{{title}}
作者:{{nickname}}
内容:{{desc}}
图片:{{imageList}}
图片文字解析:{{ocrjieguo}}



2.2.5 基于大模型实现飞书参数

从开始中引入变量:

添加优化飞书参数的大语言模型插件

系统提示词

复制代码
# 角色
你是一个专业的数据处理助手,负责根据用户提供的信息为调用接口准备参数,并将相关内容整理成特定格式的数据结构,以满足写入飞书表格插件的需求。

## 技能
### 技能 1: 处理并整理数据
1. 接收用户提供的字段内容,包括"标题""作者""文案""视频链接""图片链接""图片识别结果"等信息。
2. 按照规定格式,将这些信息整理成一个 Array<Object> 结构,其中每个子数组包含相应字段的内容。
3. 如果图片链接存在多个,在一个字符串内使用换行符"\n"进行分隔。
4. 统计图像识别结果的数量,若有多个结果,依次将其放在"图片识别 1""图片识别 2""图片识别 3"等字段中。若图片 OCR 解析存在多个,增加相应字段进行写入。

### 技能 2: 输出符合要求的数据格式
1. 将整理好的数据以规定的格式输出,即:
[
[
"标题",
"作者",
"文案",
"视频链接",
"图片链接",
"图片识别 1",
"图片识别 2",
...]
]

## 限制
1. 仅围绕为调用接口准备参数、整理数据并输出规定格式内容展开工作,不涉及其他无关任务。
2. 严格按照给定的格式要求输出数据,不能偏离框架。
3. 确保图片链接和图片 OCR 解析结果等数据的处理符合规定,多个图片链接需换行处理,多个图片 OCR 解析结果需增加字段写入。 

用户提示词

复制代码
标题:{{title}} ;
作者:{{nickname}} ;
文案:{{desc}} ;
视频链接:{{videoUrl}} ;
图片链接:{{imageList}} ;
图像识别:{{ocrjieguo}} ;

2.2.6 写入飞书的表格插件


3. 总结与展望

本项目成功地在Coze平台上构建了一个功能完备的智能体,实现了从信息采集到归档的全自动化。它不仅是技术的简单堆砌,更是对工作流的深度思考与优化。

未来展望:

  • 增加分析维度:引入情感分析、关键词提取等能力,对内容进行深度挖掘。
  • 支持更多平台:扩展至抖音、微博等其他社交媒体。
  • 反向同步:实现从飞书到小红书的反向发布,形成完整的双向工作流。
  • 智能推荐:基于历史数据,为内容创作提供选题和文案建议。

通过持续迭代,该系统有望成为企业数字办公自动化的核心组件。

相关推荐
workflower21 分钟前
AI IDE+AI 辅助编程-生成的大纲-一般般
ide·人工智能·数据分析·软件工程·需求分析
linmoo198624 分钟前
Spring AI 系列之二十八 - Spring AI Alibaba-基于Nacos的prompt模版
人工智能·spring·nacos·prompt·springai·springaialibaba·动态提示词
【杨(_> <_)】33 分钟前
辐射源定位方法简述
人工智能·安全·信号处理
盼小辉丶40 分钟前
TensorFlow深度学习实战——DeepDream
人工智能·深度学习·tensorflow
知了一笑44 分钟前
独立开发:这才过去一个月?
人工智能·后端·程序员
大千AI助手1 小时前
掩码语言模型(MLM)技术解析:理论基础、演进脉络与应用创新
人工智能·神经网络·机器学习·语言模型·自然语言处理·mlm·掩码
audyxiao0011 小时前
智能交通顶刊TITS论文分享|跨区域自适应车辆轨迹预测:TRACER框架攻克域偏移难题!
人工智能·轨迹预测·智能交通·tits
Altair澳汰尔1 小时前
行业热点丨仿真历史数据难以使用?如何利用几何深度学习破局,加速汽车工程创新
人工智能·ai·汽车·数据治理·仿真·cae·physicsai
mortimer1 小时前
Tenacity:一行代码实现简洁优雅的遇错自动重试逻辑
人工智能·python·网络协议
逸风尊者1 小时前
开发也能看懂的大模型:聚类
人工智能·后端·trae