前言
很多人都有记账的习惯,但是每次都手动录入金额、时间、去向等信息,十分繁琐并且容易出错。
现在 AI 多模态能力已经十分成熟了,能否借助 AI 帮我们简化这个过程呢?
今天,我们就尝试通过 Coze
平台实现一个可以自动识别小票、支付结果等图片,并整理成结构化表格的智能体。
场景描述
智能体支持上传购物小票、支付结果等图片,通过多模态能力自动识别并提取出金额、支付时间、收款方、分类等信息,再通过大模型整理成结构化的结果,然后调用接口保存到飞书多维表格。
使用飞书多维表格,也方便我们后续继续进行财务情况的分析和统计。
前期准备
1、注册并登录 Coze 平台。
2、熟悉 Coze 平台的基本概念。
3、创建一个专用的智能体"钱都花哪了"。

4、提前建立飞书多维表格,主要包括以下几个字段:
- to:收款方,文本类型。
- money:总金额,数字类型,保留 2 位小数。
- time:支付时间,文本类型,日期类型也可以,但是需要处理类型转换问题。
- type:分类,文本类型。

配置智能体
人设与回复逻辑
本次分享由于主要功能都是通过工作流实现,该提示词不是特别重要。
为了更灵活的响应对话,大家可以按照之前的流程设置上提示词,后续截图都是基于未设置提示词情况进行的。
模型
依然采用默认的"豆包·1.5·Pro·32k"即可。
编制工作流
先了解一下完整的工作流情况。

工作流主要步骤:
- 开始
- 图片识别
- 整理数据
- 存储到飞书多维表格
- 结束
新建工作流 qiandouqunale
后直接进入工作流编排界面,我们依次展开。
开始
删除原始的 input
变量,建立我们所需的接收图片的变量。

变量名随意,主要是变量类型记得改为 Image
类型。
图片识别
插件
节点,采用图片理解
下imgUnderstand
工具。

如下设置即可。

输入
-
url:图片地址,可以直接从"开始"节点获取即可。
-
text:设置图片识别的提示词。
你是一个财务管理助手,请分析图片内容,精准从图片中提取总金额、账单分类(美食、生活必须、出行等)、收款方、支付时间,如果无法识别,可以设置为空,禁止随意编造数据。
主要包括 3 部分:
- 角色定位,有了专业方向,更加准确地理解图片内容。
- 提取目标:最终的列表字段。
- 强调禁止编造数据。
输出
我们要使用的识别结果,主要都在输出变量 response_for_model
中。
整理数据
大模型
节点。

输入

一个变量 input
, 获取"图片识别"节点的 response_for_model
输出。
用户提示词
由于场景比较简单,"系统提示词"没有设置,直接设置"用户提示词"。
如下:
css
从{{input}}中提取出总金额、账单分类(美食、生活必须、出行等)、收款方、支付时间信息,并按照json格式组织,然后构造为飞书多维表格所需参数。
要求:
1. 仔细分析总金额,支付软件支付结果一般会增加负号,需要去除。
2. 总金额禁止携带单位,全部按照元为单位进行数值提取。
示例:
[ { 'fields': { 'money': 10.01, 'type': '美食', 'to': '京东秒送', 'time': '2025-07-14 12:00' } }]
主要包括以下作用:
- 从输入变量
input
中提取需要的信息。 - 按照 json 格式返回,方便直接映射为输出变量,减少工作流节点。
- 设置提取的要求,比如支付软件的负号处理、金额单位等。
- 给出示例,大家一定要重视示例的效果,真的是"一个例子顶上一大段话"。
输出
这里的输出变量也非常重要,因为飞书接口需要固定格式的参数,我们这里直接通过大模型节点输出变量格式一步到位。

这一步的类型和上面提示词的示例,都是根据飞书多维表格接口文档中设置的。

存储到飞书多维表格
插件
节点,采用飞书多维表格
下add_records
工具。

这一步在前面的实战中多次用到,就不赘述了。

输入
- app_token:直接复制飞书多维表格页面的 url 即可。
- records:直接使用前面"大模型"节点的输出即可。
这里输入变量 records
简单指定即可,主要就是借助"大模型"节点的输出实现,大家可以重点分析下。
结束节点
可以把识别结果输出,也可以直接输出一些固定文字。
工作流验证
先通过支付宝的支付截图验证一下。
截图

结果
点击"试运行",可以看到输出结果。

打开飞书多维表格,可以看到数据已经成功写入。

至此,关键的工作流编排就算完成了,下面直接发布即可。
工作流发布
我们点击工作流编排页面右上角的发布,即可将工作流加入智能体内。
使用
发布后,我们再拿一个支付小票来测试一下。
截图

结果

飞书表格数据也成功写入。

没问题,泛化性还可以。
结语
本次实战分享,主要通过 Coze 平台实现了一个可以识别小票、支付截图,并自动整理到飞书多维表格的智能体。
重点是通过大模型节点提示词配合输出格式的设置,简化飞书接口写入的实现。
后续大家可以根据自己需求,继续扩展花费统计分析、财务分析问答等功能。
好了,今天就到这里,欢迎大家留言交流各自的想法和问题。