为什么重写扣子智能体教程
很多朋友大概听过扣子(Coze)这个产品,是字节出品的AI应用开发平台,不需要懂代码,普通人也能创建和发布自己的 AI 智能体。
国内版:www.coze.cn/ 国际版:www.coze.com/
去年底,受朋友邀请,回字节参加公益活动,给大学生讲如何用Coze搭建AI Agent。
PPT和文档地址: xiangyangqiaomu.feishu.cn/wiki/XWIkwi...
时隔几个月,Coze功能和界面发生了不少变化,最近还推出了满血版的Deepseek R1和V3,加上了Function calling工具调用功能。
值得重写个教程。
打算用一个具体案例,讲讲Coze搭建工作流,并用上满血Deepseek R1工具版。
案例:听英语故事学英语智能体
学英语最有效的办法:多听多跟读,把一篇文章或故事读透。
基于这个想法,设计一个智能体实现:
AI自动抓英文短篇故事,合成英文MP3文件,提取文章中CET4以上的词汇,总结一句话剧情,辅助理解和学习。
效果如下:
或长按或扫描二维码体验
创建智能体
- 选创建智能体
- 填写基本资料
名称,简单介绍,点击自动生成图标,创建即可。
智能体组成
Prompt: 描述智能体功能,定义什么时候调用工作流。
模型: 这个智能体用什么模型(选的是Deepseek V3 工具调用)
工作流: 如何响应处理用户的请求
数据库: 存储一些重要数据,这里是存英文故事URL(选用)
最复杂和关键部分是 工作流,安排AI 如何从一个URL地址开始,怎么加工处理各种数据,最终输出什么内容。
工作流搭建
首页 -> 工作空间 -> 资源库 -> 创建工作流
填写工作流名称(英文)和描述(方便AI理解调用,简单清楚)
最终完成版
重点有四步:URL抓取、语音合成、图片生成、LLM加工
URL抓取
点"添加节点"->"插件",添加一个链接读取插件 把第一步连到这个插件,点开配置,URL选第一步的input
语音合成
点"添加节点"->"插件",添加一个语音合成插件,推荐搜索"英语文本转语音",质量高,配置简单。
选个喜欢的声音添加进去。
点开配置,把上一步插件的content作为text输入。
LLM加工
因为我们不仅仅只想要一个音频。
还想让AI输出故事原文,提取重点单词,一句话总结等。
点"添加节点" ->"大模型",然后点开配置:
注意: 模型选的豆包1.5 pro 256k,感觉上下文空间大些,避免碰到太长的文章。
- input选抓取页面插件的"content"字段,也就是抓到文本内容。
- 重点:用户提示词,一定要记得引用变量,就是{{input}},这是让LLM处理的内容。Prompt可以很简单,说明提取什么,设为什么变量。
- 输出部分,对应上你设定的变量。
敲黑板:这部分最重要,以后搭建任何工作流,都可能用到这个方法。
图片生成(可选)
全是文本,看起来不生动,而且视觉输入也对加深记忆有好处。
点"添加节点" ->"图像生成",连接大模型模块,input选大模型对应的一句话故事总结,提示词用{{input}} 变量。
相当于把故事梗概发给图片生成模型,得到一张故事图片。
调用工作流
把做好的工作流发布后,智能体就可以调用了。
回到智能体编排界面:
- 添加一个工作流,选择刚创建好的。
- 写Prompt,告诉智能体什么时候调用工作流。
故事 URL 数据库
工作流有了,调用也有了,故事URL从哪里找呢?
其实,有很多英文短篇故事网,比如 www.fridayflashfiction.com/100-word-st...
虽然能让AI调用插件随时抓取,但感觉存数据库更稳定。
可以用Chrome插件如Link grabber采集。
chromewebstore.google.com/detail/link...
或者让AI编程写工具抓取,以后再单独讲。
创建一个数据库,添加一个URL字段,把采集网址按照xlsx模版,粘贴后上传,导入数据库。
锦上添花,给工作流绑定卡片
智能体已经能运行,但发现返回音频是一个URL,点击跳转到另一个页面播放。
体验不够好。
经研究发现,原来可以把工作流返回的数据,通过设计一个卡片界面输出。
卡片可以调用播放器组件,文本组件,像搭积木一样,做一个GUI的界面,而不再是纯文本回复。
"首页"-"工作空间"-"资源库"-"卡片"
搭建英语故事学习卡片,用上了播放组件,文本组件,图片组件。
卡片设计完,一定要设定变量。 有了变量,才能把工作流输出的数据,显示在卡片上。
以音频为例,创建一个"音频"变量,点击音频组件,找到音频变量绑定。
其他同理
卡片制作发布后,如何绑定智能体和工作流呢?
回到智能体编排界面,鼠标hover在工作流位置,会出现一排icon,点击绑定卡片数据
挨个点选绑定对应的变量:
快捷指令
现代人都很懒,能点选,绝不打字。
所以为了体验,可以给智能体加一些对话框上方的快捷操作按钮。
比如我创建一个"听故事"按钮。
指令内容很简单,为了模拟用户打字内容,调起工作流。
发布智能体
可以选很多发布渠道,比如豆包、飞书等等。
融入推理模型 Deepseek R1 工具版后,感觉对工具的调用变的更准确。
能看到AI推理过程,对写提示词和调试,也变的更轻松。
虽然仍存在一些小问题,但这个演化方向没毛病。
另外,最近一直在研究MCP协议,Raycast工作流。
AI工具的演化方向越来越清晰:
人类用自然语言跟AI对话,AI则用模型推理能力,调用各种外部工具、知识库解决用户问题。
扣子(Coze)添加 Deepseek R1满血版,而且刻意加了工具调用能力,也是往这个方向努力。
非常期待今年AI Agent的大爆发,这样人类就可以变的"更懒"一些