PART1.初识AI AGENT
人工智能代理( AI Agent ) 的核心知识,涵盖定义、关键特性、组成模块、工作原理、发展历程、应用场景以及未来趋势。
一、什么是 AI Agent ?
AI Agent ( Artificial Intelligence Agent ),中文称为"人工智能代理"或"智能体",是一种能够:
- 感知环境
- 自主决策
- 执行动作
以达成特定目标的智能系统。
简单比喻:
- 大语言模型 ( LLM ) 像一个"超级大脑"------能理解、推理、生成语言。
- AI Agent 则是给这个大脑装上了"眼睛(感知)、记忆(存储)、手脚(工具调用)和计划能力(规划)",让它不仅能"说",还能"做"。
二、AI Agent 的核心特性
自主性 ( Autonomy )
能在无人干预下独立运行,主动完成任务。
反应性 ( Reactivity )
对环境变化或用户输入做出及时响应。
目标导向 ( Goal-directed )
围绕明确目标进行规划与行动。
学习与适应能力 ( Adaptability )
通过经验优化策略,支持长期记忆与上下文学习。
✅ 举例对比:
- 传统 AI ( 如 ChatGPT ):你问"写一篇关于气候变化的文章",它直接生成文本。
- AI Agent:你命令"调研最新气候政策并邮件发给张经理",它会自动搜索、分析、撰写、发送------全程无需你动手。
三、AI Agent 的六大核心模块
现代 AI Agent 通常由以下模块协同工作:
| 模块 | 功能 | 类比 |
|---|---|---|
| #### 1. 感知 ( Perception ) | 接收外部输入(文字、图像、传感器数据等) | "眼睛和耳朵" |
| #### 2. 记忆 ( Memory ) | 存储短期上下文 + 长期知识(用户偏好、历史任务) | "笔记本+大脑海马体" |
| #### 3. 规划 ( Planning ) | 拆解目标为子任务,安排执行顺序 | "作战参谋" |
| #### 4. 推理引擎 ( Reasoning Engine ) | 通常由 LLM 实现,负责理解、判断、决策 | "大脑皮层" |
| #### 5. 工具使用 ( Tool Use ) | 调用 API、数据库、代码解释器、浏览器等 | "手和工具箱" |
| #### 6. 行动 ( Action ) | 执行具体操作(发邮件、写文件、控制设备) | "执行者" |
🧩 工作流程示例:
用户说:"准备一份Q3销售分析报告。"
执行:
感知:理解指令
记忆:调取上次报告模板和负责人邮箱
规划:先查数据库 → 清洗数据 → 生成图表 → 写PPT → 发邮件
推理:决定用哪种可视化方式更清晰
工具:连接SQL数据库、调用Python绘图库
行动:生成PPT附件并发送邮件
四、AI Agent 的工作循环 ( ReAct 模式 )
AI Agent 通常遵循一个 "观察-思考-行动" 的闭环:
观察
接收目标(Goal)
观察当前状态(Observation)
思考
- 思考下一步(Reasoning / Planning)
行动
执行动作(Action via Tool)
获取反馈(New Observation)
评估是否达成目标
若未完成 → 返回第3步;若完成 → 结束
这种循环使其具备 试错、调整、优化 的能力,类似人类解决问题的过程。
五、发展历程简史
1950s:
图灵提出"机器能否思考",奠定 Agent 哲学基础。
1990s:
Wooldridge & Jennings 正式定义 Agent 为"自主、反应、主动、社交"的软件实体。
2016:
AlphaGo 展示复杂决策能力(但仍是专用 Agent)。
2023:
GPT-4 + AutoGPT 出现,通用 AI Agent 时代开启。
2024 -- 2025:
荣耀、OpenAI(Operator)、Manus、Genspark 等推出商用 AI Agent 产品,支持跨应用自动化。
六、典型应用场景
| #### 领域 | #### 应用示例 |
|---|---|
| #### 个人助理 | 自动日程安排、邮件筛选、账单支付提醒 |
| #### 企业办公 | 自动生成周报、分析销售数据、客服工单处理 |
| #### 软件开发 | 自动写代码、测试、部署(如 Cline、Devin) |
| #### 电商/营销 | 竞品分析、自动生成广告文案、A/B 测试 |
| #### 科研 | 文献综述、实验设计、数据分析 |
| #### 物联网/机器人 | 家庭服务机器人、自动驾驶车辆(多 Agent 协同) |
七、未来趋势 ( 2025 及以后 )
多智能体系统 ( Multi-Agent Systems, MAS )
多个 Agent 协作(如一个写代码,一个测试,一个部署)。
更强的自主性与长期记忆
支持跨天、跨任务的连续学习。
多模态交互
结合语音、视觉、手势等自然交互方式。
行业定制化 Agent
如医疗 Agent、法律 Agent、金融 Agent。
伦理与安全治理
防止滥用、确保可解释性、建立责任机制。
📌 Gartner 预测:
到 2028 年,15% 的日常业务决策将由 Agentic AI 自主完成。
八、常见误区澄清
- ❌ "AI Agent = 更强的聊天机器人"
✅ 错!Agent 的核心是 行动力,不只是对话。- ❌ "只要有 LLM 就是 Agent"
✅ 错!必须具备 工具调用 + 规划 + 记忆 才算完整 Agent。- ❌ "Agent 能完全替代人类"
✅ 目前仍需人类监督,尤其在高风险领域(如医疗、金融)
PART2. AI AGENT的进阶了解
1、产品架构分解
智力(理解能力和表达能力):
精准捕捉指令+文本生成,语言表达,以及准确的情境模拟输出
+知识(自有知识和补充知识)
自有知识:主要源于内置的大语言模型,其积累了丰富的语言知识和常识信息
补充知识:外部知识库或者专业数据库,搜索引擎获取的相关信息
+自主工作(工具使用和工作流规划,执行)
工具使用:掌握各类软件与硬件工具的技巧,可能涵盖办公数据分析图像处理等多个领域
工作的规划和执行:根据任务目标与当前环境,规划出合理的工作流并自动依次执行每个步骤
2、AI Agent的技术支持
AI Agent(人工智能代理)之所以能从"会聊天"升级为"能做事",依赖于一套多层次、跨学科的技术栈 。以下是支撑现代 AI Agent 的 六大核心技术支柱,涵盖从底层模型到上层应用的完整链条:
1. 大语言模型(LLM)------认知引擎
✅ 作用:提供理解、推理、生成、规划等核心智能。
- 关键技术 :
- Transformer 架构:支持长上下文、并行处理。
- 指令微调(SFT) + 对齐(RLHF/DPO):让模型听懂人话、按意图行动。
- 思维链(CoT)、自洽性(Self-Consistency):提升复杂任务推理能力。
- 多模态扩展:如 GPT-4o、Qwen-VL,支持图文音联合理解。
- 代表模型:GPT-4、Claude 3.5、Gemini 2.0、Qwen-Max、DeepSeek-V3。
💡 LLM 是 Agent 的"大脑",但仅有 LLM 还不是 Agent。
2. 工具调用(Tool Use / Function Calling)------行动能力
✅ 作用:让 Agent 能操作外部系统,突破"纯文本"限制。
- 实现方式 :
- 模型输出结构化函数调用(如
{"name": "search_web", "args": {"query": "..."}})。 - 执行引擎解析并调用 API、代码解释器、数据库等。
- 模型输出结构化函数调用(如
- 典型工具 :
- 网络搜索(Google Programmable Search)
- 代码执行(Python REPL 沙箱)
- 邮件/日历 API(Gmail、Outlook)
- 企业系统(ERP、CRM 接口)
- 安全机制:权限控制、输入过滤、沙箱隔离。
🛠️ 没有工具调用,Agent 只是"纸上谈兵"。
3. 记忆系统(Memory)------持续学习与个性化
✅ 作用:记住用户偏好、历史任务、长期知识,实现上下文连贯。
-
分层架构 :
类型 技术实现 示例 短期记忆 上下文窗口(如 128K tokens) 最近对话内容 长期记忆 向量数据库 + 嵌入检索 用户档案、项目资料 工作记忆 任务状态机(Task State) 当前子任务进度 -
关键技术 :
- 嵌入模型(text-embedding-3-large、BGE)
- 向量数据库(Pinecone、Weaviate、Milvus)
- 记忆摘要与压缩(避免 token 浪费)
🧠 记忆让 Agent 从"一次性工具"变为"你的数字分身"。
4. 规划与反思(Planning & Self-Reflection)------自主决策
✅ 作用:将复杂目标拆解为可执行步骤,并在失败后自我修正。
- 核心方法 :
- ReAct(Reason + Act):交替推理与行动。
- Tree of Thoughts(ToT):探索多个推理路径。
- Reflexion:通过反馈迭代优化策略(如"上次搜索关键词太泛,这次加限定词")。
- 任务分解 :
目标:写行业报告→
1. 查最新政策 → 2. 分析竞品 → 3. 生成图表 → 4. 撰写 → 5. 校对
- 框架支持:LangGraph(状态图编排)、AutoGen(多步流程)。
🗺️ 规划能力是区分"脚本机器人"和"智能体"的关键。
5. 多智能体协作(Multi-Agent Systems)------群体智能
✅ 作用:多个 Agent 分工合作,解决更复杂问题。
- 协作模式 :
- 角色分工:研究员 + 编辑 + 审核员
- 辩论机制:多个 Agent 投票或辩论得出最优解
- 市场机制:用"内部代币"激励任务完成(如 CrewAI)
- 通信方式:自然语言消息、结构化协议、共享记忆库。
- 框架:Microsoft AutoGen、CrewAI、LangGraph Multi-Agent。
👥 "三个臭皮匠,顶个诸葛亮"------AI 版。
6. 工程基础设施------落地保障
再强的算法也需要可靠工程支撑:
| 层级 | 技术/工具 |
|---|---|
| 开发框架 | LangChain、LlamaIndex、Haystack |
| 流程编排 | LangGraph(基于状态机)、Prefect |
| 部署平台 | Dify、Coze、FastAPI + Docker、Vercel AI SDK |
| 评估监控 | LangSmith(调试)、Ragas(指标:忠实度、相关性) |
| 安全合规 | 输入过滤、输出审查、审计日志、GDPR 合规 |
⚙️ 没有这些,Agent 只能停留在 Jupyter Notebook 里。
总结:AI Agent 技术全景图
[用户目标]
↓
[LLM 理解 + 规划] → [调用工具 / 查询记忆]
↓
[执行动作] → [观察结果] → [反思优化]
↓
[达成目标 或 迭代重试]
✅ 真正的 AI Agent = LLM + 工具 + 记忆 + 规划 + 反馈闭环
3、LLM简介以及其对于AI AGENT的作用
大语言模型(LLM) 的系统性综述,涵盖其基本简介、典型应用场景,并重点分析 LLM 对 AI Agent 构建各核心模块的分类影响,帮助你全面理解 LLM 如何成为现代 AI Agent 的"智能中枢"。
A、LLM 简介
1. 定义
大语言模型(Large Language Model, LLM) 是一类基于深度神经网络(通常为 Transformer 架构)的自然语言处理模型,通过在海量文本数据上进行自监督预训练,学习语言的语法、语义、事实知识和推理模式,能够根据上下文生成连贯、相关且有时极具创造性的文本。
2. 核心特征
- 大规模参数:通常数十亿至数千亿参数(如 GPT-4、Claude 3.5、Qwen-Max)
- 上下文学习能力(In-Context Learning):无需微调即可通过提示(Prompt)完成新任务
- 涌现能力(Emergent Abilities):在规模达到阈值后,展现出推理、规划、代码生成等高级能力
- 多模态扩展趋势:新一代 LLM 支持图像、语音、表格等多模态输入/输出(如 GPT-4o、Gemini 2.0)
3. 技术基础
- Transformer 架构:自注意力机制支持长距离依赖建模
- 预训练 + 指令微调 + 对齐训练(RLHF/DPO):使模型更安全、有用、符合人类意图
- 推理优化技术:KV Cache、量化、MoE(Mixture of Experts)提升效率
B、LLM 的主要应用场景
| 应用类别 | 典型场景 |
|---|---|
| 智能对话 | 虚拟助手、客服机器人、心理陪伴 |
| 内容生成 | 写作、营销文案、剧本、诗歌、多语言翻译 |
| 编程辅助 | 代码补全、错误调试、测试生成、文档注释 |
| 知识问答 | 企业知识库问答、学术研究辅助、政策解读 |
| 教育辅导 | 个性化习题、语言陪练、作文批改 |
| AI Agent 基座 | 作为 Agent 的推理、规划与决策引擎 |
| 多模态交互 | 图文理解、语音对话、视觉问答 |
✅ LLM 已从"文本生成器"演变为通用智能接口(Universal Interface to Intelligence)。
C、LLM 对 AI Agent 构建各模块的分类影响
AI Agent 通常由六大核心模块构成。LLM 的引入对每个模块都产生了根本性变革:
| AI Agent 模块 | 传统实现方式 | 引入 LLM 后的变化 | LLM 带来的性能提升 |
|---|---|---|---|
| 1. 感知(Perception) | 规则匹配、关键词提取、固定 NLP 管道 | LLM 直接理解自然语言指令,支持模糊、口语化、多轮上下文输入 | ✅ 意图识别准确率↑ ✅ 支持复杂语义(如反讽、省略) |
| 2. 记忆(Memory) | 数据库存储 + 手动索引 | LLM 驱动记忆摘要、关键信息提取;结合向量数据库实现语义检索 | ✅ 自动构建记忆索引 ✅ 支持"回忆式"推理("上次你说过...") |
| 3. 规划(Planning) | 预设状态机、有限任务树 | LLM 动态生成任务分解(Task Decomposition),支持 ReAct、ToT 等高级规划策略 | ✅ 处理开放域目标 ✅ 动态调整子任务顺序 |
| 4. 推理引擎(Reasoning) | 逻辑规则、贝叶斯网络 | LLM 提供端到端推理:CoT、自洽性、类比推理、假设检验 | ✅ 复杂问题求解能力↑ ✅ 支持"解释为什么" |
| 5. 工具使用(Tool Use) | 固定 API 映射、硬编码调用逻辑 | LLM 理解工具描述,自动生成结构化函数调用(Function Calling) | ✅ 无缝集成新工具 ✅ 自然语言 → API 自动转换 |
| 6. 行动(Action) | 脚本执行、有限输出格式 | LLM 生成多样化输出:邮件正文、PPT 脚本、代码、报告等 | ✅ 输出更自然、专业、适配场景 ✅ 支持多模态行动(如生成图表+文字) |
补充:LLM 对 Agent 整体行为范式的升级
| 维度 | 无 LLM 的 Agent | 有 LLM 的 Agent |
|---|---|---|
| 智能类型 | 反应式(Reactive) | 主动式 + 反思式(Proactive + Reflective) |
| 适应性 | 仅限预设任务 | 可泛化到未见过的任务(Zero-shot / Few-shot) |
| 交互方式 | 命令式(/command) | 对话式(自然语言) |
| 开发模式 | 编程密集型 | Prompt + 工具 + 记忆配置为主 |
| 失败处理 | 报错退出 | 自我诊断、重试、降级策略 |
D、典型案例说明
案例:销售分析 Agent
- 用户输入:"为什么华东区 Q3 销售下滑?"
- LLM 驱动流程 :
- 感知:理解"华东区""Q3""销售下滑"等关键意图
- 规划:拆解为"查数据 → 对比历史 → 分析竞品 → 生成报告"
- 工具调用:连接数据库取数、调用 Python 画趋势图、搜索行业新闻
- 推理:发现"主力产品缺货 + 竞品促销"是主因
- 行动:生成带图表的 PPT 并邮件发送给经理
- 记忆:记录本次分析结论,供下次参考
🔧 若没有 LLM,上述每一步都需要人工编写规则和逻辑,几乎无法实现。
E、挑战与边界
尽管 LLM 极大提升了 Agent 能力,但仍需注意:
- 幻觉风险:可能生成错误事实 → 需结合 RAG 和工具验证
- 计算成本:大模型推理延迟高 → 可采用小模型路由或缓存
- 安全控制:防止越权操作 → 必须设置工具调用白名单和审批机制
- 长期一致性:多轮任务中状态易丢失 → 需引入显式状态管理(如 LangGraph)
F、总结
LLM 不是 AI Agent 的一个组件,而是其智能的"操作系统" 。
它重构了 Agent 从感知到行动的每一个环节,使其从"自动化脚本"跃迁为"具备理解、规划与反思能力的数字智能体"。
随着 LLM 在推理效率、因果建模、多模态融合 等方面的持续进化,AI Agent 将进一步走向自主、可靠、普适,成为个人与企业的"第二大脑"。
PART4、国内AI agent的设计平台
截至 2025 年,中国 AI Agent(人工智能代理)生态蓬勃发展,多家科技企业推出了面向开发者、企业和普通用户的 AI Agent 设计与开发平台。这些平台普遍以"低代码/零代码 + 大模型 + 工具集成"为核心,大幅降低智能体构建门槛。
以下是 国内主流 AI Agent 设计平台 的系统梳理,涵盖功能特点、适用场景与代表厂商:
1. 扣子(Coze) ------ 字节跳动
定位 :中文生态最完善的零代码 Bot/Agent 开发平台
核心能力:
- 支持 单智能体 & 多智能体 协作
- 内置 10,000+ 插件(搜索、翻译、电商、办公等)
- 深度打通 微信、飞书、抖音、小红书 等字节及第三方生态
- 可视化工作流编排(拖拽式节点)
- 支持知识库上传(RAG)、自定义人设、自动评测
适用人群 :自媒体创作者、小微商家、个人开发者
官网 :https://www.coze.cn
✅ 优势:上手极快,插件丰富,适合快速搭建客服、内容生成、营销助手类 Agent。
2. 文心智能体平台(AgentBuilder) ------ 百度
定位 :企业级低代码 Agent 构建平台,依托文心大模型
核心能力:
- 提供 零代码 + Low-Code 双模式
- 集成百度搜索、地图、网盘等自有服务
- 支持行业知识库自动调优(金融、医疗、政务)
- 可部署到 百度智能云、小程序、APP
适用场景 :金融客服、医疗问诊、政务咨询
特色:强调"商业闭环",支持直接对接交易系统
✅ 优势:行业适配强,安全合规,适合 B 端落地。
3. 通义灵码 / 通义星尘 / 通义智文 ------ 阿里云(通义实验室)
定位 :基于通义千问(Qwen)的多场景 Agent 解决方案
主要平台:
- 通义灵码 :专注 编程 Agent(代码生成、解释、优化)
- 通义星尘 :用于创建 游戏 NPC、情感陪伴、教育角色
- 通义智文 :科研/办公场景的 阅读理解与摘要 Agent
技术底座 :Qwen-Max / Qwen-Plus 大模型 + RAG + 工具调用
部署方式 :阿里云百炼平台支持私有化部署
官网 :https://tongyi.aliyun.com
✅ 优势:多模态能力强,长文本处理(最高 200 万字),适合复杂任务。
4. 智谱清言智能体平台 ------ 智谱AI
定位 :基于 GLM 大模型的通用 Agent 开发平台
核心能力:
- 强中文语义理解与逻辑推理
- 支持 知识库问答、论文辅助、教育培训 类 Agent
- 提供 API 和 SDK,便于集成到企业系统
特色 :在学术、教育领域表现突出,语言润色能力强
适用人群:高校、研究机构、教育科技公司
✅ 优势:中文 NLP 能力顶尖,适合知识密集型任务。
5. 腾讯云智能体开发平台(TCADP)
定位 :企业级复杂业务智能体构建平台
发布于 :2025 年 9 月
核心能力:
- 支持 LLM + RAG + Workflow + Multi-Agent 四种模式
- 内置 智能网页解析、多轮对话改写、工单转接 等原子能力
- 支持 MCP 协议 快速接入第三方服务
- 提供 全流程工具链 :配置 → 评测 → 发布 → 监控
安全特性 :企业级权限管理、数据隔离、审计日志
官网 :https://cloud.tencent.com/product/tcadp
✅ 优势:架构先进,适合金融、医疗、政务等高要求场景。
6. 站酷 AI 设计 Agent ------ 站酷(ZCOOL)
定位 :面向设计师的 视觉创作智能体平台
核心能力:
- 可视化工作流:拖拽图像/文字节点,生成 图像、视频、图案
- 集成 JiMeng(极梦)、Flux、NanoBanana 等图像/视频模型
- 支持 风格迁移、T恤印花、无缝图案生成 等设计任务
特色 :无需代码,设计师可直接用自然语言操控生成流程
入口:站酷官网 → AI 创作 → 设计 Agent
✅ 优势:极度易用,专为视觉创意场景打造,是"AI for Design"的代表。
7. InsCode(快马) ------ CSDN 旗下
定位 :开发者友好的一站式 Agent 项目生成平台
核心功能:
- 输入自然语言指令(如"生成一个支持工单转接的客服 Agent")
- 一键生成完整可运行项目(含前端界面 + 后端逻辑)
- 内置调试、部署、分享功能
适用场景 :教学演示、原型验证、竞赛项目
网址 :https://www.inscode.net
✅ 优势:3 分钟上线可交互 Demo,对初学者极其友好。
8. 其他值得关注的平台
| 平台 | 公司 | 特色 |
|---|---|---|
| Betteryeah | 阿里系创业团队 | 轻量级自动化,专注客服/营销场景 |
| 实在 Agent | 实在智能 | RPA + AI 融合,强在表单填写、OA 自动化 |
| 九科 bit-Agent | 九科信息 | 图形界面智能体,适配国央企办公系统 |
| 天工 SkyAgents | 昆仑万维 | 自然语言创建 Agent,适合 PPT/脚本生成 |
国内 AI Agent 平台对比简表
| 平台 | 核心优势 | 适用场景 | 是否免费 |
|---|---|---|---|
| 扣子(Coze) | 插件生态 + 微信打通 | 自媒体、电商、个人助理 | ✅ 免费(有额度) |
| 文心智能体 | 行业知识库 + 商业闭环 | 金融、医疗、政务 | ⚠️ 企业付费为主 |
| 通义系列 | 多模态 + 长文本 | 编程、科研、游戏 | ✅ 部分免费 |
| 腾讯云 TCADP | 企业级安全 + 多Agent | 复杂业务系统 | 💰 云服务计费 |
| 站酷设计 Agent | 视觉创作零门槛 | 平面/服装/视频设计 | ✅ 免费试用 |
| InsCode | 一键生成项目 | 教学、Demo 快速验证 | ✅ 免费 |
总结与建议
- 个人/创作者 → 首选 扣子 或 站酷(易用、免费、生态好)
- 开发者/技术团队 → 用 InsCode 快速验证,或 通义百炼 深度定制
- 企业级应用 → 选择 腾讯云 TCADP 、文心智能体 或 实在 Agent(安全、合规、可集成)
- 学术/教育场景 → 智谱清言 是中文知识问答的优选
📌 趋势:2025 年后,国内平台正从"单 Agent 工具"向 多 Agent 协同 + 企业工作流嵌入 演进,未来将更深度融入钉钉、企业微信、飞书等办公生态。
PART5、扣子编程操作要件
✅ 扣子常用变量类型表
在字节跳动推出的 AI Agent 开发平台「扣子(Coze)」 中,变量(Variables) 是构建工作流(Workflow)、插件调用、知识库检索和对话逻辑的核心数据载体。正确使用变量类型,能确保信息在节点间准确传递与处理。
以下是 扣子(Coze)平台中常用的变量类型及其说明(截至 2025 年最新版本):
| 类型 | 中文名 | 说明 | 示例值 | 使用场景 |
|---|---|---|---|---|
string |
字符串 | 最常用类型,用于文本、URL、ID 等 | "北京天气" "https://api.example.com" |
用户输入、搜索关键词、消息内容 |
number |
数字 | 整数或浮点数 | 42 3.14 |
温度、价格、数量、评分 |
boolean |
布尔值 | 表示真/假 | true false |
条件判断(如"是否需要发送邮件?") |
array |
数组 | 有序列表,可包含任意类型元素 | ["苹果", "香蕉"] [1, 2, 3] |
多个搜索结果、选项列表、标签集合 |
object |
对象 | 键值对结构,用于复杂数据 | {"name": "张三", "age": 28} |
用户资料、API 返回的结构化数据 |
file |
文件 | 上传或生成的文件(含 URL 和元信息) | { url: "...", name: "report.pdf", type: "application/pdf" } |
上传文档、生成图表/PDF、图片处理 |
message |
消息 | 对话中的完整消息对象 | { role: "user", content: "你好" } |
多轮对话上下文、历史记录引用 |
knowledge_base_result |
知识库结果 | RAG 检索返回的片段 | { text: "...", source: "doc1.pdf", score: 0.92 } |
引用知识库内容回答问题 |
plugin_output |
插件输出 | 插件调用后的结构化返回 | 见下方示例 | 调用搜索、翻译、计算等插件后获取结果 |
🔍 补充说明
1. plugin_output 的典型结构
不同插件返回的 object 结构不同,例如:
-
网络搜索插件 :
{ "results": [ { "title": "...", "url": "...", "snippet": "..." } ] } -
计算器插件 :
{ "result": 1024 } -
日历插件 :
{ "events": [{ "summary": "会议", "start": "2025-12-21T10:00:00" }] }
💡 在工作流中,可通过 "提取字段" 节点(或直接用
{``{ plugin_output.result }})获取具体值。
2. 变量引用语法
在 Coze 的提示词(Prompt)或条件判断中,使用 双花括号 引用变量:
当前温度是 {{ weather.temperature }} ℃,建议 {{ weather.recommendation }}。
3. 自动类型推断
Coze 会根据上游节点输出自动推断变量类型 ,但你也可以在"设置变量"节点中手动指定类型以增强稳定性。
4. 特殊系统变量
| 变量名 | 类型 | 说明 |
|---|---|---|
{``{ user_input }} |
string | 当前用户输入的原始文本 |
{``{ conversation_id }} |
string | 当前会话唯一 ID |
{``{ current_time }} |
string | 当前时间(ISO 格式) |
{``{ bot_name }} |
string | 当前 Bot 的名称 |
🛠️ 实用技巧
- 数组遍历 :在提示词中可用
{``{#each items}}...{``{/each}}循环(部分版本支持) - 空值处理 :使用
{``{ variable || "默认值" }}避免空输出 - 类型转换:如需将字符串转数字,可在代码节点(如有)或插件中处理
⚠️ 注意事项
file类型不能直接拼接到文本中 ,需使用其url字段;object类型在条件判断中需提取具体字段(不能直接判断整个对象);- 插件返回若失败,
plugin_output可能为null,建议加错误处理分支。
✅ 扣子(Coze)核心节点类型与用途表
在字节跳动推出的 AI Agent 开发平台 「扣子(Coze)」 中,节点(Node) 是构建工作流(Workflow)的基本单元。通过拖拽和连接不同类型的节点,开发者可以可视化地编排 Agent 的行为逻辑,实现从用户输入到最终输出的完整智能流程。
以下是截至 2025 年最新版 Coze 平台 中 常用节点的名称、图标标识、核心用途及典型应用场景 的系统整理,帮助你高效设计 Agent 工作流。
| 节点名称 | 图标示意 | 用途说明 | 典型使用场景 |
|---|---|---|---|
| 开始(Start) | 🟢 圆形 | 工作流入口,接收用户输入 | 所有 Workflow 的起点 |
| 大模型(LLM) | 🧠 | 调用大模型进行推理、生成、总结 | 回答问题、写文案、分析数据 |
| 插件(Plugin) | 🔌 | 调用内置或自定义插件(如搜索、翻译、计算) | 获取实时信息、执行外部操作 |
| 知识库(Knowledge Base) | 📚 | 从上传的文档中检索相关信息(RAG) | 企业知识问答、产品手册查询 |
| 条件分支(Condition) | ⚖️ | 根据变量值进行逻辑判断,分流执行路径 | "如果温度>35℃,则提醒防暑" |
| 设置变量(Set Variable) | 📥 | 创建或更新变量(支持 string/number/array/object) | 存储中间结果、初始化参数 |
| 提取字段(Extract Fields) | 🔍 | 从复杂对象(如插件返回)中提取指定字段 | 从搜索结果中取 title 和 url |
| 循环(Loop) | 🔁 | 对数组中的每个元素重复执行一组节点 | 批量处理多个文件或搜索结果 |
| 代码(Code)(部分版本) | 💻 | 执行 JavaScript/Python 片段(需开启高级模式) | 自定义计算、格式转换 |
| 结束(End) | 🔚 | 工作流出口,返回最终结果给用户 | 所有路径的终点 |
💡 注:部分节点(如"循环""代码")可能在 专业版或企业版 中才开放。
一、各节点详细说明
1. 开始 ( Start )
- 输入 : 用户原始消息 ( {{ user_input }} )
- 输出:传递给下一个节点
- 不可删除,每个 Workflow 必须有且仅有一个
2. 大模型 ( LLM ) 节点
- 核心功能:
- 支持自定义 系统提示词 ( System Prompt )
- 可注入上下文变量(如 {{ search_results }})
- 支持 结构化输出 ( JSON Schema )(用于后续节点解析)
- 典型配置:
- 你是一个天气助手。根据以下预报信息生成简洁提醒:
- {{#each forecast}}
-
- {{date}}: {{temp}}℃, {{weather}}
- {{/each}}

3. 插件 ( Plugin ) 节点
- 内置插件示例:
- 网络搜索(Bing / 字节搜索)
- 实时天气
- 股票查询
- 计算器
- 翻译
- 日历事件
- 使用方式:
- 选择插件 → 填写参数(可引用变量)→ 执行
- 输出:结构化对象(如 plugin_output.results[0].title)
4. 知识库 ( Knowledge Base ) 节点
- 前提:已上传 PDF/Word/TXT 等文档到 Bot 知识库
- 工作原理:基于向量检索(RAG),返回最相关的文本片段
- 输出变量:knowledge_base_result(数组类型)
- 适用场景:
- 公司制度问答
- 产品说明书查询
- 法律条款解释
5. 条件分支 ( Condition ) 节点
- 支持的判断类型:
- 字符串相等(==)
- 数值比较(>, <, >=)
- 布尔值(is true/false)
- 数组非空(length > 0)
- 分支数量 :通常支持 "是" / "否" 两路,也可嵌套多层
- 示例:
- 条件:{{ temperature }} > 35
- 是 → 输出"高温预警!"
- 否 → 输出"天气舒适。"
6. 设置变量 ( Set Variable ) 节点
- 作用:创建新变量或覆盖现有变量
- 支持类型:
- 直接输入值(如 "北京")
- 引用其他变量(如 {{ plugin_output.price }})
- 表达式(部分支持,如 score * 1.1)
- 命名建议:语义清晰,如 final_report, user_city
7. 提取字段 ( Extract Fields ) 节点
- 解决痛点:插件或 LLM 返回的 JSON 结构复杂,难以直接使用
- 操作方式:
- 输入源变量(如 search_results)
- 定义新字段映射:
- title → item_title
- url → item_link
- 输出:简化后的对象或数组,便于后续处理
8. 循环 ( Loop ) 节点
- 触发条件:输入为数组(如 files = [file1, file2])
- 内部流程:对每个元素执行一组子节点
- 输出:收集每次循环的结果,形成新数组
- 典型场景:
- 逐个分析用户上传的简历
- 为每个商品生成营销文案
9. 代码 ( Code ) 节点 ( 高级功能 )
- 语言支持:JavaScript(主流)、部分环境支持 Python
- 能力:
- 数学计算(求平均、排序)
- 字符串处理(正则提取)
- 数据转换(CSV → JSON)
- 安全限制:无网络请求、无文件写入
10. 结束 ( End ) 节点
- 作用:将最终内容返回给用户
- 可配置:
- 文本消息
- 文件(如生成的 PDF)
- 按钮(引导下一步操作)
- 支持变量引用:{{ final_answer }}
二、典型工作流组合示例
🌰 场景:智能天气助手
graph LR
A[开始] --> B{提取城市}
B --> C[调用天气插件]
C --> D[LLM 生成提醒]
D --> E[结束]
🌰 场景:多文档摘要 Bot
graph LR
A[开始] --> B[知识库检索]
B --> C{是否有结果?}
C -- 是 --> D[LLM 总结]
C -- 否 --> E[调用网络搜索]
E --> D
D --> F[结束]