AI-agent|从人工智能代理角度再延伸至扣子编程

PART1.初识AI AGENT

人工智能代理( AI Agent 的核心知识,涵盖定义、关键特性、组成模块、工作原理、发展历程、应用场景以及未来趋势。


一、什么是 AI Agent

AI Agent Artificial Intelligence Agent ,中文称为"人工智能代理"或"智能体",是一种能够:

  • 感知环境
  • 自主决策
  • 执行动作

以达成特定目标的智能系统。

简单比喻:

  • 大语言模型 LLM 像一个"超级大脑"------能理解、推理、生成语言。
  • AI Agent 则是给这个大脑装上了"眼睛(感知)、记忆(存储)、手脚(工具调用)和计划能力(规划)",让它不仅能"说",还能"做"。

二、AI Agent 的核心特性

自主性 Autonomy

能在无人干预下独立运行,主动完成任务。

反应性 Reactivity

对环境变化或用户输入做出及时响应。

目标导向 Goal-directed

围绕明确目标进行规划与行动。

学习与适应能力 Adaptability

通过经验优化策略,支持长期记忆与上下文学习。

✅ 举例对比:

  • 传统 AI ChatGPT :你问"写一篇关于气候变化的文章",它直接生成文本。
  • AI Agent:你命令"调研最新气候政策并邮件发给张经理",它会自动搜索、分析、撰写、发送------全程无需你动手。

三、AI Agent 的六大核心模块

现代 AI Agent 通常由以下模块协同工作:

模块 功能 类比
#### 1. 感知 Perception 接收外部输入(文字、图像、传感器数据等) "眼睛和耳朵"
#### 2. 记忆 Memory 存储短期上下文 + 长期知识(用户偏好、历史任务) "笔记本+大脑海马体"
#### 3. 规划 Planning 拆解目标为子任务,安排执行顺序 "作战参谋"
#### 4. 推理引擎 Reasoning Engine 通常由 LLM 实现,负责理解、判断、决策 "大脑皮层"
#### 5. 工具使用 Tool Use 调用 API、数据库、代码解释器、浏览器等 "手和工具箱"
#### 6. 行动 Action 执行具体操作(发邮件、写文件、控制设备) "执行者"

🧩 工作流程示例

用户说:"准备一份Q3销售分析报告。"

执行:

  • 感知:理解指令

  • 记忆:调取上次报告模板和负责人邮箱

  • 规划:先查数据库 → 清洗数据 → 生成图表 → 写PPT → 发邮件

  • 推理:决定用哪种可视化方式更清晰

  • 工具:连接SQL数据库、调用Python绘图库

  • 行动:生成PPT附件并发送邮件


四、AI Agent 的工作循环 ReAct 模式

AI Agent 通常遵循一个 "观察-思考-行动" 的闭环:

观察

  1. 接收目标(Goal)

  2. 观察当前状态(Observation)

思考

  1. 思考下一步(Reasoning / Planning)

行动

  1. 执行动作(Action via Tool)

  2. 获取反馈(New Observation)

  3. 评估是否达成目标

  4. 若未完成 → 返回第3步;若完成 → 结束

这种循环使其具备 试错、调整、优化 的能力,类似人类解决问题的过程。


五、发展历程简史

1950s

图灵提出"机器能否思考",奠定 Agent 哲学基础。

1990s

Wooldridge & Jennings 正式定义 Agent 为"自主、反应、主动、社交"的软件实体。

2016

AlphaGo 展示复杂决策能力(但仍是专用 Agent)。

2023

GPT-4 + AutoGPT 出现,通用 AI Agent 时代开启

2024 -- 2025

荣耀、OpenAI(Operator)、Manus、Genspark 等推出商用 AI Agent 产品,支持跨应用自动化。


六、典型应用场景

#### 领域 #### 应用示例
#### 个人助理 自动日程安排、邮件筛选、账单支付提醒
#### 企业办公 自动生成周报、分析销售数据、客服工单处理
#### 软件开发 自动写代码、测试、部署(如 Cline、Devin)
#### 电商/营销 竞品分析、自动生成广告文案、A/B 测试
#### 科研 文献综述、实验设计、数据分析
#### 物联网/机器人 家庭服务机器人、自动驾驶车辆(多 Agent 协同)

七、未来趋势 2025 及以后

多智能体系统 Multi-Agent Systems, MAS

多个 Agent 协作(如一个写代码,一个测试,一个部署)。

更强的自主性与长期记忆

支持跨天、跨任务的连续学习。

多模态交互

结合语音、视觉、手势等自然交互方式。

行业定制化 Agent

如医疗 Agent、法律 Agent、金融 Agent。

伦理与安全治理

防止滥用、确保可解释性、建立责任机制。

📌 Gartner 预测

到 2028 年,15% 的日常业务决策将由 Agentic AI 自主完成。


八、常见误区澄清

  • ❌ "AI Agent = 更强的聊天机器人"
    ✅ 错!Agent 的核心是 行动力,不只是对话。
  • ❌ "只要有 LLM 就是 Agent"
    ✅ 错!必须具备 工具调用 + 规划 + 记忆 才算完整 Agent。
  • ❌ "Agent 能完全替代人类"
    ✅ 目前仍需人类监督,尤其在高风险领域(如医疗、金融)

PART2. AI AGENT的进阶了解

1、产品架构分解

智力(理解能力和表达能力):

精准捕捉指令+文本生成,语言表达,以及准确的情境模拟输出

+知识(自有知识和补充知识)

自有知识:主要源于内置的大语言模型,其积累了丰富的语言知识和常识信息

补充知识:外部知识库或者专业数据库,搜索引擎获取的相关信息

+自主工作(工具使用和工作流规划,执行)

工具使用:掌握各类软件与硬件工具的技巧,可能涵盖办公数据分析图像处理等多个领域

工作的规划和执行:根据任务目标与当前环境,规划出合理的工作流并自动依次执行每个步骤

2、AI Agent的技术支持

AI Agent(人工智能代理)之所以能从"会聊天"升级为"能做事",依赖于一套多层次、跨学科的技术栈 。以下是支撑现代 AI Agent 的 六大核心技术支柱,涵盖从底层模型到上层应用的完整链条:


1. 大语言模型(LLM)------认知引擎

作用:提供理解、推理、生成、规划等核心智能。

  • 关键技术
    • Transformer 架构:支持长上下文、并行处理。
    • 指令微调(SFT) + 对齐(RLHF/DPO):让模型听懂人话、按意图行动。
    • 思维链(CoT)、自洽性(Self-Consistency):提升复杂任务推理能力。
    • 多模态扩展:如 GPT-4o、Qwen-VL,支持图文音联合理解。
  • 代表模型:GPT-4、Claude 3.5、Gemini 2.0、Qwen-Max、DeepSeek-V3。

💡 LLM 是 Agent 的"大脑",但仅有 LLM 还不是 Agent。


2. 工具调用(Tool Use / Function Calling)------行动能力

作用:让 Agent 能操作外部系统,突破"纯文本"限制。

  • 实现方式
    • 模型输出结构化函数调用(如 {"name": "search_web", "args": {"query": "..."}})。
    • 执行引擎解析并调用 API、代码解释器、数据库等。
  • 典型工具
    • 网络搜索(Google Programmable Search)
    • 代码执行(Python REPL 沙箱)
    • 邮件/日历 API(Gmail、Outlook)
    • 企业系统(ERP、CRM 接口)
  • 安全机制:权限控制、输入过滤、沙箱隔离。

🛠️ 没有工具调用,Agent 只是"纸上谈兵"。


3. 记忆系统(Memory)------持续学习与个性化

作用:记住用户偏好、历史任务、长期知识,实现上下文连贯。

  • 分层架构

    类型 技术实现 示例
    短期记忆 上下文窗口(如 128K tokens) 最近对话内容
    长期记忆 向量数据库 + 嵌入检索 用户档案、项目资料
    工作记忆 任务状态机(Task State) 当前子任务进度
  • 关键技术

    • 嵌入模型(text-embedding-3-large、BGE)
    • 向量数据库(Pinecone、Weaviate、Milvus)
    • 记忆摘要与压缩(避免 token 浪费)

🧠 记忆让 Agent 从"一次性工具"变为"你的数字分身"。


4. 规划与反思(Planning & Self-Reflection)------自主决策

作用:将复杂目标拆解为可执行步骤,并在失败后自我修正。

  • 核心方法
    • ReAct(Reason + Act):交替推理与行动。
    • Tree of Thoughts(ToT):探索多个推理路径。
    • Reflexion:通过反馈迭代优化策略(如"上次搜索关键词太泛,这次加限定词")。
    • 任务分解
      目标:写行业报告
      1. 查最新政策 → 2. 分析竞品 → 3. 生成图表 → 4. 撰写 → 5. 校对
  • 框架支持:LangGraph(状态图编排)、AutoGen(多步流程)。

🗺️ 规划能力是区分"脚本机器人"和"智能体"的关键。


5. 多智能体协作(Multi-Agent Systems)------群体智能

作用:多个 Agent 分工合作,解决更复杂问题。

  • 协作模式
    • 角色分工:研究员 + 编辑 + 审核员
    • 辩论机制:多个 Agent 投票或辩论得出最优解
    • 市场机制:用"内部代币"激励任务完成(如 CrewAI)
  • 通信方式:自然语言消息、结构化协议、共享记忆库。
  • 框架:Microsoft AutoGen、CrewAI、LangGraph Multi-Agent。

👥 "三个臭皮匠,顶个诸葛亮"------AI 版。


6. 工程基础设施------落地保障

再强的算法也需要可靠工程支撑:

层级 技术/工具
开发框架 LangChain、LlamaIndex、Haystack
流程编排 LangGraph(基于状态机)、Prefect
部署平台 Dify、Coze、FastAPI + Docker、Vercel AI SDK
评估监控 LangSmith(调试)、Ragas(指标:忠实度、相关性)
安全合规 输入过滤、输出审查、审计日志、GDPR 合规

⚙️ 没有这些,Agent 只能停留在 Jupyter Notebook 里。


总结:AI Agent 技术全景图

复制代码
[用户目标]
    ↓
[LLM 理解 + 规划] → [调用工具 / 查询记忆]
    ↓
[执行动作] → [观察结果] → [反思优化]
    ↓
[达成目标 或 迭代重试]

真正的 AI Agent = LLM + 工具 + 记忆 + 规划 + 反馈闭环

3、LLM简介以及其对于AI AGENT的作用

大语言模型(LLM) 的系统性综述,涵盖其基本简介、典型应用场景,并重点分析 LLM 对 AI Agent 构建各核心模块的分类影响,帮助你全面理解 LLM 如何成为现代 AI Agent 的"智能中枢"。


A、LLM 简介

1. 定义

大语言模型(Large Language Model, LLM) 是一类基于深度神经网络(通常为 Transformer 架构)的自然语言处理模型,通过在海量文本数据上进行自监督预训练,学习语言的语法、语义、事实知识和推理模式,能够根据上下文生成连贯、相关且有时极具创造性的文本。

2. 核心特征
  • 大规模参数:通常数十亿至数千亿参数(如 GPT-4、Claude 3.5、Qwen-Max)
  • 上下文学习能力(In-Context Learning):无需微调即可通过提示(Prompt)完成新任务
  • 涌现能力(Emergent Abilities):在规模达到阈值后,展现出推理、规划、代码生成等高级能力
  • 多模态扩展趋势:新一代 LLM 支持图像、语音、表格等多模态输入/输出(如 GPT-4o、Gemini 2.0)
3. 技术基础
  • Transformer 架构:自注意力机制支持长距离依赖建模
  • 预训练 + 指令微调 + 对齐训练(RLHF/DPO):使模型更安全、有用、符合人类意图
  • 推理优化技术:KV Cache、量化、MoE(Mixture of Experts)提升效率

B、LLM 的主要应用场景

应用类别 典型场景
智能对话 虚拟助手、客服机器人、心理陪伴
内容生成 写作、营销文案、剧本、诗歌、多语言翻译
编程辅助 代码补全、错误调试、测试生成、文档注释
知识问答 企业知识库问答、学术研究辅助、政策解读
教育辅导 个性化习题、语言陪练、作文批改
AI Agent 基座 作为 Agent 的推理、规划与决策引擎
多模态交互 图文理解、语音对话、视觉问答

✅ LLM 已从"文本生成器"演变为通用智能接口(Universal Interface to Intelligence)


C、LLM 对 AI Agent 构建各模块的分类影响

AI Agent 通常由六大核心模块构成。LLM 的引入对每个模块都产生了根本性变革

AI Agent 模块 传统实现方式 引入 LLM 后的变化 LLM 带来的性能提升
1. 感知(Perception) 规则匹配、关键词提取、固定 NLP 管道 LLM 直接理解自然语言指令,支持模糊、口语化、多轮上下文输入 ✅ 意图识别准确率↑ ✅ 支持复杂语义(如反讽、省略)
2. 记忆(Memory) 数据库存储 + 手动索引 LLM 驱动记忆摘要、关键信息提取;结合向量数据库实现语义检索 ✅ 自动构建记忆索引 ✅ 支持"回忆式"推理("上次你说过...")
3. 规划(Planning) 预设状态机、有限任务树 LLM 动态生成任务分解(Task Decomposition),支持 ReAct、ToT 等高级规划策略 ✅ 处理开放域目标 ✅ 动态调整子任务顺序
4. 推理引擎(Reasoning) 逻辑规则、贝叶斯网络 LLM 提供端到端推理:CoT、自洽性、类比推理、假设检验 ✅ 复杂问题求解能力↑ ✅ 支持"解释为什么"
5. 工具使用(Tool Use) 固定 API 映射、硬编码调用逻辑 LLM 理解工具描述,自动生成结构化函数调用(Function Calling) ✅ 无缝集成新工具 ✅ 自然语言 → API 自动转换
6. 行动(Action) 脚本执行、有限输出格式 LLM 生成多样化输出:邮件正文、PPT 脚本、代码、报告等 ✅ 输出更自然、专业、适配场景 ✅ 支持多模态行动(如生成图表+文字)

补充:LLM 对 Agent 整体行为范式的升级

维度 无 LLM 的 Agent 有 LLM 的 Agent
智能类型 反应式(Reactive) 主动式 + 反思式(Proactive + Reflective)
适应性 仅限预设任务 可泛化到未见过的任务(Zero-shot / Few-shot)
交互方式 命令式(/command) 对话式(自然语言)
开发模式 编程密集型 Prompt + 工具 + 记忆配置为主
失败处理 报错退出 自我诊断、重试、降级策略

D、典型案例说明

案例:销售分析 Agent

  • 用户输入:"为什么华东区 Q3 销售下滑?"
  • LLM 驱动流程
    1. 感知:理解"华东区""Q3""销售下滑"等关键意图
    2. 规划:拆解为"查数据 → 对比历史 → 分析竞品 → 生成报告"
    3. 工具调用:连接数据库取数、调用 Python 画趋势图、搜索行业新闻
    4. 推理:发现"主力产品缺货 + 竞品促销"是主因
    5. 行动:生成带图表的 PPT 并邮件发送给经理
    6. 记忆:记录本次分析结论,供下次参考

🔧 若没有 LLM,上述每一步都需要人工编写规则和逻辑,几乎无法实现。


E、挑战与边界

尽管 LLM 极大提升了 Agent 能力,但仍需注意:

  • 幻觉风险:可能生成错误事实 → 需结合 RAG 和工具验证
  • 计算成本:大模型推理延迟高 → 可采用小模型路由或缓存
  • 安全控制:防止越权操作 → 必须设置工具调用白名单和审批机制
  • 长期一致性:多轮任务中状态易丢失 → 需引入显式状态管理(如 LangGraph)

F、总结

LLM 不是 AI Agent 的一个组件,而是其智能的"操作系统"

它重构了 Agent 从感知到行动的每一个环节,使其从"自动化脚本"跃迁为"具备理解、规划与反思能力的数字智能体"。

随着 LLM 在推理效率、因果建模、多模态融合 等方面的持续进化,AI Agent 将进一步走向自主、可靠、普适,成为个人与企业的"第二大脑"。

PART4、国内AI agent的设计平台

截至 2025 年,中国 AI Agent(人工智能代理)生态蓬勃发展,多家科技企业推出了面向开发者、企业和普通用户的 AI Agent 设计与开发平台。这些平台普遍以"低代码/零代码 + 大模型 + 工具集成"为核心,大幅降低智能体构建门槛。

以下是 国内主流 AI Agent 设计平台 的系统梳理,涵盖功能特点、适用场景与代表厂商:


1. 扣子(Coze) ------ 字节跳动

定位 :中文生态最完善的零代码 Bot/Agent 开发平台
核心能力

  • 支持 单智能体 & 多智能体 协作
  • 内置 10,000+ 插件(搜索、翻译、电商、办公等)
  • 深度打通 微信、飞书、抖音、小红书 等字节及第三方生态
  • 可视化工作流编排(拖拽式节点)
  • 支持知识库上传(RAG)、自定义人设、自动评测
    适用人群 :自媒体创作者、小微商家、个人开发者
    官网https://www.coze.cn

✅ 优势:上手极快,插件丰富,适合快速搭建客服、内容生成、营销助手类 Agent。


2. 文心智能体平台(AgentBuilder) ------ 百度

定位 :企业级低代码 Agent 构建平台,依托文心大模型
核心能力

  • 提供 零代码 + Low-Code 双模式
  • 集成百度搜索、地图、网盘等自有服务
  • 支持行业知识库自动调优(金融、医疗、政务)
  • 可部署到 百度智能云、小程序、APP
    适用场景 :金融客服、医疗问诊、政务咨询
    特色:强调"商业闭环",支持直接对接交易系统

✅ 优势:行业适配强,安全合规,适合 B 端落地。


3. 通义灵码 / 通义星尘 / 通义智文 ------ 阿里云(通义实验室)

定位 :基于通义千问(Qwen)的多场景 Agent 解决方案
主要平台

  • 通义灵码 :专注 编程 Agent(代码生成、解释、优化)
  • 通义星尘 :用于创建 游戏 NPC、情感陪伴、教育角色
  • 通义智文 :科研/办公场景的 阅读理解与摘要 Agent
    技术底座 :Qwen-Max / Qwen-Plus 大模型 + RAG + 工具调用
    部署方式 :阿里云百炼平台支持私有化部署
    官网https://tongyi.aliyun.com

✅ 优势:多模态能力强,长文本处理(最高 200 万字),适合复杂任务。


4. 智谱清言智能体平台 ------ 智谱AI

定位 :基于 GLM 大模型的通用 Agent 开发平台
核心能力

  • 强中文语义理解与逻辑推理
  • 支持 知识库问答、论文辅助、教育培训 类 Agent
  • 提供 API 和 SDK,便于集成到企业系统
    特色 :在学术、教育领域表现突出,语言润色能力强
    适用人群:高校、研究机构、教育科技公司

✅ 优势:中文 NLP 能力顶尖,适合知识密集型任务。


5. 腾讯云智能体开发平台(TCADP)

定位 :企业级复杂业务智能体构建平台
发布于 :2025 年 9 月
核心能力

  • 支持 LLM + RAG + Workflow + Multi-Agent 四种模式
  • 内置 智能网页解析、多轮对话改写、工单转接 等原子能力
  • 支持 MCP 协议 快速接入第三方服务
  • 提供 全流程工具链 :配置 → 评测 → 发布 → 监控
    安全特性 :企业级权限管理、数据隔离、审计日志
    官网https://cloud.tencent.com/product/tcadp

✅ 优势:架构先进,适合金融、医疗、政务等高要求场景。


6. 站酷 AI 设计 Agent ------ 站酷(ZCOOL)

定位 :面向设计师的 视觉创作智能体平台
核心能力

  • 可视化工作流:拖拽图像/文字节点,生成 图像、视频、图案
  • 集成 JiMeng(极梦)、Flux、NanoBanana 等图像/视频模型
  • 支持 风格迁移、T恤印花、无缝图案生成 等设计任务
    特色 :无需代码,设计师可直接用自然语言操控生成流程
    入口:站酷官网 → AI 创作 → 设计 Agent

✅ 优势:极度易用,专为视觉创意场景打造,是"AI for Design"的代表。


7. InsCode(快马) ------ CSDN 旗下

定位 :开发者友好的一站式 Agent 项目生成平台
核心功能

  • 输入自然语言指令(如"生成一个支持工单转接的客服 Agent")
  • 一键生成完整可运行项目(含前端界面 + 后端逻辑)
  • 内置调试、部署、分享功能
    适用场景 :教学演示、原型验证、竞赛项目
    网址https://www.inscode.net

✅ 优势:3 分钟上线可交互 Demo,对初学者极其友好。


8. 其他值得关注的平台

平台 公司 特色
Betteryeah 阿里系创业团队 轻量级自动化,专注客服/营销场景
实在 Agent 实在智能 RPA + AI 融合,强在表单填写、OA 自动化
九科 bit-Agent 九科信息 图形界面智能体,适配国央企办公系统
天工 SkyAgents 昆仑万维 自然语言创建 Agent,适合 PPT/脚本生成

国内 AI Agent 平台对比简表

平台 核心优势 适用场景 是否免费
扣子(Coze) 插件生态 + 微信打通 自媒体、电商、个人助理 ✅ 免费(有额度)
文心智能体 行业知识库 + 商业闭环 金融、医疗、政务 ⚠️ 企业付费为主
通义系列 多模态 + 长文本 编程、科研、游戏 ✅ 部分免费
腾讯云 TCADP 企业级安全 + 多Agent 复杂业务系统 💰 云服务计费
站酷设计 Agent 视觉创作零门槛 平面/服装/视频设计 ✅ 免费试用
InsCode 一键生成项目 教学、Demo 快速验证 ✅ 免费

总结与建议

  • 个人/创作者 → 首选 扣子站酷(易用、免费、生态好)
  • 开发者/技术团队 → 用 InsCode 快速验证,或 通义百炼 深度定制
  • 企业级应用 → 选择 腾讯云 TCADP文心智能体实在 Agent(安全、合规、可集成)
  • 学术/教育场景智谱清言 是中文知识问答的优选

📌 趋势:2025 年后,国内平台正从"单 Agent 工具"向 多 Agent 协同 + 企业工作流嵌入 演进,未来将更深度融入钉钉、企业微信、飞书等办公生态。

PART5、扣子编程操作要件


✅ 扣子常用变量类型表

在字节跳动推出的 AI Agent 开发平台「扣子(Coze)」 中,变量(Variables) 是构建工作流(Workflow)、插件调用、知识库检索和对话逻辑的核心数据载体。正确使用变量类型,能确保信息在节点间准确传递与处理。

以下是 扣子(Coze)平台中常用的变量类型及其说明(截至 2025 年最新版本):

类型 中文名 说明 示例值 使用场景
string 字符串 最常用类型,用于文本、URL、ID 等 "北京天气" "https://api.example.com" 用户输入、搜索关键词、消息内容
number 数字 整数或浮点数 42 3.14 温度、价格、数量、评分
boolean 布尔值 表示真/假 true false 条件判断(如"是否需要发送邮件?")
array 数组 有序列表,可包含任意类型元素 ["苹果", "香蕉"] [1, 2, 3] 多个搜索结果、选项列表、标签集合
object 对象 键值对结构,用于复杂数据 {"name": "张三", "age": 28} 用户资料、API 返回的结构化数据
file 文件 上传或生成的文件(含 URL 和元信息) { url: "...", name: "report.pdf", type: "application/pdf" } 上传文档、生成图表/PDF、图片处理
message 消息 对话中的完整消息对象 { role: "user", content: "你好" } 多轮对话上下文、历史记录引用
knowledge_base_result 知识库结果 RAG 检索返回的片段 { text: "...", source: "doc1.pdf", score: 0.92 } 引用知识库内容回答问题
plugin_output 插件输出 插件调用后的结构化返回 见下方示例 调用搜索、翻译、计算等插件后获取结果

🔍 补充说明

1. plugin_output 的典型结构

不同插件返回的 object 结构不同,例如:

  • 网络搜索插件

    复制代码
    {
      "results": [
        { "title": "...", "url": "...", "snippet": "..." }
      ]
    }
  • 计算器插件

    复制代码
    { "result": 1024 }
  • 日历插件

    复制代码
    { "events": [{ "summary": "会议", "start": "2025-12-21T10:00:00" }] }

💡 在工作流中,可通过 "提取字段" 节点(或直接用 {``{ plugin_output.result }})获取具体值。

2. 变量引用语法

在 Coze 的提示词(Prompt)或条件判断中,使用 双花括号 引用变量:

复制代码
当前温度是 {{ weather.temperature }} ℃,建议 {{ weather.recommendation }}。
3. 自动类型推断

Coze 会根据上游节点输出自动推断变量类型 ,但你也可以在"设置变量"节点中手动指定类型以增强稳定性。

4. 特殊系统变量
变量名 类型 说明
{``{ user_input }} string 当前用户输入的原始文本
{``{ conversation_id }} string 当前会话唯一 ID
{``{ current_time }} string 当前时间(ISO 格式)
{``{ bot_name }} string 当前 Bot 的名称

🛠️ 实用技巧

  • 数组遍历 :在提示词中可用 {``{#each items}}...{``{/each}} 循环(部分版本支持)
  • 空值处理 :使用 {``{ variable || "默认值" }} 避免空输出
  • 类型转换:如需将字符串转数字,可在代码节点(如有)或插件中处理

⚠️ 注意事项

  1. file 类型不能直接拼接到文本中 ,需使用其 url 字段;
  2. object 类型在条件判断中需提取具体字段(不能直接判断整个对象);
  3. 插件返回若失败,plugin_output 可能为 null,建议加错误处理分支

✅ 扣子(Coze)核心节点类型与用途表

在字节跳动推出的 AI Agent 开发平台 「扣子(Coze)」 中,节点(Node) 是构建工作流(Workflow)的基本单元。通过拖拽和连接不同类型的节点,开发者可以可视化地编排 Agent 的行为逻辑,实现从用户输入到最终输出的完整智能流程。

以下是截至 2025 年最新版 Coze 平台常用节点的名称、图标标识、核心用途及典型应用场景 的系统整理,帮助你高效设计 Agent 工作流。

节点名称 图标示意 用途说明 典型使用场景
开始(Start) 🟢 圆形 工作流入口,接收用户输入 所有 Workflow 的起点
大模型(LLM) 🧠 调用大模型进行推理、生成、总结 回答问题、写文案、分析数据
插件(Plugin) 🔌 调用内置或自定义插件(如搜索、翻译、计算) 获取实时信息、执行外部操作
知识库(Knowledge Base) 📚 从上传的文档中检索相关信息(RAG) 企业知识问答、产品手册查询
条件分支(Condition) ⚖️ 根据变量值进行逻辑判断,分流执行路径 "如果温度>35℃,则提醒防暑"
设置变量(Set Variable) 📥 创建或更新变量(支持 string/number/array/object) 存储中间结果、初始化参数
提取字段(Extract Fields) 🔍 从复杂对象(如插件返回)中提取指定字段 从搜索结果中取 titleurl
循环(Loop) 🔁 对数组中的每个元素重复执行一组节点 批量处理多个文件或搜索结果
代码(Code)(部分版本) 💻 执行 JavaScript/Python 片段(需开启高级模式) 自定义计算、格式转换
结束(End) 🔚 工作流出口,返回最终结果给用户 所有路径的终点

💡 注:部分节点(如"循环""代码")可能在 专业版或企业版 中才开放。


一、各节点详细说明

1. 开始 Start
  • 输入 用户原始消息 {{ user_input }}
  • 输出:传递给下一个节点
  • 不可删除,每个 Workflow 必须有且仅有一个

2. 大模型 LLM 节点
  • 核心功能
    • 支持自定义 系统提示词 System Prompt
    • 可注入上下文变量(如 {{ search_results }})
    • 支持 结构化输出 JSON Schema (用于后续节点解析)
  • 典型配置
  • 你是一个天气助手。根据以下预报信息生成简洁提醒:
  • {{#each forecast}}
    • {{date}}: {{temp}}℃, {{weather}}
  • {{/each}}

3. 插件 Plugin 节点
  • 内置插件示例
    • 网络搜索(Bing / 字节搜索)
    • 实时天气
    • 股票查询
    • 计算器
    • 翻译
    • 日历事件
  • 使用方式
    • 选择插件 → 填写参数(可引用变量)→ 执行
  • 输出:结构化对象(如 plugin_output.results[0].title)

4. 知识库 Knowledge Base 节点
  • 前提:已上传 PDF/Word/TXT 等文档到 Bot 知识库
  • 工作原理:基于向量检索(RAG),返回最相关的文本片段
  • 输出变量:knowledge_base_result(数组类型)
  • 适用场景
    • 公司制度问答
    • 产品说明书查询
    • 法律条款解释

5. 条件分支 Condition 节点
  • 支持的判断类型
    • 字符串相等(==)
    • 数值比较(>, <, >=)
    • 布尔值(is true/false)
    • 数组非空(length > 0)
  • 分支数量 :通常支持 "是" / "否" 两路,也可嵌套多层
  • 示例
    • 条件:{{ temperature }} > 35
    • 是 → 输出"高温预警!"
    • 否 → 输出"天气舒适。"

6. 设置变量 Set Variable 节点
  • 作用:创建新变量或覆盖现有变量
  • 支持类型
    • 直接输入值(如 "北京")
    • 引用其他变量(如 {{ plugin_output.price }})
    • 表达式(部分支持,如 score * 1.1)
  • 命名建议:语义清晰,如 final_report, user_city

7. 提取字段 Extract Fields 节点
  • 解决痛点:插件或 LLM 返回的 JSON 结构复杂,难以直接使用
  • 操作方式
    • 输入源变量(如 search_results)
    • 定义新字段映射:
      • title → item_title
      • url → item_link
  • 输出:简化后的对象或数组,便于后续处理

8. 循环 Loop 节点
  • 触发条件:输入为数组(如 files = [file1, file2])
  • 内部流程:对每个元素执行一组子节点
  • 输出:收集每次循环的结果,形成新数组
  • 典型场景
    • 逐个分析用户上传的简历
    • 为每个商品生成营销文案

9. 代码 Code 节点 高级功能
  • 语言支持:JavaScript(主流)、部分环境支持 Python
  • 能力
    • 数学计算(求平均、排序)
    • 字符串处理(正则提取)
    • 数据转换(CSV → JSON)
  • 安全限制:无网络请求、无文件写入

10. 结束 End 节点
  • 作用:将最终内容返回给用户
  • 可配置
    • 文本消息
    • 文件(如生成的 PDF)
    • 按钮(引导下一步操作)
  • 支持变量引用:{{ final_answer }}

二、典型工作流组合示例

🌰 场景:智能天气助手

复制代码
graph LR
A[开始] --> B{提取城市}
B --> C[调用天气插件]
C --> D[LLM 生成提醒]
D --> E[结束]

🌰 场景:多文档摘要 Bot

复制代码
graph LR
A[开始] --> B[知识库检索]
B --> C{是否有结果?}
C -- 是 --> D[LLM 总结]
C -- 否 --> E[调用网络搜索]
E --> D
D --> F[结束]

三、使用建议

先画逻辑草图:明确"输入 → 处理 → 输出"路径
善用"提取字段" :避免在提示词中写复杂路径(如 a.b.c.d
条件分支尽早做:减少无效插件调用(节省 token 和时间)
变量命名规范 :如 search_res, kb_chunks, final_msg
测试边界情况:空结果、错误输入、超长文本
相关推荐
北冥有一鲲3 小时前
LangChain 框架前世今生:从“万能接口”到“AI 应用全家桶”
人工智能·chatgpt·langchain
MuseDAM_cc3 小时前
企业素材找不到?DAM 3 步解决资产分散
大数据·人工智能
AI即插即用3 小时前
即插即用系列 | 2025 RestorMixer:融合 CNN、Mamba 与 Transformer 的高效图像复原的集大成者!
人工智能·深度学习·神经网络·目标检测·计算机视觉·cnn·transformer
hay_lee3 小时前
LLaDA2.0:蚂蚁开源业内首个 100B 扩散语言模型
人工智能·语言模型·自然语言处理·llada2.0
upper20203 小时前
数据挖掘10
人工智能·数据挖掘
黑客思维者3 小时前
机器学习011:监督学习【回归算法】(多项式回归)-- 从“猜咖啡温度”到预测万物
人工智能·学习·机器学习·回归·线性回归·监督学习·多项式回归
小杨互联网3 小时前
时间序列预测实战:LSTM vs Transformer 在公共交通乘客量预测中的对比
人工智能·lstm·transformer
IT·小灰灰3 小时前
豆包大模型1.8:Agent时代的多模态大脑——中国AI的跃迁时刻
人工智能
斯文by累3 小时前
Stable Diffusion 3.5 FP8:高效文生图技术革命
人工智能·stable diffusion