AI-agent|从人工智能代理角度再延伸至扣子编程

PART1.初识AI AGENT

人工智能代理（ AI Agent ）的核心知识，涵盖定义、关键特性、组成模块、工作原理、发展历程、应用场景以及未来趋势。

一、什么是 AI Agent ？

AI Agent （ Artificial Intelligence Agent ），中文称为"人工智能代理"或"智能体"，是一种能够：

感知环境

自主决策

执行动作

以达成特定目标的智能系统。

简单比喻：

大语言模型 （ LLM ）像一个"超级大脑"------能理解、推理、生成语言。

AI Agent 则是给这个大脑装上了"眼睛（感知）、记忆（存储）、手脚（工具调用）和计划能力（规划）"，让它不仅能"说"，还能"做"。

二、AI Agent 的核心特性

自主性 （ Autonomy ）

能在无人干预下独立运行，主动完成任务。

反应性 （ Reactivity ）

对环境变化或用户输入做出及时响应。

目标导向 （ Goal-directed ）

围绕明确目标进行规划与行动。

学习与适应能力 （ Adaptability ）

通过经验优化策略，支持长期记忆与上下文学习。

✅ 举例对比：

传统 AI （如 ChatGPT ）：你问"写一篇关于气候变化的文章"，它直接生成文本。

AI Agent：你命令"调研最新气候政策并邮件发给张经理"，它会自动搜索、分析、撰写、发送------全程无需你动手。

三、AI Agent 的六大核心模块

现代 AI Agent 通常由以下模块协同工作：

模块	功能	类比
#### 1. 感知（ Perception ）	接收外部输入（文字、图像、传感器数据等）	"眼睛和耳朵"
#### 2. 记忆（ Memory ）	存储短期上下文 + 长期知识（用户偏好、历史任务）	"笔记本+大脑海马体"
#### 3. 规划（ Planning ）	拆解目标为子任务，安排执行顺序	"作战参谋"
#### 4. 推理引擎（ Reasoning Engine ）	通常由 LLM 实现，负责理解、判断、决策	"大脑皮层"
#### 5. 工具使用（ Tool Use ）	调用 API、数据库、代码解释器、浏览器等	"手和工具箱"
#### 6. 行动（ Action ）	执行具体操作（发邮件、写文件、控制设备）	"执行者"

🧩 工作流程示例：

用户说："准备一份Q3销售分析报告。"

执行：

感知：理解指令

记忆：调取上次报告模板和负责人邮箱

规划：先查数据库 → 清洗数据 → 生成图表 → 写PPT → 发邮件

推理：决定用哪种可视化方式更清晰

工具：连接SQL数据库、调用Python绘图库

行动：生成PPT附件并发送邮件

四、AI Agent 的工作循环（ ReAct 模式）

AI Agent 通常遵循一个 "观察-思考-行动" 的闭环：

观察

接收目标（Goal）

观察当前状态（Observation）

思考

思考下一步（Reasoning / Planning）

行动

执行动作（Action via Tool）

获取反馈（New Observation）

评估是否达成目标

若未完成 → 返回第3步；若完成 → 结束

这种循环使其具备 试错、调整、优化 的能力，类似人类解决问题的过程。

五、发展历程简史

1950s：

图灵提出"机器能否思考"，奠定 Agent 哲学基础。

1990s：

Wooldridge & Jennings 正式定义 Agent 为"自主、反应、主动、社交"的软件实体。

2016：

AlphaGo 展示复杂决策能力（但仍是专用 Agent）。

2023：

GPT-4 + AutoGPT 出现，通用 AI Agent 时代开启。

2024 -- 2025：

荣耀、OpenAI（Operator）、Manus、Genspark 等推出商用 AI Agent 产品，支持跨应用自动化。

六、典型应用场景

#### 领域	#### 应用示例
#### 个人助理	自动日程安排、邮件筛选、账单支付提醒
#### 企业办公	自动生成周报、分析销售数据、客服工单处理
#### 软件开发	自动写代码、测试、部署（如 Cline、Devin）
#### 电商/营销	竞品分析、自动生成广告文案、A/B 测试
#### 科研	文献综述、实验设计、数据分析
#### 物联网/机器人	家庭服务机器人、自动驾驶车辆（多 Agent 协同）

七、未来趋势（ 2025 及以后）

多智能体系统（ Multi-Agent Systems, MAS ）

多个 Agent 协作（如一个写代码，一个测试，一个部署）。

更强的自主性与长期记忆

支持跨天、跨任务的连续学习。

多模态交互

结合语音、视觉、手势等自然交互方式。

行业定制化 Agent

如医疗 Agent、法律 Agent、金融 Agent。

伦理与安全治理

防止滥用、确保可解释性、建立责任机制。

📌 Gartner 预测：

到 2028 年，15% 的日常业务决策将由 Agentic AI 自主完成。

八、常见误区澄清

❌ "AI Agent = 更强的聊天机器人"
✅ 错！Agent 的核心是 行动力，不只是对话。

❌ "只要有 LLM 就是 Agent"
✅ 错！必须具备 工具调用 + 规划 + 记忆 才算完整 Agent。

❌ "Agent 能完全替代人类"
✅ 目前仍需人类监督，尤其在高风险领域（如医疗、金融）

PART2. AI AGENT的进阶了解

1、产品架构分解

智力(理解能力和表达能力)：

精准捕捉指令+文本生成，语言表达，以及准确的情境模拟输出

+知识(自有知识和补充知识)

自有知识:主要源于内置的大语言模型,其积累了丰富的语言知识和常识信息

补充知识：外部知识库或者专业数据库，搜索引擎获取的相关信息

+自主工作(工具使用和工作流规划,执行)

工具使用：掌握各类软件与硬件工具的技巧，可能涵盖办公数据分析图像处理等多个领域

工作的规划和执行：根据任务目标与当前环境，规划出合理的工作流并自动依次执行每个步骤

2、AI Agent的技术支持

AI Agent（人工智能代理）之所以能从"会聊天"升级为"能做事"，依赖于一套多层次、跨学科的技术栈 。以下是支撑现代 AI Agent 的 六大核心技术支柱，涵盖从底层模型到上层应用的完整链条：

1. 大语言模型（LLM）------认知引擎

✅ 作用：提供理解、推理、生成、规划等核心智能。

关键技术 ：
- Transformer 架构：支持长上下文、并行处理。
- 指令微调（SFT） + 对齐（RLHF/DPO）：让模型听懂人话、按意图行动。
- 思维链（CoT）、自洽性（Self-Consistency）：提升复杂任务推理能力。
- 多模态扩展：如 GPT-4o、Qwen-VL，支持图文音联合理解。
代表模型：GPT-4、Claude 3.5、Gemini 2.0、Qwen-Max、DeepSeek-V3。

💡 LLM 是 Agent 的"大脑"，但仅有 LLM 还不是 Agent。

2. 工具调用（Tool Use / Function Calling）------行动能力

✅ 作用：让 Agent 能操作外部系统，突破"纯文本"限制。

实现方式 ：
- 模型输出结构化函数调用（如 {"name": "search_web", "args": {"query": "..."}}）。
- 执行引擎解析并调用 API、代码解释器、数据库等。
典型工具 ：
- 网络搜索（Google Programmable Search）
- 代码执行（Python REPL 沙箱）
- 邮件/日历 API（Gmail、Outlook）
- 企业系统（ERP、CRM 接口）
安全机制：权限控制、输入过滤、沙箱隔离。

🛠️ 没有工具调用，Agent 只是"纸上谈兵"。

3. 记忆系统（Memory）------持续学习与个性化

✅ 作用：记住用户偏好、历史任务、长期知识，实现上下文连贯。

分层架构 ：

类型	技术实现	示例
短期记忆	上下文窗口（如 128K tokens）	最近对话内容
长期记忆	向量数据库 + 嵌入检索	用户档案、项目资料
工作记忆	任务状态机（Task State）	当前子任务进度

关键技术 ：
- 嵌入模型（text-embedding-3-large、BGE）
- 向量数据库（Pinecone、Weaviate、Milvus）
- 记忆摘要与压缩（避免 token 浪费）

🧠 记忆让 Agent 从"一次性工具"变为"你的数字分身"。

4. 规划与反思（Planning & Self-Reflection）------自主决策

✅ 作用：将复杂目标拆解为可执行步骤，并在失败后自我修正。

核心方法 ：
- ReAct（Reason + Act）：交替推理与行动。
- Tree of Thoughts（ToT）：探索多个推理路径。
- Reflexion：通过反馈迭代优化策略（如"上次搜索关键词太泛，这次加限定词"）。
- 任务分解 ：
  目标：写行业报告 →
  1. 查最新政策 → 2. 分析竞品 → 3. 生成图表 → 4. 撰写 → 5. 校对
框架支持：LangGraph（状态图编排）、AutoGen（多步流程）。

🗺️ 规划能力是区分"脚本机器人"和"智能体"的关键。

5. 多智能体协作（Multi-Agent Systems）------群体智能

✅ 作用：多个 Agent 分工合作，解决更复杂问题。

协作模式 ：
- 角色分工：研究员 + 编辑 + 审核员
- 辩论机制：多个 Agent 投票或辩论得出最优解
- 市场机制：用"内部代币"激励任务完成（如 CrewAI）
通信方式：自然语言消息、结构化协议、共享记忆库。
框架：Microsoft AutoGen、CrewAI、LangGraph Multi-Agent。

👥 "三个臭皮匠，顶个诸葛亮"------AI 版。

6. 工程基础设施------落地保障

再强的算法也需要可靠工程支撑：

层级	技术/工具
开发框架	LangChain、LlamaIndex、Haystack
流程编排	LangGraph（基于状态机）、Prefect
部署平台	Dify、Coze、FastAPI + Docker、Vercel AI SDK
评估监控	LangSmith（调试）、Ragas（指标：忠实度、相关性）
安全合规	输入过滤、输出审查、审计日志、GDPR 合规

⚙️ 没有这些，Agent 只能停留在 Jupyter Notebook 里。

总结：AI Agent 技术全景图

复制代码

[用户目标]
    ↓
[LLM 理解 + 规划] → [调用工具 / 查询记忆]
    ↓
[执行动作] → [观察结果] → [反思优化]
    ↓
[达成目标 或 迭代重试]

✅ 真正的 AI Agent = LLM + 工具 + 记忆 + 规划 + 反馈闭环

3、LLM简介以及其对于AI AGENT的作用

大语言模型（LLM） 的系统性综述，涵盖其基本简介、典型应用场景，并重点分析 LLM 对 AI Agent 构建各核心模块的分类影响，帮助你全面理解 LLM 如何成为现代 AI Agent 的"智能中枢"。

A、LLM 简介

1. 定义

大语言模型（Large Language Model, LLM） 是一类基于深度神经网络（通常为 Transformer 架构）的自然语言处理模型，通过在海量文本数据上进行自监督预训练，学习语言的语法、语义、事实知识和推理模式，能够根据上下文生成连贯、相关且有时极具创造性的文本。

2. 核心特征

大规模参数：通常数十亿至数千亿参数（如 GPT-4、Claude 3.5、Qwen-Max）
上下文学习能力（In-Context Learning）：无需微调即可通过提示（Prompt）完成新任务
涌现能力（Emergent Abilities）：在规模达到阈值后，展现出推理、规划、代码生成等高级能力
多模态扩展趋势：新一代 LLM 支持图像、语音、表格等多模态输入/输出（如 GPT-4o、Gemini 2.0）

3. 技术基础

Transformer 架构：自注意力机制支持长距离依赖建模
预训练 + 指令微调 + 对齐训练（RLHF/DPO）：使模型更安全、有用、符合人类意图
推理优化技术：KV Cache、量化、MoE（Mixture of Experts）提升效率

B、LLM 的主要应用场景

应用类别	典型场景
智能对话	虚拟助手、客服机器人、心理陪伴
内容生成	写作、营销文案、剧本、诗歌、多语言翻译
编程辅助	代码补全、错误调试、测试生成、文档注释
知识问答	企业知识库问答、学术研究辅助、政策解读
教育辅导	个性化习题、语言陪练、作文批改
AI Agent 基座	作为 Agent 的推理、规划与决策引擎
多模态交互	图文理解、语音对话、视觉问答

✅ LLM 已从"文本生成器"演变为通用智能接口（Universal Interface to Intelligence）。

C、LLM 对 AI Agent 构建各模块的分类影响

AI Agent 通常由六大核心模块构成。LLM 的引入对每个模块都产生了根本性变革：

AI Agent 模块	传统实现方式	引入 LLM 后的变化	LLM 带来的性能提升
1. 感知（Perception）	规则匹配、关键词提取、固定 NLP 管道	LLM 直接理解自然语言指令，支持模糊、口语化、多轮上下文输入	✅ 意图识别准确率↑ ✅ 支持复杂语义（如反讽、省略）
2. 记忆（Memory）	数据库存储 + 手动索引	LLM 驱动记忆摘要、关键信息提取；结合向量数据库实现语义检索	✅ 自动构建记忆索引 ✅ 支持"回忆式"推理（"上次你说过..."）
3. 规划（Planning）	预设状态机、有限任务树	LLM 动态生成任务分解（Task Decomposition），支持 ReAct、ToT 等高级规划策略	✅ 处理开放域目标 ✅ 动态调整子任务顺序
4. 推理引擎（Reasoning）	逻辑规则、贝叶斯网络	LLM 提供端到端推理：CoT、自洽性、类比推理、假设检验	✅ 复杂问题求解能力↑ ✅ 支持"解释为什么"
5. 工具使用（Tool Use）	固定 API 映射、硬编码调用逻辑	LLM 理解工具描述，自动生成结构化函数调用（Function Calling）	✅ 无缝集成新工具 ✅ 自然语言 → API 自动转换
6. 行动（Action）	脚本执行、有限输出格式	LLM 生成多样化输出：邮件正文、PPT 脚本、代码、报告等	✅ 输出更自然、专业、适配场景 ✅ 支持多模态行动（如生成图表+文字）

补充：LLM 对 Agent 整体行为范式的升级

维度	无 LLM 的 Agent	有 LLM 的 Agent
智能类型	反应式（Reactive）	主动式 + 反思式（Proactive + Reflective）
适应性	仅限预设任务	可泛化到未见过的任务（Zero-shot / Few-shot）
交互方式	命令式（/command）	对话式（自然语言）
开发模式	编程密集型	Prompt + 工具 + 记忆配置为主
失败处理	报错退出	自我诊断、重试、降级策略

D、典型案例说明

案例：销售分析 Agent

用户输入："为什么华东区 Q3 销售下滑？"
LLM 驱动流程 ：
1. 感知：理解"华东区""Q3""销售下滑"等关键意图
2. 规划：拆解为"查数据 → 对比历史 → 分析竞品 → 生成报告"
3. 工具调用：连接数据库取数、调用 Python 画趋势图、搜索行业新闻
4. 推理：发现"主力产品缺货 + 竞品促销"是主因
5. 行动：生成带图表的 PPT 并邮件发送给经理
6. 记忆：记录本次分析结论，供下次参考

🔧 若没有 LLM，上述每一步都需要人工编写规则和逻辑，几乎无法实现。

E、挑战与边界

尽管 LLM 极大提升了 Agent 能力，但仍需注意：

幻觉风险：可能生成错误事实 → 需结合 RAG 和工具验证
计算成本：大模型推理延迟高 → 可采用小模型路由或缓存
安全控制：防止越权操作 → 必须设置工具调用白名单和审批机制
长期一致性：多轮任务中状态易丢失 → 需引入显式状态管理（如 LangGraph）

F、总结

LLM 不是 AI Agent 的一个组件，而是其智能的"操作系统" 。

它重构了 Agent 从感知到行动的每一个环节，使其从"自动化脚本"跃迁为"具备理解、规划与反思能力的数字智能体"。

随着 LLM 在推理效率、因果建模、多模态融合 等方面的持续进化，AI Agent 将进一步走向自主、可靠、普适，成为个人与企业的"第二大脑"。

PART4、国内AI agent的设计平台

截至 2025 年，中国 AI Agent（人工智能代理）生态蓬勃发展，多家科技企业推出了面向开发者、企业和普通用户的 AI Agent 设计与开发平台。这些平台普遍以"低代码/零代码 + 大模型 + 工具集成"为核心，大幅降低智能体构建门槛。

以下是 国内主流 AI Agent 设计平台 的系统梳理，涵盖功能特点、适用场景与代表厂商：

1. 扣子（Coze） ------ 字节跳动

定位：中文生态最完善的零代码 Bot/Agent 开发平台
核心能力：

支持 单智能体 & 多智能体 协作
内置 10,000+ 插件（搜索、翻译、电商、办公等）
深度打通 微信、飞书、抖音、小红书 等字节及第三方生态
可视化工作流编排（拖拽式节点）
支持知识库上传（RAG）、自定义人设、自动评测
适用人群 ：自媒体创作者、小微商家、个人开发者
官网：https://www.coze.cn

✅ 优势：上手极快，插件丰富，适合快速搭建客服、内容生成、营销助手类 Agent。

2. 文心智能体平台（AgentBuilder） ------ 百度

定位：企业级低代码 Agent 构建平台，依托文心大模型
核心能力：

提供 零代码 + Low-Code 双模式
集成百度搜索、地图、网盘等自有服务
支持行业知识库自动调优（金融、医疗、政务）
可部署到 百度智能云、小程序、APP
适用场景 ：金融客服、医疗问诊、政务咨询
特色：强调"商业闭环"，支持直接对接交易系统

✅ 优势：行业适配强，安全合规，适合 B 端落地。

3. 通义灵码 / 通义星尘 / 通义智文 ------ 阿里云（通义实验室）

定位：基于通义千问（Qwen）的多场景 Agent 解决方案
主要平台：

通义灵码 ：专注 编程 Agent（代码生成、解释、优化）
通义星尘 ：用于创建 游戏 NPC、情感陪伴、教育角色
通义智文 ：科研/办公场景的 阅读理解与摘要 Agent
技术底座 ：Qwen-Max / Qwen-Plus 大模型 + RAG + 工具调用
部署方式 ：阿里云百炼平台支持私有化部署
官网：https://tongyi.aliyun.com

✅ 优势：多模态能力强，长文本处理（最高 200 万字），适合复杂任务。

4. 智谱清言智能体平台 ------ 智谱AI

定位：基于 GLM 大模型的通用 Agent 开发平台
核心能力：

强中文语义理解与逻辑推理
支持 知识库问答、论文辅助、教育培训 类 Agent
提供 API 和 SDK，便于集成到企业系统
特色：在学术、教育领域表现突出，语言润色能力强
适用人群：高校、研究机构、教育科技公司

✅ 优势：中文 NLP 能力顶尖，适合知识密集型任务。

5. 腾讯云智能体开发平台（TCADP）

定位：企业级复杂业务智能体构建平台
发布于 ：2025 年 9 月
核心能力：

支持 LLM + RAG + Workflow + Multi-Agent 四种模式
内置 智能网页解析、多轮对话改写、工单转接 等原子能力
支持 MCP 协议 快速接入第三方服务
提供 全流程工具链 ：配置 → 评测 → 发布 → 监控
安全特性 ：企业级权限管理、数据隔离、审计日志
官网：https://cloud.tencent.com/product/tcadp

✅ 优势：架构先进，适合金融、医疗、政务等高要求场景。

6. 站酷 AI 设计 Agent ------ 站酷（ZCOOL）

定位：面向设计师的 视觉创作智能体平台
核心能力：

可视化工作流：拖拽图像/文字节点，生成 图像、视频、图案
集成 JiMeng（极梦）、Flux、NanoBanana 等图像/视频模型
支持 风格迁移、T恤印花、无缝图案生成 等设计任务
特色：无需代码，设计师可直接用自然语言操控生成流程
入口：站酷官网 → AI 创作 → 设计 Agent

✅ 优势：极度易用，专为视觉创意场景打造，是"AI for Design"的代表。

7. InsCode（快马） ------ CSDN 旗下

定位：开发者友好的一站式 Agent 项目生成平台
核心功能：

输入自然语言指令（如"生成一个支持工单转接的客服 Agent"）
一键生成完整可运行项目（含前端界面 + 后端逻辑）
内置调试、部署、分享功能
适用场景 ：教学演示、原型验证、竞赛项目
网址：https://www.inscode.net

✅ 优势：3 分钟上线可交互 Demo，对初学者极其友好。

8. 其他值得关注的平台

平台	公司	特色
Betteryeah	阿里系创业团队	轻量级自动化，专注客服/营销场景
实在 Agent	实在智能	RPA + AI 融合，强在表单填写、OA 自动化
九科 bit-Agent	九科信息	图形界面智能体，适配国央企办公系统
天工 SkyAgents	昆仑万维	自然语言创建 Agent，适合 PPT/脚本生成

国内 AI Agent 平台对比简表

平台	核心优势	适用场景	是否免费
扣子（Coze）	插件生态 + 微信打通	自媒体、电商、个人助理	✅ 免费（有额度）
文心智能体	行业知识库 + 商业闭环	金融、医疗、政务	⚠️ 企业付费为主
通义系列	多模态 + 长文本	编程、科研、游戏	✅ 部分免费
腾讯云 TCADP	企业级安全 + 多Agent	复杂业务系统	💰 云服务计费
站酷设计 Agent	视觉创作零门槛	平面/服装/视频设计	✅ 免费试用
InsCode	一键生成项目	教学、Demo 快速验证	✅ 免费

总结与建议

个人/创作者 → 首选扣子或站酷（易用、免费、生态好）
开发者/技术团队 → 用 InsCode 快速验证，或 通义百炼 深度定制
企业级应用 → 选择 腾讯云 TCADP 、文心智能体 或 实在 Agent（安全、合规、可集成）
学术/教育场景 → 智谱清言 是中文知识问答的优选

📌 趋势：2025 年后，国内平台正从"单 Agent 工具"向 多 Agent 协同 + 企业工作流嵌入 演进，未来将更深度融入钉钉、企业微信、飞书等办公生态。

PART5、扣子编程操作要件

✅ 扣子常用变量类型表

在字节跳动推出的 AI Agent 开发平台「扣子（Coze）」 中，变量（Variables） 是构建工作流（Workflow）、插件调用、知识库检索和对话逻辑的核心数据载体。正确使用变量类型，能确保信息在节点间准确传递与处理。

以下是 扣子（Coze）平台中常用的变量类型及其说明（截至 2025 年最新版本）：

类型	中文名	说明	示例值	使用场景
`string`	字符串	最常用类型，用于文本、URL、ID 等	`"北京天气"` `"https://api.example.com"`	用户输入、搜索关键词、消息内容
`number`	数字	整数或浮点数	`42` `3.14`	温度、价格、数量、评分
`boolean`	布尔值	表示真/假	`true` `false`	条件判断（如"是否需要发送邮件？"）
`array`	数组	有序列表，可包含任意类型元素	`["苹果", "香蕉"]` `[1, 2, 3]`	多个搜索结果、选项列表、标签集合
`object`	对象	键值对结构，用于复杂数据	`{"name": "张三", "age": 28}`	用户资料、API 返回的结构化数据
`file`	文件	上传或生成的文件（含 URL 和元信息）	`{ url: "...", name: "report.pdf", type: "application/pdf" }`	上传文档、生成图表/PDF、图片处理
`message`	消息	对话中的完整消息对象	`{ role: "user", content: "你好" }`	多轮对话上下文、历史记录引用
`knowledge_base_result`	知识库结果	RAG 检索返回的片段	`{ text: "...", source: "doc1.pdf", score: 0.92 }`	引用知识库内容回答问题
`plugin_output`	插件输出	插件调用后的结构化返回	见下方示例	调用搜索、翻译、计算等插件后获取结果

🔍 补充说明

1. `plugin_output` 的典型结构

不同插件返回的 object 结构不同，例如：

网络搜索插件 ：

复制代码

{
  "results": [
    { "title": "...", "url": "...", "snippet": "..." }
  ]
}

计算器插件 ：
复制代码
```
{ "result": 1024 }
```

日历插件 ：

复制代码

{ "events": [{ "summary": "会议", "start": "2025-12-21T10:00:00" }] }

💡 在工作流中，可通过 "提取字段" 节点（或直接用 {``{ plugin_output.result }}）获取具体值。

2. 变量引用语法

在 Coze 的提示词（Prompt）或条件判断中，使用 双花括号 引用变量：

复制代码

当前温度是 {{ weather.temperature }} ℃，建议 {{ weather.recommendation }}。

3. 自动类型推断

Coze 会根据上游节点输出自动推断变量类型 ，但你也可以在"设置变量"节点中手动指定类型以增强稳定性。

4. 特殊系统变量

变量名	类型	说明
{``{ user_input }}	string	当前用户输入的原始文本
{``{ conversation_id }}	string	当前会话唯一 ID
{``{ current_time }}	string	当前时间（ISO 格式）
{``{ bot_name }}	string	当前 Bot 的名称

🛠️ 实用技巧

数组遍历 ：在提示词中可用 {``{#each items}}...{``{/each}} 循环（部分版本支持）
空值处理 ：使用 {``{ variable || "默认值" }} 避免空输出
类型转换：如需将字符串转数字，可在代码节点（如有）或插件中处理

⚠️ 注意事项

file 类型不能直接拼接到文本中 ，需使用其 url 字段；
object 类型在条件判断中需提取具体字段（不能直接判断整个对象）；
插件返回若失败，plugin_output 可能为 null，建议加错误处理分支。

✅ 扣子（Coze）核心节点类型与用途表

在字节跳动推出的 AI Agent 开发平台 「扣子（Coze）」 中，节点（Node） 是构建工作流（Workflow）的基本单元。通过拖拽和连接不同类型的节点，开发者可以可视化地编排 Agent 的行为逻辑，实现从用户输入到最终输出的完整智能流程。

以下是截至 2025 年最新版 Coze 平台 中 常用节点的名称、图标标识、核心用途及典型应用场景 的系统整理，帮助你高效设计 Agent 工作流。

节点名称	图标示意	用途说明	典型使用场景
开始（Start）	🟢 圆形	工作流入口，接收用户输入	所有 Workflow 的起点
大模型（LLM）	🧠	调用大模型进行推理、生成、总结	回答问题、写文案、分析数据
插件（Plugin）	🔌	调用内置或自定义插件（如搜索、翻译、计算）	获取实时信息、执行外部操作
知识库（Knowledge Base）	📚	从上传的文档中检索相关信息（RAG）	企业知识问答、产品手册查询
条件分支（Condition）	⚖️	根据变量值进行逻辑判断，分流执行路径	"如果温度>35℃，则提醒防暑"
设置变量（Set Variable）	📥	创建或更新变量（支持 string/number/array/object）	存储中间结果、初始化参数
提取字段（Extract Fields）	🔍	从复杂对象（如插件返回）中提取指定字段	从搜索结果中取 `title` 和 `url`
循环（Loop）	🔁	对数组中的每个元素重复执行一组节点	批量处理多个文件或搜索结果
代码（Code）（部分版本）	💻	执行 JavaScript/Python 片段（需开启高级模式）	自定义计算、格式转换
结束（End）	🔚	工作流出口，返回最终结果给用户	所有路径的终点

💡 注：部分节点（如"循环""代码"）可能在 专业版或企业版 中才开放。

一、各节点详细说明

1. 开始（ Start ）

输入： 用户原始消息 （ {{ user_input }} ）
输出：传递给下一个节点
不可删除，每个 Workflow 必须有且仅有一个

2. 大模型（ LLM ）节点

核心功能：
- 支持自定义 系统提示词 （ System Prompt ）
- 可注入上下文变量（如 {{ search_results }}）
- 支持 结构化输出 （ JSON Schema ）（用于后续节点解析）
典型配置：
你是一个天气助手。根据以下预报信息生成简洁提醒：
{{#each forecast}}
- {{date}}: {{temp}}℃, {{weather}}
{{/each}}

3. 插件（ Plugin ）节点

内置插件示例：
- 网络搜索（Bing / 字节搜索）
- 实时天气
- 股票查询
- 计算器
- 翻译
- 日历事件
使用方式：
- 选择插件 → 填写参数（可引用变量）→ 执行
输出：结构化对象（如 plugin_output.results[0].title）

4. 知识库（ Knowledge Base ）节点

前提：已上传 PDF/Word/TXT 等文档到 Bot 知识库
工作原理：基于向量检索（RAG），返回最相关的文本片段
输出变量：knowledge_base_result（数组类型）
适用场景：
- 公司制度问答
- 产品说明书查询
- 法律条款解释

5. 条件分支（ Condition ）节点

支持的判断类型：
- 字符串相等（==）
- 数值比较（>, <, >=）
- 布尔值（is true/false）
- 数组非空（length > 0）
分支数量 ：通常支持 "是" / "否" 两路，也可嵌套多层
示例：
- 条件：{{ temperature }} > 35
- 是 → 输出"高温预警！"
- 否 → 输出"天气舒适。"

6. 设置变量（ Set Variable ）节点

作用：创建新变量或覆盖现有变量
支持类型：
- 直接输入值（如 "北京"）
- 引用其他变量（如 {{ plugin_output.price }}）
- 表达式（部分支持，如 score * 1.1）
命名建议：语义清晰，如 final_report, user_city

7. 提取字段（ Extract Fields ）节点

解决痛点：插件或 LLM 返回的 JSON 结构复杂，难以直接使用
操作方式：
- 输入源变量（如 search_results）
- 定义新字段映射：
  - title → item_title
  - url → item_link
输出：简化后的对象或数组，便于后续处理

8. 循环（ Loop ）节点

触发条件：输入为数组（如 files = [file1, file2]）
内部流程：对每个元素执行一组子节点
输出：收集每次循环的结果，形成新数组
典型场景：
- 逐个分析用户上传的简历
- 为每个商品生成营销文案

9. 代码（ Code ）节点（高级功能）

语言支持：JavaScript（主流）、部分环境支持 Python
能力：
- 数学计算（求平均、排序）
- 字符串处理（正则提取）
- 数据转换（CSV → JSON）
安全限制：无网络请求、无文件写入

10. 结束（ End ）节点

作用：将最终内容返回给用户
可配置：
- 文本消息
- 文件（如生成的 PDF）
- 按钮（引导下一步操作）
支持变量引用：{{ final_answer }}

二、典型工作流组合示例

🌰 场景：智能天气助手

复制代码

graph LR
A[开始] --> B{提取城市}
B --> C[调用天气插件]
C --> D[LLM 生成提醒]
D --> E[结束]

🌰 场景：多文档摘要 Bot

复制代码

graph LR
A[开始] --> B[知识库检索]
B --> C{是否有结果？}
C -- 是 --> D[LLM 总结]
C -- 否 --> E[调用网络搜索]
E --> D
D --> F[结束]

AI-agent|从人工智能代理角度再延伸至扣子编程

PART1.初识AI AGENT

一、什么是 AI Agent ？

二、AI Agent 的核心特性

自主性 （ Autonomy ）

反应性 （ Reactivity ）

目标导向 （ Goal-directed ）

学习与适应能力 （ Adaptability ）

✅ 举例对比：

三、AI Agent 的六大核心模块

🧩 工作流程示例：

四、AI Agent 的工作循环 （ ReAct 模式 ）

观察

思考

行动

五、发展历程简史

1950s：

1990s：

2016：

2023：

2024 -- 2025：

六、典型应用场景

七、未来趋势 （ 2025 及以后 ）

多智能体系统 （ Multi-Agent Systems, MAS ）

更强的自主性与长期记忆

多模态交互

行业定制化 Agent

伦理与安全治理

📌 Gartner 预测：

八、常见误区澄清

PART2. AI AGENT的进阶了解

1、产品架构分解

智力(理解能力和表达能力)：

+知识(自有知识和补充知识)

+自主工作(工具使用和工作流规划,执行)

2、AI Agent的技术支持

1. 大语言模型（LLM）------认知引擎

2. 工具调用（Tool Use / Function Calling）------行动能力

3. 记忆系统（Memory）------持续学习与个性化

4. 规划与反思（Planning & Self-Reflection）------自主决策

5. 多智能体协作（Multi-Agent Systems）------群体智能

6. 工程基础设施------落地保障

总结：AI Agent 技术全景图

3、LLM简介以及其对于AI AGENT的作用

A、LLM 简介

1. 定义

2. 核心特征

3. 技术基础

B、LLM 的主要应用场景

C、LLM 对 AI Agent 构建各模块的分类影响

补充：LLM 对 Agent 整体行为范式的升级

D、典型案例说明

案例：销售分析 Agent

E、挑战与边界

F、总结

PART4、国内AI agent的设计平台

1. 扣子（Coze） ------ 字节跳动

2. 文心智能体平台（AgentBuilder） ------ 百度

3. 通义灵码 / 通义星尘 / 通义智文 ------ 阿里云（通义实验室）

4. 智谱清言智能体平台 ------ 智谱AI

5. 腾讯云智能体开发平台（TCADP）

6. 站酷 AI 设计 Agent ------ 站酷（ZCOOL）

7. InsCode（快马） ------ CSDN 旗下

8. 其他值得关注的平台

国内 AI Agent 平台对比简表

总结与建议

PART5、扣子编程操作要件

✅ 扣子常用变量类型表

🔍 补充说明

1. plugin_output 的典型结构

2. 变量引用语法

3. 自动类型推断

4. 特殊系统变量

🛠️ 实用技巧

⚠️ 注意事项

✅ 扣子（Coze）核心节点类型与用途表

一、各节点详细说明

1. 开始 （ Start ）

2. 大模型 （ LLM ） 节点

3. 插件 （ Plugin ） 节点

自主性（ Autonomy ）

反应性（ Reactivity ）

目标导向（ Goal-directed ）

学习与适应能力（ Adaptability ）

四、AI Agent 的工作循环（ ReAct 模式）

七、未来趋势（ 2025 及以后）

多智能体系统（ Multi-Agent Systems, MAS ）

1. `plugin_output` 的典型结构

1. 开始（ Start ）

2. 大模型（ LLM ）节点

3. 插件（ Plugin ）节点

4. 知识库（ Knowledge Base ）节点

5. 条件分支（ Condition ）节点

6. 设置变量（ Set Variable ）节点

7. 提取字段（ Extract Fields ）节点

8. 循环（ Loop ）节点

9. 代码（ Code ）节点（高级功能）

10. 结束（ End ）节点

善用"提取字段" ：避免在提示词中写复杂路径（如 `a.b.c.d`）

变量命名规范：如 `search_res`, `kb_chunks`, `final_msg`