什么是Agent
openAI 官方定义,核心:"自主"



什么是workflow
Anthropic 官方定义,可理解为:workflow就是按照剧本在演戏,大模型只是其中的小角色;Agent是一个导演,体现出 "自主",可以把Agent当成一个人来看,只不过现阶段的Agent的自主,可能是有局限的自主



总结
- 核心定义
• 工作流 (Workflow) :指的是通过预定义的代码路径 来编排大语言模型(LLM)和工具的系统。它是一系列为了实现特定目标(如解决客户问题或生成报告)而必须执行的确定性步骤序列。
• Agent (智能体) :指的是由 LLM 动态地引导其自身流程和工具调用 的系统。Agent 能够代表用户独立完成任务,具有高度的独立性,并能根据环境反馈调整行动。
- 设计基础与构成
根据源文档,一个完整的 Agent 通常包含以下三个设计基础:
• 模型 (Model):作为推理和决策核心的 LLM。
• 工具 (Tools):Agent 可调用的外部 API 或函数(如数据搜索、发邮件、执行代码等)。
• 指令 (Instructions):定义行为边界、安全守则和操作指南的明确说明。
• 技能 (Skills) (补充):一种封装了特定领域知识、脚本和资源的文件夹(如 SKILL.md),通过"渐进式披露"原则,让 Agent 能够动态加载处理特定任务(如 PDF 表单填充)所需的专业能力。
- 优缺点对比
|--------|-----------------------------------------------------------------|---------------------------------------------------------------------------------|
| 维度 | 工作流 (Workflow) | Agent (智能体) |
| 优点 | 高预测性与一致性 :路径固定,易于测试、调试和维护。成本与延迟可控:通常使用较简单的逻辑,效率更高。 | 极高的灵活性 :能处理模糊、开放式且无法预先硬编码路径的复杂任务。自主纠错:能识别任务状态并根据环境反馈(Ground Truth)调整策略。 |
| 缺点 | 僵化 :难以应对未定义的边界情况或动态变化的子任务。扩展成本高:逻辑分支过多时会导致规则集变得臃肿且难以维护。 | 高延迟与高成本 :由于需要多轮推理和循环,资源消耗大。错误累积:自主性可能导致错误在多步操作中不断放大。 |
- 适用场景
工作流适用于:
• 任务可分解性强:能够清晰拆解为固定子任务的场景,如"生成营销文案并翻译"。
• 分类与分流:根据输入内容将其引导至特定的处理流程(Routing),如客服请求的分拣。
• 需要并行的任务:如同时运行两个模型,一个生成内容,另一个作为护栏(Guardrail)审查内容安全性。
• 迭代优化:一个模型负责生成,另一个负责反馈润色(Evaluator-Optimizer),如文学翻译。
Agent 适用于:

• 复杂且动态的决策:涉及细微判断或上下文敏感的决策,如退款审批。
• 重度依赖非结构化数据:需要从自然语言或复杂文档中提取意义,如处理保险理赔。
• 开放式编程/计算机使用:如自动修复 GitHub 上的漏洞(SWE-bench)或直接操作电脑界面完成任务。
• 规则极其繁琐的系统:当传统的规则引擎因分支过多而无法维护时(如供应商安全审查)。
- 市面上热门的 Agent 实例
根据文档提及以及当前市场热度,以下是一些代表性的 Agent 及其应用:
• Claude Code:由 Anthropic 开发,能够利用本地代码执行和文件系统完成复杂的编程任务。
• AutoGPT:早期著名的 Agent 项目,能够将复杂目标自动拆解为一系列任务并循环执行。
• SWE-bench 编程 Agent:专门用于自主解决 GitHub 问题、进行多文件编辑和自动测试反馈的智能体。
• OpenAI 的"计算机使用" Agent (Operator) :(注:此处结合了文档中的"computer use"概念 与外部市场信息,请独立验证)此类 Agent 能够像人类一样操作屏幕、点击鼠标和输入文字来完成跨应用的复杂流程。
• Devin :(注:此信息来自外部,非源文档内容)被认为是市面上首个全自主的 AI 软件工程师,能够独立完成从需求分析到部署的完整开发闭环。
比喻理解: 工作流 就像是一张精密设计的电路图 ,电流(任务)必须沿着既定的轨道流转,虽然稳定可靠,但无法越雷池一步;而 Agent 则像是一位带了地图和工具包的探险家,你只告诉他终点,他会根据途中的天气、路况自主决定是划船还是爬山,甚至在遇到死胡同路时自己寻找新路径。