基于 Google X × Kaggle《AI Agents Intensive》Day 1 白皮书
一、从"被动 AI"到"自主 AI Agent"的转变
传统 AI 系统主要以被动响应为主:
- 回答问题
- 翻译文本
- 基于单一 prompt 生成内容
这类系统的特点是:
输入 → 推理 → 输出,流程线性,几乎不具备持续行动能力。
而白皮书提出的核心转变在于:
AI 正从"对话式工具"演进为自主、目标导向的智能体(Agent) 。
AI Agent 的关键特征包括:
- 拥有明确目标(goal-oriented)
- 能进行多步规划
- 能调用工具执行真实动作
- 能根据执行结果持续调整策略
- 在较少人工干预下完成复杂任务
二、AI Agent 的三大核心组成
白皮书将 Agent 的基本结构拆分为三个部分:
1. Model(模型):Agent 的"思考中枢"
模型通常是一个 LLM,但在 Agent 架构中,它的职责并不只是"生成文本"。
其核心作用是:
- 作为推理引擎(reasoning engine)
- 动态管理上下文(context window)
- 决定当前阶段哪些信息是"重要的"
模型需要在以下信息中做取舍与编排:
- 当前任务目标
- 历史行动与观察结果
- 来自工具的返回数据
- 长期或短期记忆内容
模型并不直接执行动作,只负责决策与判断。
2. Tools(工具):Agent 的"行动能力"
工具是 Agent 与外部世界或内部系统交互的方式,例如:
- 外部 API(搜索、地图、支付、物流等)
- 内部业务系统(CRM、订单系统)
- 数据库 / 向量库
- 可执行代码环境(如受控的 Python Sandbox)
关键点在于:
- 模型负责决定"用哪个工具"
- 编排层负责真正调用工具
- 工具返回的结果(Observation)会重新进入模型上下文
3. Orchestration Layer(编排层):Agent 的"控制中枢"
编排层不是简单的流程控制器,而是 Agent 的治理核心,主要职责包括:
- 管理 思考 → 行动 → 观察 的运行循环
- 执行推理策略(如 Chain-of-Thought、ReAct)
- 维护 Agent 的运行状态与记忆
- 定义 Agent 的角色、规则和约束
可以将其理解为:
模型负责"想什么",工具负责"做什么",编排层负责"什么时候做、怎么串起来"。
三、Agent 的核心运行机制:Think -- Act -- Observe 循环
白皮书强调,Agent 的本质是一个持续运行的循环,而非一次性推理。
标准运行流程示例:组织团队出行
-
接收任务(Mission)
- 明确目标:组织团队旅行
-
环境扫描(Scan)
- 可用工具:日历、预订系统
- 当前上下文与已有信息
-
规划(Think)
- 判断下一步行动
- 例如:先获取团队成员名单
-
执行(Act)
- 编排层调用对应工具(如 get_team_roster)
-
观察(Observe)
- 工具返回结果
- 将结果写入上下文
-
循环迭代
- 基于新信息重新规划
- 直到任务完成
这一机制同样适用于:
- 客服问题处理
- 订单查询
- 多步骤业务流程
四、Agent 能力分级(Agent Capability Taxonomy)
为了帮助工程实践中的系统设计,白皮书提出了 Agent 能力的分级模型。
Level 0:纯语言模型
- 无工具
- 仅依赖训练数据
- 无法获取实时信息
Level 1:连接型问题解决者
- 具备工具调用能力
- 能访问实时数据
- 可完成单步或简单多步任务
Level 2:战略型问题解决者(Context Engineering)
核心能力是:上下文工程(Context Engineering)
典型特征:
- 能将上一步输出转化为下一步更精确的输入
- 主动减少噪声,提高检索与决策质量
示例:
- 先计算两个地址的中点
- 再基于精确坐标搜索高评分咖啡店
Level 3:多 Agent 协作系统
特点:
- Agent 可以把其他 Agent 当作工具
- 支持目标级别的任务委派
- 子 Agent 具备自主规划能力
例如:
- 项目管理 Agent
- 市场研究 Agent
- 数据分析 Agent
这不再是函数调用,而是 Agent-to-Agent 的目标委托。
Level 4:自我进化系统
前沿形态,具备:
- 自我能力评估
- 发现能力缺口
- 动态创建新 Agent 或工具
例如:
- 自动创建情感分析 Agent
- 自动配置权限与能力边界
五、生产环境中的关键工程问题(AgentOps)
1. 模型选择与模型路由
- 不追求单一"最强模型"
- 根据任务复杂度进行模型路由
- 平衡性能、成本与稳定性
2. 工具设计与 Function Calling
工具必须具备:
- 清晰的功能描述
- 明确的参数规范
- 结构化返回格式
这通常以 OpenAPI / Function Calling 的形式实现,确保模型能正确调用与解析结果。
3. 记忆系统设计
- 短期记忆:当前任务的行动-观察序列
- 长期记忆:跨会话的偏好、经验、知识
工程上通常以 RAG + 向量数据库的形式实现。
六、测试、调试与可观测性
1. 评估方式的变化
- 无法使用传统的"输入-输出断言"
- 更关注输出质量与约束遵守情况
- 常见方法:LLM-as-a-Judge
2. 调试的核心:可观测性(Observability)
白皮书明确指出:
OpenTelemetry Trace 是调试 Agent 的关键工具
Trace 可以完整记录:
- 每一步 prompt
- 推理过程
- 工具选择与参数
- 工具返回结果
- 整体执行轨迹
这相当于 Agent 的"飞行记录仪"。
3. 用户反馈闭环(很重要 黄金数据集)
- 用户问题 → 复现 → 转化为测试用例
- 不断扩充 golden dataset
- 防止同类问题再次发生
七、安全、权限与治理
1. Defense in Depth(纵深防御)
- 规则引擎(硬约束)
- AI Guard Models(软约束,用 ai 约束 ai)
2. Agent 身份与最小权限原则
- Agent 是系统中的独立主体
- 拥有独立身份与权限
- 权限精细化控制,防止越权访问
3. Agent 治理与控制平面
- 所有通信经由统一网关
- 集中策略控制
- 统一监控日志、指标与 Trace
八、学习与演化机制
Agent 的持续改进来源于:
- 运行日志与 Trace
- 用户反馈
- 外部规则或环境变化
进阶实践包括:
- Agent Simulation / Agent Gym
- 使用合成数据与安全环境进行压力测试
九、典型系统示例
Google Co-Scientist
- 多 Agent 科研协作系统
- 任务分解、假设生成、实验设计
- 接近 Level 3 / Level 4
AlphaEvolve
- 算法生成与优化系统
- AI + 自动演化机制
- 人类定义评估标准与约束
十、总结
白皮书的核心结论是:
成功的 AI Agent 系统不是模型驱动的,而是工程驱动的。
Agent 的价值来自于:
- 模型(推理)
- 工具(行动)
- 编排层(控制)
- 治理、安全、可观测性
开发者的角色也正在变化:
从"写代码的人",转向"设计和治理智能系统的架构师"。