《5-Day AI Agents Intensive》- 认识 Agents

基于 Google X × Kaggle《AI Agents Intensive》Day 1 白皮书

一、从"被动 AI"到"自主 AI Agent"的转变

传统 AI 系统主要以被动响应为主：

回答问题
翻译文本
基于单一 prompt 生成内容

这类系统的特点是：

输入 → 推理 → 输出，流程线性，几乎不具备持续行动能力。

而白皮书提出的核心转变在于：

AI 正从"对话式工具"演进为自主、目标导向的智能体（Agent） 。

AI Agent 的关键特征包括：

拥有明确目标（goal-oriented）
能进行多步规划
能调用工具执行真实动作
能根据执行结果持续调整策略
在较少人工干预下完成复杂任务

二、AI Agent 的三大核心组成

白皮书将 Agent 的基本结构拆分为三个部分：

1. Model（模型）：Agent 的"思考中枢"

模型通常是一个 LLM，但在 Agent 架构中，它的职责并不只是"生成文本"。

其核心作用是：

作为推理引擎（reasoning engine）
动态管理上下文（context window）
决定当前阶段哪些信息是"重要的"

模型需要在以下信息中做取舍与编排：

当前任务目标
历史行动与观察结果
来自工具的返回数据
长期或短期记忆内容

模型并不直接执行动作，只负责决策与判断。

2. Tools（工具）：Agent 的"行动能力"

工具是 Agent 与外部世界或内部系统交互的方式，例如：

外部 API（搜索、地图、支付、物流等）
内部业务系统（CRM、订单系统）
数据库 / 向量库
可执行代码环境（如受控的 Python Sandbox）

关键点在于：

模型负责决定"用哪个工具"
编排层负责真正调用工具
工具返回的结果（Observation）会重新进入模型上下文

3. Orchestration Layer（编排层）：Agent 的"控制中枢"

编排层不是简单的流程控制器，而是 Agent 的治理核心，主要职责包括：

管理 思考 → 行动 → 观察 的运行循环
执行推理策略（如 Chain-of-Thought、ReAct）
维护 Agent 的运行状态与记忆
定义 Agent 的角色、规则和约束

可以将其理解为：

模型负责"想什么"，工具负责"做什么"，编排层负责"什么时候做、怎么串起来"。

三、Agent 的核心运行机制：Think -- Act -- Observe 循环

白皮书强调，Agent 的本质是一个持续运行的循环，而非一次性推理。

标准运行流程示例：组织团队出行

接收任务（Mission）
- 明确目标：组织团队旅行
环境扫描（Scan）
- 可用工具：日历、预订系统
- 当前上下文与已有信息
规划（Think）
- 判断下一步行动
- 例如：先获取团队成员名单
执行（Act）
- 编排层调用对应工具（如 get_team_roster）
观察（Observe）
- 工具返回结果
- 将结果写入上下文
循环迭代
- 基于新信息重新规划
- 直到任务完成

这一机制同样适用于：

客服问题处理
订单查询
多步骤业务流程

四、Agent 能力分级（Agent Capability Taxonomy）

为了帮助工程实践中的系统设计，白皮书提出了 Agent 能力的分级模型。

Level 0：纯语言模型

无工具
仅依赖训练数据
无法获取实时信息

Level 1：连接型问题解决者

具备工具调用能力
能访问实时数据
可完成单步或简单多步任务

Level 2：战略型问题解决者（Context Engineering）

核心能力是：上下文工程（Context Engineering）

典型特征：

能将上一步输出转化为下一步更精确的输入
主动减少噪声，提高检索与决策质量

示例：

先计算两个地址的中点
再基于精确坐标搜索高评分咖啡店

Level 3：多 Agent 协作系统

特点：

Agent 可以把其他 Agent 当作工具
支持目标级别的任务委派
子 Agent 具备自主规划能力

例如：

项目管理 Agent
市场研究 Agent
数据分析 Agent

这不再是函数调用，而是 Agent-to-Agent 的目标委托。

Level 4：自我进化系统

前沿形态，具备：

自我能力评估
发现能力缺口
动态创建新 Agent 或工具

例如：

自动创建情感分析 Agent
自动配置权限与能力边界

五、生产环境中的关键工程问题（AgentOps）

1. 模型选择与模型路由

不追求单一"最强模型"
根据任务复杂度进行模型路由
平衡性能、成本与稳定性

2. 工具设计与 Function Calling

工具必须具备：

清晰的功能描述
明确的参数规范
结构化返回格式

这通常以 OpenAPI / Function Calling 的形式实现，确保模型能正确调用与解析结果。

3. 记忆系统设计

短期记忆：当前任务的行动-观察序列
长期记忆：跨会话的偏好、经验、知识

工程上通常以 RAG + 向量数据库的形式实现。

六、测试、调试与可观测性

1. 评估方式的变化

无法使用传统的"输入-输出断言"
更关注输出质量与约束遵守情况
常见方法：LLM-as-a-Judge

2. 调试的核心：可观测性（Observability）

白皮书明确指出：

OpenTelemetry Trace 是调试 Agent 的关键工具

Trace 可以完整记录：

每一步 prompt
推理过程
工具选择与参数
工具返回结果
整体执行轨迹

这相当于 Agent 的"飞行记录仪"。

3. 用户反馈闭环（很重要黄金数据集）

用户问题 → 复现 → 转化为测试用例
不断扩充 golden dataset
防止同类问题再次发生

七、安全、权限与治理

1. Defense in Depth（纵深防御）

规则引擎（硬约束）
AI Guard Models（软约束，用 ai 约束 ai）

2. Agent 身份与最小权限原则

Agent 是系统中的独立主体
拥有独立身份与权限
权限精细化控制，防止越权访问

3. Agent 治理与控制平面

所有通信经由统一网关
集中策略控制
统一监控日志、指标与 Trace

八、学习与演化机制

Agent 的持续改进来源于：

运行日志与 Trace
用户反馈
外部规则或环境变化

进阶实践包括：

Agent Simulation / Agent Gym
使用合成数据与安全环境进行压力测试

九、典型系统示例

Google Co-Scientist

多 Agent 科研协作系统
任务分解、假设生成、实验设计
接近 Level 3 / Level 4

AlphaEvolve

算法生成与优化系统
AI + 自动演化机制
人类定义评估标准与约束

十、总结

白皮书的核心结论是：

成功的 AI Agent 系统不是模型驱动的，而是工程驱动的。

Agent 的价值来自于：

模型（推理）
工具（行动）
编排层（控制）
治理、安全、可观测性

开发者的角色也正在变化：

从"写代码的人"，转向"设计和治理智能系统的架构师"。