
图片来自于 midjourney
Introduction to Generative AI 2024 Spring
第9講:以大型語言模型打造的AI Agent(24.04.12)
我们现在使用 AI 的方式
请帮我翻译,请帮我画图,往往是单步骤任务,功能单一的任务
人类可以做需要多步骤的复杂任务
现在的 AI 能不能做到呢?
有 LLM 加持后,不久的将来也许可以做到
由 AI 村民组成的虚拟村庄
会自己玩"我的世界"的AI
学会的技能越来越多,可以打造钻石剑
OpenAI,Figure one
https://www.youtube.com/watch?v=Sq1QZB5baNw
厉害的是手臂和手指非常灵活,而不是用语言模型来操作机器人
用 LLM 操作机器人的例子之前就有
https://innermonologue.github.io/
https://arxiv.org/abs/2207.05608
1)指令输入:人机交互(Verbal Commands, III),口头指令
2)环境感知与上下文(Driving Context Information, CCC & HHH)
为了做出正确决策,LLM 不仅仅接收指令,还需要大量的背景信息:
- 天气与路况(Weather/Traffic)
- 交通规则(Traffic Rules)
- 历史数据(Historical Data, HHH):系统会调取之前的驾驶习惯和特定路段的处理经验。
3)核心推理:从文本到代码(Generated Codes, PPP)
这是该架构最核心的创新点:LLM 不直接控制方向盘,而是生成执行代码(Generated Codes)。
这种方式规避了 LLM 直接输出物理值可能带来的抖动或不可解释性,通过"代码"这一桥梁,将逻辑推理与硬件驱动解耦。
4)车辆执行(Actuators & ECU)
生成的代码被发送到车辆的 ECU(电子控制单元)。
硬件响应:ECU 驱动底盘执行机构,包括:
-
Throttle(油门/推力控制)
-
Brake(制动/刹车)
-
Gear(换挡)
-
Steering(转向控制)
5)闭环反馈与长效记忆(Human Feedback, FFF & Memory Module)
-
反馈回路:人对车辆的表现给出评价或修正(Human Feedback)。
-
记忆模块:这些反馈会被存入 Memory Module(存储模块),并回传到云端的历史数据库(HHH)。
-
技术联系:这本质上是一个 RLHF(基于人类反馈的强化学习) 或 In-Context Learning(上下文学习) 的过程,让自动驾驶系统越开越像"你",实现个性化驾驶。
根据接收到的终极目标,感知到的外界状态,积累记忆经验,拟定计划,根据计划产生行动,收到新的外界状态变化后,重新拟定计划(更新记忆),action ...
每次开始新对话,一切都重头来过
MemGPT,基于 GPT 打造有记忆能力的 GPT,eg 从记忆中 RAG
魔法考试,护身符是泥人哥雷姆,放弃比赛,打破瓶子,哥雷姆会带你成功退赛
看看哥雷姆运行的逻辑
终极目标是把考生安全带出迷宫,看到的是画面,可以利用 Image caption 技术,把画面转化为文字,然后输入 LLM 中,刚出来的时候记忆是空
如何把文字的 action 转化为真实世界中可执行的 action
slow agent 和 fast agent
将复杂的长程目标(如"在我的世界中制作一把木镐")拆分为高层的逻辑规划(Slow Agent)和底层的具体交互动作(Fast Agent)。
| 特性 | Slow Agent (慢代理 / 思考系统) | Fast Agent (快代理 / 执行系统) |
|---|---|---|
| 角色定位 | 决策大脑、高层规划器 | 执行肢体、低层交互器 |
| 技术基础 | 通常为 大语言模型 (LLM) | RL 策略网络 或 Python 代码脚本 |
| 处理内容 | 符号化的抽象逻辑(如:导航 -> 采集 -> 制作) | 具体的原子动作(如:转动视角、点击、放置) |
| 运行频率 | 低频(仅在任务切换或环境重大变化时触发) | 高频(实时与环境交互,快速响应) |
| 核心目的 | 解决 "做什么"(What to do)的长程逻辑规划。 | 解决 "怎么做"(How to do)的具体执行问题。 |
你在评估雇主伤势的情况下,还有可能遭受到复制体的攻击(外在的状态变了)
可以通过反思的方式,改变自己的计划
ChatGPT 给出了自己的答案,保护雇主优先
LLM 如何通过反思取得未来可用的经验,可以参考
reflexion、reAct
经验会影响所采取的行动
没有记忆的时候,第二点是立刻急救,现在第二点是保持高度的环境警觉性



































