【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》（4）

图片来自于 midjourney

Introduction to Generative AI 2024 Spring

第9講：以大型語言模型打造的AI Agent（24.04.12）

我们现在使用 AI 的方式

请帮我翻译，请帮我画图，往往是单步骤任务，功能单一的任务

人类可以做需要多步骤的复杂任务

现在的 AI 能不能做到呢？

有 LLM 加持后，不久的将来也许可以做到

由 AI 村民组成的虚拟村庄

会自己玩"我的世界"的AI

学会的技能越来越多，可以打造钻石剑

OpenAI，Figure one

厉害的是手臂和手指非常灵活，而不是用语言模型来操作机器人

用 LLM 操作机器人的例子之前就有

1）指令输入：人机交互（Verbal Commands, III），口头指令

2）环境感知与上下文（Driving Context Information, CCC & HHH）

为了做出正确决策，LLM 不仅仅接收指令，还需要大量的背景信息：

3）核心推理：从文本到代码（Generated Codes, PPP）

这是该架构最核心的创新点：LLM 不直接控制方向盘，而是生成执行代码（Generated Codes）。

这种方式规避了 LLM 直接输出物理值可能带来的抖动或不可解释性，通过"代码"这一桥梁，将逻辑推理与硬件驱动解耦。

4）车辆执行（Actuators & ECU）

生成的代码被发送到车辆的 ECU（电子控制单元）。

硬件响应：ECU 驱动底盘执行机构，包括：

5）闭环反馈与长效记忆（Human Feedback, FFF & Memory Module）

反馈回路：人对车辆的表现给出评价或修正（Human Feedback）。
记忆模块：这些反馈会被存入 Memory Module（存储模块），并回传到云端的历史数据库（HHH）。
技术联系：这本质上是一个 RLHF（基于人类反馈的强化学习）或 In-Context Learning（上下文学习）的过程，让自动驾驶系统越开越像"你"，实现个性化驾驶。

根据接收到的终极目标，感知到的外界状态，积累记忆经验，拟定计划，根据计划产生行动，收到新的外界状态变化后，重新拟定计划（更新记忆），action ...

每次开始新对话，一切都重头来过

MemGPT，基于 GPT 打造有记忆能力的 GPT，eg 从记忆中 RAG

魔法考试，护身符是泥人哥雷姆，放弃比赛，打破瓶子，哥雷姆会带你成功退赛

看看哥雷姆运行的逻辑

终极目标是把考生安全带出迷宫，看到的是画面，可以利用 Image caption 技术，把画面转化为文字，然后输入 LLM 中，刚出来的时候记忆是空

如何把文字的 action 转化为真实世界中可执行的 action

slow agent 和 fast agent

将复杂的长程目标（如"在我的世界中制作一把木镐"）拆分为高层的逻辑规划（Slow Agent）和底层的具体交互动作（Fast Agent）。

你在评估雇主伤势的情况下，还有可能遭受到复制体的攻击（外在的状态变了）

可以通过反思的方式，改变自己的计划

ChatGPT 给出了自己的答案，保护雇主优先

LLM 如何通过反思取得未来可用的经验，可以参考

reflexion、reAct

经验会影响所采取的行动

没有记忆的时候，第二点是立刻急救，现在第二点是保持高度的环境警觉性