【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(4)

图片来自于 midjourney

Introduction to Generative AI 2024 Spring

第9講:以大型語言模型打造的AI Agent(24.04.12)


我们现在使用 AI 的方式

请帮我翻译,请帮我画图,往往是单步骤任务,功能单一的任务

人类可以做需要多步骤的复杂任务

现在的 AI 能不能做到呢?

有 LLM 加持后,不久的将来也许可以做到



由 AI 村民组成的虚拟村庄

会自己玩"我的世界"的AI

学会的技能越来越多,可以打造钻石剑

OpenAI,Figure one

https://www.youtube.com/watch?v=Sq1QZB5baNw

厉害的是手臂和手指非常灵活,而不是用语言模型来操作机器人

用 LLM 操作机器人的例子之前就有

https://innermonologue.github.io/

https://arxiv.org/abs/2207.05608

1)指令输入:人机交互(Verbal Commands, III),口头指令

2)环境感知与上下文(Driving Context Information, CCC & HHH)

为了做出正确决策,LLM 不仅仅接收指令,还需要大量的背景信息

  • 天气与路况(Weather/Traffic)
  • 交通规则(Traffic Rules)
  • 历史数据(Historical Data, HHH):系统会调取之前的驾驶习惯和特定路段的处理经验。

3)核心推理:从文本到代码(Generated Codes, PPP)

这是该架构最核心的创新点:LLM 不直接控制方向盘,而是生成执行代码(Generated Codes)。

这种方式规避了 LLM 直接输出物理值可能带来的抖动或不可解释性,通过"代码"这一桥梁,将逻辑推理与硬件驱动解耦。

4)车辆执行(Actuators & ECU)

生成的代码被发送到车辆的 ECU(电子控制单元)。

硬件响应:ECU 驱动底盘执行机构,包括:

  • Throttle(油门/推力控制)

  • Brake(制动/刹车)

  • Gear(换挡)

  • Steering(转向控制)

5)闭环反馈与长效记忆(Human Feedback, FFF & Memory Module)

  • 反馈回路:人对车辆的表现给出评价或修正(Human Feedback)。

  • 记忆模块:这些反馈会被存入 Memory Module(存储模块),并回传到云端的历史数据库(HHH)。

  • 技术联系:这本质上是一个 RLHF(基于人类反馈的强化学习) 或 In-Context Learning(上下文学习) 的过程,让自动驾驶系统越开越像"你",实现个性化驾驶。

根据接收到的终极目标,感知到的外界状态,积累记忆经验,拟定计划,根据计划产生行动,收到新的外界状态变化后,重新拟定计划(更新记忆),action ...

每次开始新对话,一切都重头来过

MemGPT,基于 GPT 打造有记忆能力的 GPT,eg 从记忆中 RAG

魔法考试,护身符是泥人哥雷姆,放弃比赛,打破瓶子,哥雷姆会带你成功退赛





看看哥雷姆运行的逻辑

终极目标是把考生安全带出迷宫,看到的是画面,可以利用 Image caption 技术,把画面转化为文字,然后输入 LLM 中,刚出来的时候记忆是空



如何把文字的 action 转化为真实世界中可执行的 action

slow agent 和 fast agent

将复杂的长程目标(如"在我的世界中制作一把木镐")拆分为高层的逻辑规划(Slow Agent)和底层的具体交互动作(Fast Agent)。

特性 Slow Agent (慢代理 / 思考系统) Fast Agent (快代理 / 执行系统)
角色定位 决策大脑、高层规划器 执行肢体、低层交互器
技术基础 通常为 大语言模型 (LLM) RL 策略网络Python 代码脚本
处理内容 符号化的抽象逻辑(如:导航 -> 采集 -> 制作) 具体的原子动作(如:转动视角、点击、放置)
运行频率 低频(仅在任务切换或环境重大变化时触发) 高频(实时与环境交互,快速响应)
核心目的 解决 "做什么"(What to do)的长程逻辑规划。 解决 "怎么做"(How to do)的具体执行问题。


你在评估雇主伤势的情况下,还有可能遭受到复制体的攻击(外在的状态变了)

可以通过反思的方式,改变自己的计划

ChatGPT 给出了自己的答案,保护雇主优先

LLM 如何通过反思取得未来可用的经验,可以参考

reflexion、reAct


经验会影响所采取的行动


没有记忆的时候,第二点是立刻急救,现在第二点是保持高度的环境警觉性


参考

相关推荐
Coffeeee2 分钟前
帮你快速理解AI Agent之我想招个Android实习生
android·人工智能·agent
新新技术迷9 分钟前
AI聊天自动跟随滚动,附回到底部按钮
人工智能
先锋部队9 分钟前
用Web Worker解析AI返回的大文本不卡UI
人工智能
把你拉进白名单13 分钟前
8.OpenClaw源码解析——三层洋葱重试
人工智能·llm·agent
用户6324150317815 分钟前
拖文档进AI对话框解析,前端要处理哪些脏活
人工智能
姗姗来迟了22 分钟前
AI回答里的引用来源卡片,前端怎么做
人工智能
用户71062077334023 分钟前
Codex-端口配置错误排查案例(stream disconnected before completion)
人工智能
IT_陈寒1 小时前
JavaScript的默认参数挖坑实录,我掉进去了
前端·人工智能·后端
米小虾2 小时前
多Agent系统编排详解:从架构设计到代码实现
人工智能·agent
米小虾2 小时前
多Agent系统的编排:架构、协议与企业级应用
人工智能·agent