【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(4)

图片来自于 midjourney

Introduction to Generative AI 2024 Spring

第9講:以大型語言模型打造的AI Agent(24.04.12)


我们现在使用 AI 的方式

请帮我翻译,请帮我画图,往往是单步骤任务,功能单一的任务

人类可以做需要多步骤的复杂任务

现在的 AI 能不能做到呢?

有 LLM 加持后,不久的将来也许可以做到



由 AI 村民组成的虚拟村庄

会自己玩"我的世界"的AI

学会的技能越来越多,可以打造钻石剑

OpenAI,Figure one

https://www.youtube.com/watch?v=Sq1QZB5baNw

厉害的是手臂和手指非常灵活,而不是用语言模型来操作机器人

用 LLM 操作机器人的例子之前就有

https://innermonologue.github.io/

https://arxiv.org/abs/2207.05608

1)指令输入:人机交互(Verbal Commands, III),口头指令

2)环境感知与上下文(Driving Context Information, CCC & HHH)

为了做出正确决策,LLM 不仅仅接收指令,还需要大量的背景信息

  • 天气与路况(Weather/Traffic)
  • 交通规则(Traffic Rules)
  • 历史数据(Historical Data, HHH):系统会调取之前的驾驶习惯和特定路段的处理经验。

3)核心推理:从文本到代码(Generated Codes, PPP)

这是该架构最核心的创新点:LLM 不直接控制方向盘,而是生成执行代码(Generated Codes)。

这种方式规避了 LLM 直接输出物理值可能带来的抖动或不可解释性,通过"代码"这一桥梁,将逻辑推理与硬件驱动解耦。

4)车辆执行(Actuators & ECU)

生成的代码被发送到车辆的 ECU(电子控制单元)。

硬件响应:ECU 驱动底盘执行机构,包括:

  • Throttle(油门/推力控制)

  • Brake(制动/刹车)

  • Gear(换挡)

  • Steering(转向控制)

5)闭环反馈与长效记忆(Human Feedback, FFF & Memory Module)

  • 反馈回路:人对车辆的表现给出评价或修正(Human Feedback)。

  • 记忆模块:这些反馈会被存入 Memory Module(存储模块),并回传到云端的历史数据库(HHH)。

  • 技术联系:这本质上是一个 RLHF(基于人类反馈的强化学习) 或 In-Context Learning(上下文学习) 的过程,让自动驾驶系统越开越像"你",实现个性化驾驶。

根据接收到的终极目标,感知到的外界状态,积累记忆经验,拟定计划,根据计划产生行动,收到新的外界状态变化后,重新拟定计划(更新记忆),action ...

每次开始新对话,一切都重头来过

MemGPT,基于 GPT 打造有记忆能力的 GPT,eg 从记忆中 RAG

魔法考试,护身符是泥人哥雷姆,放弃比赛,打破瓶子,哥雷姆会带你成功退赛





看看哥雷姆运行的逻辑

终极目标是把考生安全带出迷宫,看到的是画面,可以利用 Image caption 技术,把画面转化为文字,然后输入 LLM 中,刚出来的时候记忆是空



如何把文字的 action 转化为真实世界中可执行的 action

slow agent 和 fast agent

将复杂的长程目标(如"在我的世界中制作一把木镐")拆分为高层的逻辑规划(Slow Agent)和底层的具体交互动作(Fast Agent)。

特性 Slow Agent (慢代理 / 思考系统) Fast Agent (快代理 / 执行系统)
角色定位 决策大脑、高层规划器 执行肢体、低层交互器
技术基础 通常为 大语言模型 (LLM) RL 策略网络Python 代码脚本
处理内容 符号化的抽象逻辑(如:导航 -> 采集 -> 制作) 具体的原子动作(如:转动视角、点击、放置)
运行频率 低频(仅在任务切换或环境重大变化时触发) 高频(实时与环境交互,快速响应)
核心目的 解决 "做什么"(What to do)的长程逻辑规划。 解决 "怎么做"(How to do)的具体执行问题。


你在评估雇主伤势的情况下,还有可能遭受到复制体的攻击(外在的状态变了)

可以通过反思的方式,改变自己的计划

ChatGPT 给出了自己的答案,保护雇主优先

LLM 如何通过反思取得未来可用的经验,可以参考

reflexion、reAct


经验会影响所采取的行动


没有记忆的时候,第二点是立刻急救,现在第二点是保持高度的环境警觉性


参考

相关推荐
HackTorjan4 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.4 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
不爱洗脚的小滕4 小时前
【RAG】召回(Retrieval)与重排(Rerank)核心技术要点汇总
langchain·aigc·ai编程·rag
红尘散仙5 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗5 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston5 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz5 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家5 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰5 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr8286 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成