【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(4)

图片来自于 midjourney

Introduction to Generative AI 2024 Spring

第9講:以大型語言模型打造的AI Agent(24.04.12)


我们现在使用 AI 的方式

请帮我翻译,请帮我画图,往往是单步骤任务,功能单一的任务

人类可以做需要多步骤的复杂任务

现在的 AI 能不能做到呢?

有 LLM 加持后,不久的将来也许可以做到



由 AI 村民组成的虚拟村庄

会自己玩"我的世界"的AI

学会的技能越来越多,可以打造钻石剑

OpenAI,Figure one

https://www.youtube.com/watch?v=Sq1QZB5baNw

厉害的是手臂和手指非常灵活,而不是用语言模型来操作机器人

用 LLM 操作机器人的例子之前就有

https://innermonologue.github.io/

https://arxiv.org/abs/2207.05608

1)指令输入:人机交互(Verbal Commands, III),口头指令

2)环境感知与上下文(Driving Context Information, CCC & HHH)

为了做出正确决策,LLM 不仅仅接收指令,还需要大量的背景信息

  • 天气与路况(Weather/Traffic)
  • 交通规则(Traffic Rules)
  • 历史数据(Historical Data, HHH):系统会调取之前的驾驶习惯和特定路段的处理经验。

3)核心推理:从文本到代码(Generated Codes, PPP)

这是该架构最核心的创新点:LLM 不直接控制方向盘,而是生成执行代码(Generated Codes)。

这种方式规避了 LLM 直接输出物理值可能带来的抖动或不可解释性,通过"代码"这一桥梁,将逻辑推理与硬件驱动解耦。

4)车辆执行(Actuators & ECU)

生成的代码被发送到车辆的 ECU(电子控制单元)。

硬件响应:ECU 驱动底盘执行机构,包括:

  • Throttle(油门/推力控制)

  • Brake(制动/刹车)

  • Gear(换挡)

  • Steering(转向控制)

5)闭环反馈与长效记忆(Human Feedback, FFF & Memory Module)

  • 反馈回路:人对车辆的表现给出评价或修正(Human Feedback)。

  • 记忆模块:这些反馈会被存入 Memory Module(存储模块),并回传到云端的历史数据库(HHH)。

  • 技术联系:这本质上是一个 RLHF(基于人类反馈的强化学习) 或 In-Context Learning(上下文学习) 的过程,让自动驾驶系统越开越像"你",实现个性化驾驶。

根据接收到的终极目标,感知到的外界状态,积累记忆经验,拟定计划,根据计划产生行动,收到新的外界状态变化后,重新拟定计划(更新记忆),action ...

每次开始新对话,一切都重头来过

MemGPT,基于 GPT 打造有记忆能力的 GPT,eg 从记忆中 RAG

魔法考试,护身符是泥人哥雷姆,放弃比赛,打破瓶子,哥雷姆会带你成功退赛





看看哥雷姆运行的逻辑

终极目标是把考生安全带出迷宫,看到的是画面,可以利用 Image caption 技术,把画面转化为文字,然后输入 LLM 中,刚出来的时候记忆是空



如何把文字的 action 转化为真实世界中可执行的 action

slow agent 和 fast agent

将复杂的长程目标(如"在我的世界中制作一把木镐")拆分为高层的逻辑规划(Slow Agent)和底层的具体交互动作(Fast Agent)。

特性 Slow Agent (慢代理 / 思考系统) Fast Agent (快代理 / 执行系统)
角色定位 决策大脑、高层规划器 执行肢体、低层交互器
技术基础 通常为 大语言模型 (LLM) RL 策略网络Python 代码脚本
处理内容 符号化的抽象逻辑(如:导航 -> 采集 -> 制作) 具体的原子动作(如:转动视角、点击、放置)
运行频率 低频(仅在任务切换或环境重大变化时触发) 高频(实时与环境交互,快速响应)
核心目的 解决 "做什么"(What to do)的长程逻辑规划。 解决 "怎么做"(How to do)的具体执行问题。


你在评估雇主伤势的情况下,还有可能遭受到复制体的攻击(外在的状态变了)

可以通过反思的方式,改变自己的计划

ChatGPT 给出了自己的答案,保护雇主优先

LLM 如何通过反思取得未来可用的经验,可以参考

reflexion、reAct


经验会影响所采取的行动


没有记忆的时候,第二点是立刻急救,现在第二点是保持高度的环境警觉性


参考

相关推荐
Spliceㅤ2 小时前
项目:基于qwen的点餐系统
开发语言·人工智能·python·机器学习·自然语言处理
李子琪。2 小时前
数字技术认证体系备考实践与职业效能研究
人工智能·经验分享
cd_949217212 小时前
告别硬床误区,梦百合以AI科技重塑正确睡眠观
大数据·人工智能·科技
janeysj3 小时前
安装windows本地OpenClaw并连接飞书
人工智能·飞书
RSFeegg3 小时前
【AI Agent 学习笔记task2】Day3 Hello-Agents 第二章:智能体发展史深度解读
人工智能·笔记·学习
文艺小码农3 小时前
pytorch(GPU版)安装教程
人工智能·pytorch·python
爱敲点代码的小哥3 小时前
Halcon工业图像处理:形态学操作与缺陷检测
人工智能
AI营销资讯站3 小时前
原圈科技AI营销内容SaaS:破解获客难题,领航智能增长
人工智能
AI营销先锋3 小时前
AI营销变革下,原圈科技如何重塑企业增长引擎?
大数据·人工智能