【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(4)

图片来自于 midjourney

Introduction to Generative AI 2024 Spring

第9講:以大型語言模型打造的AI Agent(24.04.12)


我们现在使用 AI 的方式

请帮我翻译,请帮我画图,往往是单步骤任务,功能单一的任务

人类可以做需要多步骤的复杂任务

现在的 AI 能不能做到呢?

有 LLM 加持后,不久的将来也许可以做到



由 AI 村民组成的虚拟村庄

会自己玩"我的世界"的AI

学会的技能越来越多,可以打造钻石剑

OpenAI,Figure one

https://www.youtube.com/watch?v=Sq1QZB5baNw

厉害的是手臂和手指非常灵活,而不是用语言模型来操作机器人

用 LLM 操作机器人的例子之前就有

https://innermonologue.github.io/

https://arxiv.org/abs/2207.05608

1)指令输入:人机交互(Verbal Commands, III),口头指令

2)环境感知与上下文(Driving Context Information, CCC & HHH)

为了做出正确决策,LLM 不仅仅接收指令,还需要大量的背景信息

  • 天气与路况(Weather/Traffic)
  • 交通规则(Traffic Rules)
  • 历史数据(Historical Data, HHH):系统会调取之前的驾驶习惯和特定路段的处理经验。

3)核心推理:从文本到代码(Generated Codes, PPP)

这是该架构最核心的创新点:LLM 不直接控制方向盘,而是生成执行代码(Generated Codes)。

这种方式规避了 LLM 直接输出物理值可能带来的抖动或不可解释性,通过"代码"这一桥梁,将逻辑推理与硬件驱动解耦。

4)车辆执行(Actuators & ECU)

生成的代码被发送到车辆的 ECU(电子控制单元)。

硬件响应:ECU 驱动底盘执行机构,包括:

  • Throttle(油门/推力控制)

  • Brake(制动/刹车)

  • Gear(换挡)

  • Steering(转向控制)

5)闭环反馈与长效记忆(Human Feedback, FFF & Memory Module)

  • 反馈回路:人对车辆的表现给出评价或修正(Human Feedback)。

  • 记忆模块:这些反馈会被存入 Memory Module(存储模块),并回传到云端的历史数据库(HHH)。

  • 技术联系:这本质上是一个 RLHF(基于人类反馈的强化学习) 或 In-Context Learning(上下文学习) 的过程,让自动驾驶系统越开越像"你",实现个性化驾驶。

根据接收到的终极目标,感知到的外界状态,积累记忆经验,拟定计划,根据计划产生行动,收到新的外界状态变化后,重新拟定计划(更新记忆),action ...

每次开始新对话,一切都重头来过

MemGPT,基于 GPT 打造有记忆能力的 GPT,eg 从记忆中 RAG

魔法考试,护身符是泥人哥雷姆,放弃比赛,打破瓶子,哥雷姆会带你成功退赛





看看哥雷姆运行的逻辑

终极目标是把考生安全带出迷宫,看到的是画面,可以利用 Image caption 技术,把画面转化为文字,然后输入 LLM 中,刚出来的时候记忆是空



如何把文字的 action 转化为真实世界中可执行的 action

slow agent 和 fast agent

将复杂的长程目标(如"在我的世界中制作一把木镐")拆分为高层的逻辑规划(Slow Agent)和底层的具体交互动作(Fast Agent)。

特性 Slow Agent (慢代理 / 思考系统) Fast Agent (快代理 / 执行系统)
角色定位 决策大脑、高层规划器 执行肢体、低层交互器
技术基础 通常为 大语言模型 (LLM) RL 策略网络Python 代码脚本
处理内容 符号化的抽象逻辑(如:导航 -> 采集 -> 制作) 具体的原子动作(如:转动视角、点击、放置)
运行频率 低频(仅在任务切换或环境重大变化时触发) 高频(实时与环境交互,快速响应)
核心目的 解决 "做什么"(What to do)的长程逻辑规划。 解决 "怎么做"(How to do)的具体执行问题。


你在评估雇主伤势的情况下,还有可能遭受到复制体的攻击(外在的状态变了)

可以通过反思的方式,改变自己的计划

ChatGPT 给出了自己的答案,保护雇主优先

LLM 如何通过反思取得未来可用的经验,可以参考

reflexion、reAct


经验会影响所采取的行动


没有记忆的时候,第二点是立刻急救,现在第二点是保持高度的环境警觉性


参考

相关推荐
Elastic 中国社区官方博客2 分钟前
Elastic 的 AI agent skills
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
容智信息6 分钟前
AI Agent(智能体)的输出格式应该从 Markdown 转向 HTML吗?
前端·人工智能·rust·编辑器·html·prompt
学习论之费曼学习法8 分钟前
AI 入门 30 天挑战 - Day 28 - 前沿技术概览
人工智能
陕西字符10 分钟前
2026 西安小微企业地图与 AI 问答排名优化:专业技术指南与落地方案
大数据·人工智能
TENSORTEC腾视科技21 分钟前
腾视科技AI大模型应用:提效、破局与落地,重塑智能新生态
人工智能·科技·安全·ai·ai大模型·无人叉车及智能调度系统解决方案
阿里云大数据AI技术22 分钟前
破解 AI 搜索“效果与成本”双重困境:阿里云 Elasticsearch 向量混合检索最佳实践揭秘
人工智能·elasticsearch
仙女修炼史25 分钟前
视觉CNN常用基础技术来源:UberNet
人工智能·神经网络·cnn
ishangy29 分钟前
皮带撕裂早期特征提取:AI摄像机+深度学习在港口的应用
人工智能·深度学习·智慧港口·港口皮带ai识别·皮带检测识别
爱吃的小肥羊30 分钟前
又搞事情,OpenAI 开始关闭微调服务!
aigc·openai
imbackneverdie35 分钟前
一天怎么完成论文初稿
人工智能·自然语言处理·aigc·ai写作·论文写作·论文投稿·科研工具