LINGO-1 - 自动驾驶的 视觉语言动作模型

文章目录



【LINGO-1:将自然语言应用于无人驾驶增强学习和可解释性】

  • 探索将视觉、语言和行动相结合的视觉语言行动模型(VLAM),以增强自动驾驶模型的解释性和训练效果。
  • 构建包含图像、语言和行动的数据集,通过专家驾驶员讲解的方式收集。
  • 开发了LINGO-1开环驾驶评论模型,可以生成驾驶评论和回答视觉问题。
  • LINGO-1可以增强闭环驾驶模型的规划和推理,优化少样本学习,应对长尾场景。
  • 当前局限还包括泛化能力有限、存在幻觉、上下文能力等。
  • 自然语言具有提高自动驾驶安全性、可解释性、可靠性的潜力,是值得探索的方向。

"链式思维"自动驾驶------自动驾驶系统能够"大声思考"并用文字表述出来!

LINGO-1是我最近一段时间读到的关于自动驾驶领域最有趣的研究。

以前的模式是:感知 -> 驾驶行动

现在的模式是:感知 -> 文本推理 -> 行动

LINGO-1通过训练一个视频-语言模型来对正在进行的场景评论。你可以让它解释自己的决策和计划(例如:"你为什么停下来?"、"你接下来打算做什么?")。


明确的推理步骤带来了几个关键的优势:

  • 可解释性:驾驶模型不再是一个神秘的黑箱,你对其安全性一无所知。
  • 反事实情景:它能够想象训练数据中没有的场景,并通过推理来正确处理这些场景。
  • 长尾编程:驾驶中有太多的边缘场景。对所有场景进行良好的数据覆盖是不可能的。现在,你不再需要收集成千上万的数据案例来"神经编程"某一个案例,而是可以通过编写简短的文本提示(prompts),由人类专家解释和指导系统如何处理某些特定或复杂的情景。

LINGO-1与游戏AI领域的一些研究密切相关:

  • MineDojo : https://minedojo.org
    学习一个奖励模型,将我的世界(Minecraft)的游戏视频与它们的文字记录对齐。
    这种模型,叫做"MineCLIP",能够将评论文本与视频像素关联起来。
  • 思维克隆(由Jeff Clune提出):在像素世界中实现像素 -> 语言 -> 行动的循环。

2023-10-07

相关推荐
R-G-B3 分钟前
OpenCV 实战篇——如何测算出任一副图片中的物体的实际尺寸?传感器尺寸与像元尺寸的关系?
人工智能·opencv·工业相机·传感器尺寸·像元·测算图片中的物体尺寸·像元与物体尺寸
Hello123网站10 分钟前
Ferret:苹果发布的多模态大语言模型
人工智能·语言模型·自然语言处理·ai工具
MobotStone12 分钟前
比对手快10倍?更强更精准?谷歌"纳米香蕉"到底藏着什么黑科技
人工智能
爱写代码的小朋友16 分钟前
STEM背景下人工智能素养框架的研究
人工智能
打螺丝否1 小时前
稠密矩阵和稀疏矩阵的对比
python·机器学习·矩阵
初级炼丹师(爱说实话版)1 小时前
2025算法八股——机器学习——SVM损失函数
算法·机器学习·支持向量机
大学生毕业题目1 小时前
毕业项目推荐:83-基于yolov8/yolov5/yolo11的农作物杂草检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·杂草识别
非门由也1 小时前
《sklearn机器学习——聚类性能指标》Fowlkes-Mallows 得分
机器学习·聚类·sklearn
居7然1 小时前
美团大模型“龙猫”登场,能否重塑本地生活新战局?
人工智能·大模型·生活·美团
说私域1 小时前
社交新零售时代本地化微商的发展路径研究——基于开源AI智能名片链动2+1模式S2B2C商城小程序源的创新实践
人工智能·开源·零售