AGI来了？特拉斯用大模型帮助自动驾驶

Elon Musk 的 xAI 刚刚推出了Grok-1.5 Vision，这是对开源模型的多模式升级，允许处理视觉信息。细节：

Grok 1.5V 现在可以处理文档、图表、屏幕截图和照片等视觉信息，重点是对现实世界的理解。 xAI 创建了一个新的"RealWorldQA"基准来评估空间理解，其中 Grok-1.5V 的性能优于 GPT-4V 和 Gemini。 xAI 表示 1.5-V 将很快向测试人员和现有用户推出，预计未来几个月将在图像、音频和视频方面实现重大改进。关键：

Tesla FSD v13可能会是Grokking语言令牌。Grok-1.5V最让人兴奋的是解决自动驾驶中边缘情况的潜力。使用语言进行"思维链"将有助于汽车分解复杂的场景，用规则和反事实进行推理，并解释其决定。

Grok-1.5V能将"像素->动作"映射提升为"像素->语言->动作"。

网友认为：

这听起来像是通往AGI的最可行的道路。具有显式语言推理的多模态模型一致地推断出世界模型。

他们一直在使用一个LLM训练的"车道语言"的车道预测-可以说是最困难的问题之一。他们说，这个问题是棘手的。特斯拉发明了一种用于车道预测的"车道语言"。

假设FSD需要三个关键组成部分：感知、规划和控制，而Grok是实现这一目标的途径，这是否意味着我们解决了一个具有挑战性的物理世界问题，或者我们将进入AGI时代？

大模型不只是语言能力，还是对广阔世界的理解

机器人推理的通用智能AGI基础模型可能在今天就已经存在。LLM 不仅仅关乎特定语言的能力，还关乎对广阔世界的理解。

一种名为"Keypoint Action Tokens"（KAT）的框架，它使得机器人能够在上下文中进行模仿学习。

这项技术由Norman Di Palo和Edward Johns开发，展示了如何利用现成的基于文本的Transformers模型，在没有额外训练的情况下，进行少量样本的视觉模仿学习。这些模型能够将视觉观察（输入）和动作轨迹（输出）转换成一系列令牌（tokens），这些令牌可以被文本预训练的Transformer模型处理和生成。

KAT框架的核心思想是将文本预训练的Transformer模型重新用作序列到序列的模仿学习机器，通过视觉输入映射到动作输出。这种方法的一个关键优势是，尽管这些模型是在语言上训练的，但它们在将视觉关键点观察转换成动作轨迹方面表现出色，在数据量较少的情况下，性能与或优于现有的最先进技术。

KAT 并非在语言领域运行，而是利用基于文本的转换器（Transformers）在视觉和动作领域运行，从而实现高效的一般模仿学习，这为将自然语言模型重新应用于体现任务指明了前景广阔的新途径。

网友观点：

智能的重点是："作为思想工具 "的语言，不是 "作为交流工具 "的语言

我们都同意人类语言本身存在缺陷这一事实。LLM大模型的内部语言在功能上是相同的：一系列相互关联的已学概念，然后可以用来预测未来。当然，从本质上讲，它是完全不同的。

如果把这些权重和连接看作是 "内在思想的语言"，那么从技术上讲，将其描述为模型在训练过程中创造的语言是正确的。

与人类语言打交道的部分只有输入层和输出层。

https://www.jdon.com/73342.html