AGI来了?特拉斯用大模型帮助自动驾驶

Elon Musk 的 xAI 刚刚推出了Grok-1.5 Vision,这是对开源模型的多模式升级,允许处理视觉信息。 细节:

Grok 1.5V 现在可以处理文档、图表、屏幕截图和照片等视觉信息,重点是对现实世界的理解。 xAI 创建了一个新的"RealWorldQA"基准来评估空间理解,其中 Grok-1.5V 的性能优于 GPT-4V 和 Gemini。 xAI 表示 1.5-V 将很快向测试人员和现有用户推出,预计未来几个月将在图像、音频和视频方面实现重大改进。 关键:

Tesla FSD v13可能会是Grokking语言令牌。Grok-1.5V最让人兴奋的是解决自动驾驶中边缘情况的潜力。使用语言进行"思维链"将有助于汽车分解复杂的场景,用规则和反事实进行推理,并解释其决定。

Grok-1.5V能将"像素->动作"映射提升为"像素->语言->动作"。

网友认为:

这听起来像是通往AGI的最可行的道路。具有显式语言推理的多模态模型一致地推断出世界模型。

他们一直在使用一个LLM训练的"车道语言"的车道预测-可以说是最困难的问题之一。他们说,这个问题是棘手的。特斯拉发明了一种用于车道预测的"车道语言"。

假设FSD需要三个关键组成部分:感知、规划和控制,而Grok是实现这一目标的途径,这是否意味着我们解决了一个具有挑战性的物理世界问题,或者我们将进入AGI时代?

大模型不只是语言能力,还是对广阔世界的理解

机器人推理的通用智能AGI基础模型可能在今天就已经存在。LLM 不仅仅关乎特定语言的能力,还关乎对广阔世界的理解。

一种名为"Keypoint Action Tokens"(KAT)的框架,它使得机器人能够在上下文中进行模仿学习。

这项技术由Norman Di Palo和Edward Johns开发,展示了如何利用现成的基于文本的Transformers模型,在没有额外训练的情况下,进行少量样本的视觉模仿学习。这些模型能够将视觉观察(输入)和动作轨迹(输出)转换成一系列令牌(tokens),这些令牌可以被文本预训练的Transformer模型处理和生成。

KAT框架的核心思想是将文本预训练的Transformer模型重新用作序列到序列的模仿学习机器,通过视觉输入映射到动作输出。这种方法的一个关键优势是,尽管这些模型是在语言上训练的,但它们在将视觉关键点观察转换成动作轨迹方面表现出色,在数据量较少的情况下,性能与或优于现有的最先进技术。

KAT 并非在语言领域运行,而是利用基于文本的转换器(Transformers)在视觉和动作领域运行,从而实现高效的一般模仿学习,这为将自然语言模型重新应用于体现任务指明了前景广阔的新途径。

网友观点:

智能的重点是:"作为思想工具 "的语言,不是 "作为交流工具 "的语言

我们都同意人类语言本身存在缺陷这一事实。LLM大模型 的内部语言在功能上是相同的:一系列相互关联的已学概念,然后可以用来预测未来。当然,从本质上讲,它是完全不同的。

如果把这些权重和连接看作是 "内在思想的语言",那么从技术上讲,将其描述为模型在训练过程中创造的语言是正确的。

与人类语言打交道的部分只有输入层和输出层。

https://www.jdon.com/73342.html

相关推荐
追光少年33221 小时前
Learning Vue 读书笔记 Chapter 4
前端·javascript·vue.js
软件2051 小时前
【Vite + Vue + Ts 项目三个 tsconfig 文件】
前端·javascript·vue.js
LCG元3 小时前
Vue.js组件开发-如何实现异步组件
前端·javascript·vue.js
wl85113 小时前
vue入门到实战 三
前端·javascript·vue.js
ljz20164 小时前
本地搭建deepseek-r1
前端·javascript·vue.js
傻小胖4 小时前
vue3中Teleport的用法以及使用场景
前端·javascript·vue.js
wl85115 小时前
Vue 入门到实战 七
前端·javascript·vue.js
三气归来5 小时前
轮播库-swiper使用案例
javascript
一 乐7 小时前
基于vue船运物流管理系统设计与实现(源码+数据库+文档)
前端·javascript·数据库·vue.js·spring boot·后端·船运系统
m0_528723817 小时前
在React中使用redux
前端·javascript·react.js