AGI来了?特拉斯用大模型帮助自动驾驶

Elon Musk 的 xAI 刚刚推出了Grok-1.5 Vision,这是对开源模型的多模式升级,允许处理视觉信息。 细节:

Grok 1.5V 现在可以处理文档、图表、屏幕截图和照片等视觉信息,重点是对现实世界的理解。 xAI 创建了一个新的"RealWorldQA"基准来评估空间理解,其中 Grok-1.5V 的性能优于 GPT-4V 和 Gemini。 xAI 表示 1.5-V 将很快向测试人员和现有用户推出,预计未来几个月将在图像、音频和视频方面实现重大改进。 关键:

Tesla FSD v13可能会是Grokking语言令牌。Grok-1.5V最让人兴奋的是解决自动驾驶中边缘情况的潜力。使用语言进行"思维链"将有助于汽车分解复杂的场景,用规则和反事实进行推理,并解释其决定。

Grok-1.5V能将"像素->动作"映射提升为"像素->语言->动作"。

网友认为:

这听起来像是通往AGI的最可行的道路。具有显式语言推理的多模态模型一致地推断出世界模型。

他们一直在使用一个LLM训练的"车道语言"的车道预测-可以说是最困难的问题之一。他们说,这个问题是棘手的。特斯拉发明了一种用于车道预测的"车道语言"。

假设FSD需要三个关键组成部分:感知、规划和控制,而Grok是实现这一目标的途径,这是否意味着我们解决了一个具有挑战性的物理世界问题,或者我们将进入AGI时代?

大模型不只是语言能力,还是对广阔世界的理解

机器人推理的通用智能AGI基础模型可能在今天就已经存在。LLM 不仅仅关乎特定语言的能力,还关乎对广阔世界的理解。

一种名为"Keypoint Action Tokens"(KAT)的框架,它使得机器人能够在上下文中进行模仿学习。

这项技术由Norman Di Palo和Edward Johns开发,展示了如何利用现成的基于文本的Transformers模型,在没有额外训练的情况下,进行少量样本的视觉模仿学习。这些模型能够将视觉观察(输入)和动作轨迹(输出)转换成一系列令牌(tokens),这些令牌可以被文本预训练的Transformer模型处理和生成。

KAT框架的核心思想是将文本预训练的Transformer模型重新用作序列到序列的模仿学习机器,通过视觉输入映射到动作输出。这种方法的一个关键优势是,尽管这些模型是在语言上训练的,但它们在将视觉关键点观察转换成动作轨迹方面表现出色,在数据量较少的情况下,性能与或优于现有的最先进技术。

KAT 并非在语言领域运行,而是利用基于文本的转换器(Transformers)在视觉和动作领域运行,从而实现高效的一般模仿学习,这为将自然语言模型重新应用于体现任务指明了前景广阔的新途径。

网友观点:

智能的重点是:"作为思想工具 "的语言,不是 "作为交流工具 "的语言

我们都同意人类语言本身存在缺陷这一事实。LLM大模型 的内部语言在功能上是相同的:一系列相互关联的已学概念,然后可以用来预测未来。当然,从本质上讲,它是完全不同的。

如果把这些权重和连接看作是 "内在思想的语言",那么从技术上讲,将其描述为模型在训练过程中创造的语言是正确的。

与人类语言打交道的部分只有输入层和输出层。

https://www.jdon.com/73342.html

相关推荐
Jiaberrr1 小时前
JS实现树形结构数据中特定节点及其子节点显示属性设置的技巧(可用于树形节点过滤筛选)
前端·javascript·tree·树形·过滤筛选
我码玄黄1 小时前
THREE.js:网页上的3D世界构建者
开发语言·javascript·3d
爱喝水的小鼠2 小时前
Vue3(一) Vite创建Vue3工程,选项式API与组合式API;setup的使用;Vue中的响应式ref,reactive
前端·javascript·vue.js
小晗同学2 小时前
Vue 实现高级穿梭框 Transfer 封装
javascript·vue.js·elementui
WeiShuai2 小时前
vue-cli3使用DllPlugin优化webpack打包性能
前端·javascript
forwardMyLife2 小时前
element-plus的面包屑组件el-breadcrumb
javascript·vue.js·ecmascript
mez_Blog3 小时前
个人小结(2.0)
前端·javascript·vue.js·学习·typescript
珊珊而川4 小时前
【浏览器面试真题】sessionStorage和localStorage
前端·javascript·面试
森叶4 小时前
Electron 安装包 asar 解压定位问题实战
前端·javascript·electron
深情废杨杨4 小时前
前端vue-插值表达式和v-html的区别
前端·javascript·vue.js