Elon mask X AI刚刚完成了重组,将业务划分为四大核心板块。
虽然我不是他的fans,但这次的重组相对合理。
我喜欢用类比的方式来理解,可以最大可能地节省大脑的存储空间(不要信那个没有根据的谎言:人类的大脑有无穷多的空间来存储,因为我们人类是以节能作为最一生存要件而存在的生物,也是地球上大脑消耗营养最多的动物)。
如果类比为人类的大脑,四大团队:
(1) Grok 是基础的语言模块;语音输入输出是语言模块的对外接口;
(2) Agent团队相当于基于大语言模块的决策思考和延申,像神经系统,基于它能操控的工具,像是人有了手与脚。(这里要注意,我们这个时间,还没有真正意义上的思维模块,LLM只是用耗能极大的语言来像鹦鹉学舌那样来"思考"我们的世界,所以,Agent与LLM事实上,都没有深层思考的能力).
(3) MacroHard相当于对环境的改造,相当于改造上下文的能力;
(4) 图像与视频模块,也很重要,一方面是特斯拉需求这种能力,也可以提供这方面的经验,另一方面,许多信息,分析视频要比底层理解快得多,这是人类思维强大的原因之一。
比如,去年一年我开发的,给普通人能参与高科技的可视化软件,其中一个工作就是分组,你还不要小瞧了分组这件事,这种我们人类与生俱来的能力,直到今天,对计算机来说,还是前沿科技。
原因是人类的视觉与大脑的思维是同步高速并行交换信息的,视觉深度参与了思维,分组这件事的困难在于以什么样的相邻视野来找到邻居(这里我把每个最小原子当作主动对象了),人类的思维是动态的,相关的论文我会整理一下单独写一节。我们的大脑,似乎是事先进行了设定,因为我们大脑只有7个高速cache,所以我们一般先设定为7个大的聚类,然后层层分组。而且这个过程是自然快速,潜意识的,潜意识的操作,反而是难于分析的。而且人类是双向检测的:实体和空白,并行在检测。
这些不多说了,所以,视觉模块也很重要。这几天字节跳动的Seedance 2.0也火了。作为工程程序员,对这种其实我也一直不是很关注,但这的确看来是有用的。
所以整体来看,xAI的团队重组,看来是合理的。当然我没资格评价了。只是我个人看法。
| 类比对象 | 团队/模块 | 功能定位 | 核心作用 |
|---|---|---|---|
| 基础语言模块 | Grok | 语音输入输出作为对外接口 | 承担基础语言处理功能 |
| 神经系统 | Agent团队 | 基于大语言模块的决策思考与延伸 | 操控工具(如手与脚),实现行动执行 |
| 环境改造能力 | MacroHard | 改造上下文的能力 | 对外部环境进行适配和改造 |
| 视觉处理模块 | 图像与视频模块 | 视频分析与信息提取 | 快速处理视觉信息,提供高效认知能力(特斯拉需求+经验复用) |
不过,这些还不是我想写本文的理由,原因是马斯克说一句话:
有人问他如何来训练(操控电脑的能力,AI操控电脑的能力),
他说,与特斯拉的训练是类似的。
这个我想展开说两句。
之前我也想过,但没想这么具体,能让人理解。因为我参与过许多工种,可能是工程类的应用软件比较多,但也算是长期从事过嵌入式开发,通信的物理层算法,以及linuxOS相关的编程。
以linux为例,它真的不是很像我们现实世界那么规范化。比如docker存在的理由之一(我是说之一,原OSjiao旨ist先不要生气啊)是类宏内核前提下,无法将glibc独立成一个完全客观版本无关的存在。
所以,以前的确是想过,有没有可能直接把linux作为可控上下文,agent在几乎不用人来监视的前提下自由在其中工作。这当然是有困难,我很情楚,所以这次openclaw是在macmini上,这是因为苹果公司的OS毕竟是有标准的,当然rethat,我也喜欢,但要钱嘛。这不个提了。再说多,有人准备骂我了,说我不是真正linux程序员了。
但我们退退想一想,我是这么认为的(人从事过kernel编程都会很小心,因为你知道同类是多么喜欢linux),这个世界真的需要那么多种linux版本吗?编程也是类似,隔三差五就出来一个新的,号称要干掉C和C++。
问题是今天我们人类,我们出门要带电子显微镜去看每个植物的细胞是怎么构成的吗?
如果马斯克说的是对的,那么我们可以创造一种相对稳定和全面的操作系统(忘了说被印度人管着,25年没有任何进步的windows,虽然我还在用着,因为它现在还真是不灵啊,没有一个视觉识别agent,更没有docker),然后训练就真的与训练自动驾驶类似了,当然计算机世界,比现实世界复杂得多得多,但我们不一定非要在3维世界中训练啊,计算可能有超过3维的视觉模型来识别计算机世界的场景。
这是我比较震撼的。不是因为这个事我没有想过,而是马斯克看到了,虽然他也不一定能成功,但至少当前方向是正确的,我们可能会在几年后看到这样一个时代:
我们先给Agent营造了一个对版本稳定的起始OS和glibc以及linux的组件,然后它像塔吊,或编译器gcc 那样,不断地在它可以理解的前提下的自举,来不断完善它的生存环境。
那么一个时代就真的开启了!因为我们再去开发、定制自己的linux这件事,还有多大意义呢?到少是开发环境,没有什么意义了。
关于MarcHard这个相当于在上下文中,也就是说,Mask也知道,去适应环境,越到后面,远不如改变环境来得直接!!!
这个我是深有体会的!比如,自动测试,每次我们的产品升级后,自动测试的脚本就失效了,我的硕士论文写的就是这个问题。
如果你想让你的脚本能够自动与被测对象同步升级,不论你付出多大代价也不一定能成,
(说句题外话,在AI时代,自动测试可是极为重要的),解决的前提(我是说前提),是可控。也就是自动测试方,与产品方,共同同一套DNA(Schema)才能做到。二者才能同步进化。
看来这一点,马斯克也想到的。这也让我很吃惊。虽然人人都知道这样,但他是当作一件事来做的。

我让AI画了张图,不太好。其实
外界-->GROK-->Agent->自定义的可控环境(上下文)