从这次xAI重组说开去--用类比的思维来理解

Elon mask X AI刚刚完成了重组，将业务划分为四大核心板块。

虽然我不是他的fans,但这次的重组相对合理。

我喜欢用类比的方式来理解，可以最大可能地节省大脑的存储空间（不要信那个没有根据的谎言：人类的大脑有无穷多的空间来存储，因为我们人类是以节能作为最一生存要件而存在的生物，也是地球上大脑消耗营养最多的动物）。

如果类比为人类的大脑，四大团队：

(1) Grok 是基础的语言模块；语音输入输出是语言模块的对外接口；

(2) Agent团队相当于基于大语言模块的决策思考和延申，像神经系统，基于它能操控的工具，像是人有了手与脚。(这里要注意，我们这个时间，还没有真正意义上的思维模块，LLM只是用耗能极大的语言来像鹦鹉学舌那样来"思考"我们的世界，所以，Agent与LLM事实上，都没有深层思考的能力).

(3) MacroHard相当于对环境的改造，相当于改造上下文的能力；

(4) 图像与视频模块，也很重要，一方面是特斯拉需求这种能力，也可以提供这方面的经验，另一方面，许多信息，分析视频要比底层理解快得多，这是人类思维强大的原因之一。

比如，去年一年我开发的，给普通人能参与高科技的可视化软件，其中一个工作就是分组，你还不要小瞧了分组这件事，这种我们人类与生俱来的能力，直到今天，对计算机来说，还是前沿科技。

原因是人类的视觉与大脑的思维是同步高速并行交换信息的，视觉深度参与了思维，分组这件事的困难在于以什么样的相邻视野来找到邻居（这里我把每个最小原子当作主动对象了），人类的思维是动态的，相关的论文我会整理一下单独写一节。我们的大脑，似乎是事先进行了设定，因为我们大脑只有7个高速cache，所以我们一般先设定为7个大的聚类，然后层层分组。而且这个过程是自然快速，潜意识的，潜意识的操作，反而是难于分析的。而且人类是双向检测的：实体和空白，并行在检测。

这些不多说了，所以，视觉模块也很重要。这几天字节跳动的Seedance 2.0也火了。作为工程程序员，对这种其实我也一直不是很关注，但这的确看来是有用的。

所以整体来看，xAI的团队重组，看来是合理的。当然我没资格评价了。只是我个人看法。

类比对象	团队/模块	功能定位	核心作用
基础语言模块	Grok	语音输入输出作为对外接口	承担基础语言处理功能
神经系统	Agent团队	基于大语言模块的决策思考与延伸	操控工具（如手与脚），实现行动执行
环境改造能力	MacroHard	改造上下文的能力	对外部环境进行适配和改造
视觉处理模块	图像与视频模块	视频分析与信息提取	快速处理视觉信息，提供高效认知能力（特斯拉需求+经验复用）

不过，这些还不是我想写本文的理由，原因是马斯克说一句话：
有人问他如何来训练（操控电脑的能力，AI操控电脑的能力），
他说，与特斯拉的训练是类似的。

这个我想展开说两句。

之前我也想过，但没想这么具体，能让人理解。因为我参与过许多工种，可能是工程类的应用软件比较多，但也算是长期从事过嵌入式开发，通信的物理层算法，以及linuxOS相关的编程。

以linux为例，它真的不是很像我们现实世界那么规范化。比如docker存在的理由之一（我是说之一，原OSjiao旨ist先不要生气啊）是类宏内核前提下，无法将glibc独立成一个完全客观版本无关的存在。

所以，以前的确是想过，有没有可能直接把linux作为可控上下文，agent在几乎不用人来监视的前提下自由在其中工作。这当然是有困难，我很情楚，所以这次openclaw是在macmini上，这是因为苹果公司的OS毕竟是有标准的，当然rethat，我也喜欢，但要钱嘛。这不个提了。再说多，有人准备骂我了，说我不是真正linux程序员了。

但我们退退想一想，我是这么认为的（人从事过kernel编程都会很小心，因为你知道同类是多么喜欢linux）,这个世界真的需要那么多种linux版本吗？编程也是类似，隔三差五就出来一个新的，号称要干掉C和C++。

问题是今天我们人类，我们出门要带电子显微镜去看每个植物的细胞是怎么构成的吗？

如果马斯克说的是对的，那么我们可以创造一种相对稳定和全面的操作系统（忘了说被印度人管着，25年没有任何进步的windows,虽然我还在用着，因为它现在还真是不灵啊，没有一个视觉识别agent，更没有docker）,然后训练就真的与训练自动驾驶类似了，当然计算机世界，比现实世界复杂得多得多，但我们不一定非要在3维世界中训练啊，计算可能有超过3维的视觉模型来识别计算机世界的场景。

这是我比较震撼的。不是因为这个事我没有想过，而是马斯克看到了，虽然他也不一定能成功，但至少当前方向是正确的，我们可能会在几年后看到这样一个时代：

我们先给Agent营造了一个对版本稳定的起始OS和glibc以及linux的组件，然后它像塔吊，或编译器gcc 那样，不断地在它可以理解的前提下的自举，来不断完善它的生存环境。

那么一个时代就真的开启了！因为我们再去开发、定制自己的linux这件事，还有多大意义呢？到少是开发环境，没有什么意义了。

关于MarcHard这个相当于在上下文中，也就是说，Mask也知道，去适应环境，越到后面，远不如改变环境来得直接！！！

这个我是深有体会的！比如，自动测试，每次我们的产品升级后，自动测试的脚本就失效了，我的硕士论文写的就是这个问题。

如果你想让你的脚本能够自动与被测对象同步升级，不论你付出多大代价也不一定能成，

（说句题外话，在AI时代，自动测试可是极为重要的），解决的前提（我是说前提），是可控。也就是自动测试方，与产品方，共同同一套DNA(Schema)才能做到。二者才能同步进化。

看来这一点，马斯克也想到的。这也让我很吃惊。虽然人人都知道这样，但他是当作一件事来做的。

我让AI画了张图，不太好。其实

外界-->GROK-->Agent->自定义的可控环境（上下文）