从语言生成到世界交互：AGI的具身化演进之路

子玥酱 （掘金 / 知乎 / CSDN / 简书同名）

大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，

在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向： 前端 / 跨端 / 小程序 / 移动端工程化 内容平台： 掘金、知乎、CSDN、简书 创作特点： 实战导向、源码拆解、少空谈多落地 **文章状态：**长期稳定更新，大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用"，而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍，希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨

👋 如果你正在做前端，或准备长期走前端这条路

📚 关注我，第一时间获取前端行业趋势与实践总结

🎁 可领取 11 类前端进阶学习资源 （工程化 / 框架 / 跨端 / 面试 / 架构）

💡 一起把技术学"明白"，也用"到位"

持续写作，持续进阶。

愿我们都能在代码和生活里，走得更稳一点 🌱

文章目录

引言

过去几年，大模型的发展速度快得惊人。很多人第一次接触 ChatGPT 时都会有一种感觉：

text 复制代码

AI真的开始理解语言了

它能写文章、能写代码、能翻译、能分析、甚至能够完成复杂推理。

于是很多人开始认为：

AGI可能已经不远了。

但如果仔细观察会发现，这些能力有一个共同特点：

text 复制代码

全部停留在语言空间

无论是：

写邮件
写代码
回答问题
总结文档

本质上都是：

text 复制代码

Token → Token

也就是：

text 复制代码

语言生成

然而现实世界并不是由语言组成的，现实世界由：

人
设备
空间
物体
环境

共同构成。于是一个越来越重要的问题开始出现：

text 复制代码

AI什么时候才能真正进入现实世界？

换句话说：

AGI真正缺少的到底是什么？

后来越来越多研究者发现，问题可能并不是：

text 复制代码

模型不够聪明

而是：

text 复制代码

模型没有身体

这也意味着，AGI的发展主线正在发生变化。

从：

text 复制代码

Language Generation

走向：

text 复制代码

World Interaction

即：

text 复制代码

世界交互

而这条路线的名字就是：

text 复制代码

具身化（Embodiment）

一、为什么语言能力不等于AGI

过去两年，行业最大的突破来自：

text 复制代码

LLM

即：

text 复制代码

大语言模型

它让AI获得了前所未有的能力。例如，用户说：

text 复制代码

帮我制定创业计划

模型能够输出：

市场分析
商业模式
风险评估
实施路线

看起来已经非常接近人类，但这里有一个关键问题：

text 复制代码

它只是说出来

却无法：

text 复制代码

做出来

例如，AI知道如何开咖啡店，却无法：

租店铺
安装设备
摆放桌椅
接待顾客

因为这些属于：

text 复制代码

现实行动

而不是语言生成。

二、人类智能为什么来自世界交互

很多人会忽略一个事实，人类并不是先学语言，而是先学世界。婴儿出生以后，最先发生的是：

text 复制代码

触摸

然后：

text 复制代码

观察

接着：

text 复制代码

爬行

再然后：

text 复制代码

行走

最后才是：

text 复制代码

语言

也就是说：

text 复制代码

世界经验
先于
语言经验

因此很多认知科学家认为：

智能本质上来自与环境的持续交互。

而不是语言本身。

三、为什么大模型开始遇到瓶颈

最近两年行业出现一个明显趋势，参数越来越大、数据越来越多，但能力提升却开始放缓。

原因很简单，互联网数据本质上属于：

text 复制代码

间接经验

例如，模型知道：

text 复制代码

火是热的

因为训练数据告诉它，但它从未真正：

text 复制代码

碰过火

模型知道：

text 复制代码

杯子会掉下来

却从未真正：

text 复制代码

推倒杯子

这意味着：

text 复制代码

知识
≠
经验

而经验正是AGI最缺失的部分。

四、第一次转变：从语言模型到多模态模型

于是行业开始进入下一阶段，即：

text 复制代码

Multimodal AI

多模态模型，过去：

text 复制代码

文本
→
文本

现在：

text 复制代码

图像
语音
视频
文本

统一进入模型，这一步极其重要。因为AI第一次开始：

text 复制代码

感知世界

例如，看到一张图片。不仅识别：

text 复制代码

一只猫

还能理解：

text 复制代码

猫正在跳跃

世界开始变得立体。

五、第二次转变：从感知到理解

但感知仍然不够。例如，看到：

text 复制代码

一个杯子放在桌边

真正重要的问题是：

text 复制代码

接下来会发生什么？

如果被碰到：

text 复制代码

会掉下来

如果杯子里有水：

text 复制代码

会洒出来

这时候，AI需要拥有：

text 复制代码

世界模型

即：

text 复制代码

World Model

它负责预测未来，这是AGI迈出的关键一步。

六、第三次转变：从理解到规划

知道未来还不够，还需要决定：

text 复制代码

应该怎么做

例如，机器人看见：

text 复制代码

地上有障碍物

接下来要：

text 复制代码

绕过去

还是：

text 复制代码

搬开它

或者：

text 复制代码

换条路线

这时候，AI需要：

text 复制代码

Planner

规划系统。

从：

text 复制代码

预测未来

变成：

text 复制代码

选择未来

七、第四次转变：从规划到行动

这是最难的一步，因为现实世界充满不确定性。

例如，机器人准备抓杯子。

规划阶段：

text 复制代码

抓取成功

现实执行：

text 复制代码

杯子滑了

规划：

text 复制代码

顺利通过

现实：

text 复制代码

有人突然经过

因此：

text 复制代码

行动
=
持续反馈

需要形成：

text 复制代码

感知
 ↓
决策
 ↓
执行
 ↓
反馈

闭环系统，这也是具身智能真正困难的地方。

八、Agent为什么是具身化的过渡阶段

很多人觉得：

text 复制代码

Agent和机器人没关系

其实非常相关，因为Agent第一次让AI学会：

text 复制代码

完成任务

例如，用户说：

text 复制代码

帮我安排出差

Agent会：

text 复制代码

查机票
 ↓
订酒店
 ↓
安排日程
 ↓
发送邮件

这里已经出现：

text 复制代码

目标驱动

只是行动发生在数字世界，而具身AI只是进一步把行动扩展到：

text 复制代码

物理世界

九、真正的AGI一定是具身的

很多研究者越来越认同一个观点：

没有世界交互能力的智能，不是完整智能。

原因很简单，如果AI永远只能：

text 复制代码

回答问题

那么它始终是：

text 复制代码

观察者

而真正的智能必须能够：

text 复制代码

影响环境

例如：

完成任务
改变状态
达成目标

这才是真正意义上的智能。

十、鸿蒙生态其实也在走向Runtime时代

有趣的是，如果观察鸿蒙的发展路径，会发现与AGI极其相似。

过去：应用是核心。

后来：服务成为核心。

再后来：Task 成为核心。

未来：Runtime 可能成为核心。

因为真正重要的已经不是：

text 复制代码

页面

而是：

text 复制代码

状态连续性

这与具身智能强调的：

text 复制代码

上下文连续性

本质一致。

十一、未来AI将从"回答机器"变成"世界参与者"

过去：

text 复制代码

ChatGPT

解决的是：

text 复制代码

问答

未来：

text 复制代码

Embodied AI

解决的是：

text 复制代码

执行

用户不再说：

text 复制代码

告诉我怎么做

而是：

text 复制代码

替我完成

这将是整个行业最大的变化。

十二、AGI真正缺失的最后一块拼图

回顾整个发展过程，AI已经拥有：

text 复制代码

知识

拥有：

text 复制代码

推理

拥有：

text 复制代码

规划

甚至拥有：

text 复制代码

Agent能力

但仍然缺少：

text 复制代码

真实世界经验

而具身化正是在补齐这一块拼图。

十三、未来的完整架构

未来AGI系统可能演化成：

text 复制代码

Perception
      ↓
World Model
      ↓
Reasoning
      ↓
Planner
      ↓
Agent Runtime
      ↓
Physical Runtime
      ↓
Environment

形成真正的智能闭环。

十四、总结

如果一句话总结AGI的演进方向：

从生成语言，到交互世界。

过去的大模型：

text 复制代码

预测下一个词

未来的AGI：

text 复制代码

预测下一个世界状态

过去的AI：

text 复制代码

回答问题

未来的AI：

text 复制代码

完成任务

过去：

text 复制代码

Language Generation

未来：

text 复制代码

World Interaction

最终你会发现：AGI真正的终点，也许从来不是更聪明地说话。

而是：

能够持续理解世界、影响世界、改变世界。

而具身化，正是从语言智能迈向通用智能的必经之路。