从语言生成到世界交互:AGI的具身化演进之路


子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案,

在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向: 前端 / 跨端 / 小程序 / 移动端工程化 内容平台: 掘金、知乎、CSDN、简书 创作特点: 实战导向、源码拆解、少空谈多落地 **文章状态:**长期稳定更新,大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用",而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨

👋 如果你正在做前端,或准备长期走前端这条路

📚 关注我,第一时间获取前端行业趋势与实践总结

🎁 可领取 11 类前端进阶学习资源 (工程化 / 框架 / 跨端 / 面试 / 架构)

💡 一起把技术学"明白",也用"到位"

持续写作,持续进阶。

愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

引言

过去几年,大模型的发展速度快得惊人。很多人第一次接触 ChatGPT 时都会有一种感觉:

text 复制代码
AI真的开始理解语言了

它能写文章、能写代码、能翻译、能分析、甚至能够完成复杂推理。

于是很多人开始认为:

AGI可能已经不远了。

但如果仔细观察会发现,这些能力有一个共同特点:

text 复制代码
全部停留在语言空间

无论是:

  • 写邮件
  • 写代码
  • 回答问题
  • 总结文档

本质上都是:

text 复制代码
Token → Token

也就是:

text 复制代码
语言生成

然而现实世界并不是由语言组成的,现实世界由:

  • 设备
  • 空间
  • 物体
  • 环境

共同构成。于是一个越来越重要的问题开始出现:

text 复制代码
AI什么时候才能真正进入现实世界?

换句话说:

AGI真正缺少的到底是什么?

后来越来越多研究者发现,问题可能并不是:

text 复制代码
模型不够聪明

而是:

text 复制代码
模型没有身体

这也意味着,AGI的发展主线正在发生变化。

从:

text 复制代码
Language Generation

走向:

text 复制代码
World Interaction

即:

text 复制代码
世界交互

而这条路线的名字就是:

text 复制代码
具身化(Embodiment)

一、为什么语言能力不等于AGI

过去两年,行业最大的突破来自:

text 复制代码
LLM

即:

text 复制代码
大语言模型

它让AI获得了前所未有的能力。例如,用户说:

text 复制代码
帮我制定创业计划

模型能够输出:

  • 市场分析
  • 商业模式
  • 风险评估
  • 实施路线

看起来已经非常接近人类,但这里有一个关键问题:

text 复制代码
它只是说出来

却无法:

text 复制代码
做出来

例如,AI知道如何开咖啡店,却无法:

  • 租店铺
  • 安装设备
  • 摆放桌椅
  • 接待顾客

因为这些属于:

text 复制代码
现实行动

而不是语言生成。

二、人类智能为什么来自世界交互

很多人会忽略一个事实,人类并不是先学语言,而是先学世界。婴儿出生以后,最先发生的是:

text 复制代码
触摸

然后:

text 复制代码
观察

接着:

text 复制代码
爬行

再然后:

text 复制代码
行走

最后才是:

text 复制代码
语言

也就是说:

text 复制代码
世界经验
先于
语言经验

因此很多认知科学家认为:

智能本质上来自与环境的持续交互。

而不是语言本身。

三、为什么大模型开始遇到瓶颈

最近两年行业出现一个明显趋势,参数越来越大、数据越来越多,但能力提升却开始放缓。

原因很简单,互联网数据本质上属于:

text 复制代码
间接经验

例如,模型知道:

text 复制代码
火是热的

因为训练数据告诉它,但它从未真正:

text 复制代码
碰过火

模型知道:

text 复制代码
杯子会掉下来

却从未真正:

text 复制代码
推倒杯子

这意味着:

text 复制代码
知识
≠
经验

而经验正是AGI最缺失的部分。

四、第一次转变:从语言模型到多模态模型

于是行业开始进入下一阶段,即:

text 复制代码
Multimodal AI

多模态模型,过去:

text 复制代码
文本
→
文本

现在:

text 复制代码
图像
语音
视频
文本

统一进入模型,这一步极其重要。因为AI第一次开始:

text 复制代码
感知世界

例如,看到一张图片。不仅识别:

text 复制代码
一只猫

还能理解:

text 复制代码
猫正在跳跃

世界开始变得立体。

五、第二次转变:从感知到理解

但感知仍然不够。例如,看到:

text 复制代码
一个杯子放在桌边

真正重要的问题是:

text 复制代码
接下来会发生什么?

如果被碰到:

text 复制代码
会掉下来

如果杯子里有水:

text 复制代码
会洒出来

这时候,AI需要拥有:

text 复制代码
世界模型

即:

text 复制代码
World Model

它负责预测未来,这是AGI迈出的关键一步。

六、第三次转变:从理解到规划

知道未来还不够,还需要决定:

text 复制代码
应该怎么做

例如,机器人看见:

text 复制代码
地上有障碍物

接下来要:

text 复制代码
绕过去

还是:

text 复制代码
搬开它

或者:

text 复制代码
换条路线

这时候,AI需要:

text 复制代码
Planner

规划系统。

从:

text 复制代码
预测未来

变成:

text 复制代码
选择未来

七、第四次转变:从规划到行动

这是最难的一步,因为现实世界充满不确定性。

例如,机器人准备抓杯子。

规划阶段:

text 复制代码
抓取成功

现实执行:

text 复制代码
杯子滑了

规划:

text 复制代码
顺利通过

现实:

text 复制代码
有人突然经过

因此:

text 复制代码
行动
=
持续反馈

需要形成:

text 复制代码
感知
 ↓
决策
 ↓
执行
 ↓
反馈

闭环系统,这也是具身智能真正困难的地方。

八、Agent为什么是具身化的过渡阶段

很多人觉得:

text 复制代码
Agent和机器人没关系

其实非常相关,因为Agent第一次让AI学会:

text 复制代码
完成任务

例如,用户说:

text 复制代码
帮我安排出差

Agent会:

text 复制代码
查机票
 ↓
订酒店
 ↓
安排日程
 ↓
发送邮件

这里已经出现:

text 复制代码
目标驱动

只是行动发生在数字世界,而具身AI只是进一步把行动扩展到:

text 复制代码
物理世界

九、真正的AGI一定是具身的

很多研究者越来越认同一个观点:

没有世界交互能力的智能,不是完整智能。

原因很简单,如果AI永远只能:

text 复制代码
回答问题

那么它始终是:

text 复制代码
观察者

而真正的智能必须能够:

text 复制代码
影响环境

例如:

  • 完成任务
  • 改变状态
  • 达成目标

这才是真正意义上的智能。

十、鸿蒙生态其实也在走向Runtime时代

有趣的是,如果观察鸿蒙的发展路径,会发现与AGI极其相似。

过去:应用是核心。

后来:服务成为核心。

再后来:Task 成为核心。

未来:Runtime 可能成为核心。

因为真正重要的已经不是:

text 复制代码
页面

而是:

text 复制代码
状态连续性

这与具身智能强调的:

text 复制代码
上下文连续性

本质一致。

十一、未来AI将从"回答机器"变成"世界参与者"

过去:

text 复制代码
ChatGPT

解决的是:

text 复制代码
问答

未来:

text 复制代码
Embodied AI

解决的是:

text 复制代码
执行

用户不再说:

text 复制代码
告诉我怎么做

而是:

text 复制代码
替我完成

这将是整个行业最大的变化。

十二、AGI真正缺失的最后一块拼图

回顾整个发展过程,AI已经拥有:

text 复制代码
知识

拥有:

text 复制代码
推理

拥有:

text 复制代码
规划

甚至拥有:

text 复制代码
Agent能力

但仍然缺少:

text 复制代码
真实世界经验

而具身化正是在补齐这一块拼图。

十三、未来的完整架构

未来AGI系统可能演化成:

text 复制代码
Perception
      ↓
World Model
      ↓
Reasoning
      ↓
Planner
      ↓
Agent Runtime
      ↓
Physical Runtime
      ↓
Environment

形成真正的智能闭环。

十四、总结

如果一句话总结AGI的演进方向:

从生成语言,到交互世界。

过去的大模型:

text 复制代码
预测下一个词

未来的AGI:

text 复制代码
预测下一个世界状态

过去的AI:

text 复制代码
回答问题

未来的AI:

text 复制代码
完成任务

过去:

text 复制代码
Language Generation

未来:

text 复制代码
World Interaction

最终你会发现:AGI真正的终点,也许从来不是更聪明地说话。

而是:

能够持续理解世界、影响世界、改变世界。

而具身化,正是从语言智能迈向通用智能的必经之路。

相关推荐
前端不太难2 小时前
具身智能:下一代人工智能的产业新范式
人工智能·状态模式
向量引擎12 小时前
告别多源向量API适配噩梦:一套通用中转层的设计与实践
人工智能·gpt·aigc·agi·api调用
向量引擎15 小时前
当搜索开始替人整理答案:我重新理解了向量检索和 API 中间层
人工智能·gpt·aigc·ai编程·ai写作·key·agi
许彰午20 小时前
状态模式实战——Row对象的状态机
java·ui·状态模式
Ulyanov21 小时前
深入QML-Python通信 构建响应式交互界面的桥梁设计:QML+PySide6现代开发入门(五)
开发语言·python·算法·交互·qml·系统仿真
郝学胜-神的一滴21 小时前
Qt 高级开发 019:从零定制登录窗口按钮、Logo 样式与交互悬浮效果
开发语言·c++·qt·程序人生·交互·用户界面
前端不太难1 天前
具身智能:AI从“理解世界”到“改造世界”的关键一步
人工智能·状态模式
LONGZETECH1 天前
Unity 3D工业级教育软件实战:200+无人机装调任务的碰撞检测与交互落地
3d·unity·架构·游戏引擎·无人机·交互·cocos2d
不羁的木木1 天前
Form Kit(卡片开发服务)学习笔记04-交互事件与跳转处理
笔记·学习·交互·harmonyos