

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)
大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。
我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案,
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。
技术方向: 前端 / 跨端 / 小程序 / 移动端工程化 内容平台: 掘金、知乎、CSDN、简书 创作特点: 实战导向、源码拆解、少空谈多落地 **文章状态:**长期稳定更新,大量原创输出
我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用",而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。
子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取 11 类前端进阶学习资源 (工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学"明白",也用"到位"
持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱
文章目录
引言
过去几年,大模型的发展速度快得惊人。很多人第一次接触 ChatGPT 时都会有一种感觉:
text
AI真的开始理解语言了
它能写文章、能写代码、能翻译、能分析、甚至能够完成复杂推理。
于是很多人开始认为:
AGI可能已经不远了。
但如果仔细观察会发现,这些能力有一个共同特点:
text
全部停留在语言空间
无论是:
- 写邮件
- 写代码
- 回答问题
- 总结文档
本质上都是:
text
Token → Token
也就是:
text
语言生成
然而现实世界并不是由语言组成的,现实世界由:
- 人
- 设备
- 空间
- 物体
- 环境
共同构成。于是一个越来越重要的问题开始出现:
text
AI什么时候才能真正进入现实世界?
换句话说:
AGI真正缺少的到底是什么?
后来越来越多研究者发现,问题可能并不是:
text
模型不够聪明
而是:
text
模型没有身体
这也意味着,AGI的发展主线正在发生变化。
从:
text
Language Generation
走向:
text
World Interaction
即:
text
世界交互
而这条路线的名字就是:
text
具身化(Embodiment)
一、为什么语言能力不等于AGI
过去两年,行业最大的突破来自:
text
LLM
即:
text
大语言模型
它让AI获得了前所未有的能力。例如,用户说:
text
帮我制定创业计划
模型能够输出:
- 市场分析
- 商业模式
- 风险评估
- 实施路线
看起来已经非常接近人类,但这里有一个关键问题:
text
它只是说出来
却无法:
text
做出来
例如,AI知道如何开咖啡店,却无法:
- 租店铺
- 安装设备
- 摆放桌椅
- 接待顾客
因为这些属于:
text
现实行动
而不是语言生成。
二、人类智能为什么来自世界交互
很多人会忽略一个事实,人类并不是先学语言,而是先学世界。婴儿出生以后,最先发生的是:
text
触摸
然后:
text
观察
接着:
text
爬行
再然后:
text
行走
最后才是:
text
语言
也就是说:
text
世界经验
先于
语言经验
因此很多认知科学家认为:
智能本质上来自与环境的持续交互。
而不是语言本身。
三、为什么大模型开始遇到瓶颈
最近两年行业出现一个明显趋势,参数越来越大、数据越来越多,但能力提升却开始放缓。
原因很简单,互联网数据本质上属于:
text
间接经验
例如,模型知道:
text
火是热的
因为训练数据告诉它,但它从未真正:
text
碰过火
模型知道:
text
杯子会掉下来
却从未真正:
text
推倒杯子
这意味着:
text
知识
≠
经验
而经验正是AGI最缺失的部分。
四、第一次转变:从语言模型到多模态模型
于是行业开始进入下一阶段,即:
text
Multimodal AI
多模态模型,过去:
text
文本
→
文本
现在:
text
图像
语音
视频
文本
统一进入模型,这一步极其重要。因为AI第一次开始:
text
感知世界
例如,看到一张图片。不仅识别:
text
一只猫
还能理解:
text
猫正在跳跃
世界开始变得立体。
五、第二次转变:从感知到理解
但感知仍然不够。例如,看到:
text
一个杯子放在桌边
真正重要的问题是:
text
接下来会发生什么?
如果被碰到:
text
会掉下来
如果杯子里有水:
text
会洒出来
这时候,AI需要拥有:
text
世界模型
即:
text
World Model
它负责预测未来,这是AGI迈出的关键一步。
六、第三次转变:从理解到规划
知道未来还不够,还需要决定:
text
应该怎么做
例如,机器人看见:
text
地上有障碍物
接下来要:
text
绕过去
还是:
text
搬开它
或者:
text
换条路线
这时候,AI需要:
text
Planner
规划系统。
从:
text
预测未来
变成:
text
选择未来
七、第四次转变:从规划到行动
这是最难的一步,因为现实世界充满不确定性。
例如,机器人准备抓杯子。
规划阶段:
text
抓取成功
现实执行:
text
杯子滑了
规划:
text
顺利通过
现实:
text
有人突然经过
因此:
text
行动
=
持续反馈
需要形成:
text
感知
↓
决策
↓
执行
↓
反馈
闭环系统,这也是具身智能真正困难的地方。
八、Agent为什么是具身化的过渡阶段
很多人觉得:
text
Agent和机器人没关系
其实非常相关,因为Agent第一次让AI学会:
text
完成任务
例如,用户说:
text
帮我安排出差
Agent会:
text
查机票
↓
订酒店
↓
安排日程
↓
发送邮件
这里已经出现:
text
目标驱动
只是行动发生在数字世界,而具身AI只是进一步把行动扩展到:
text
物理世界
九、真正的AGI一定是具身的
很多研究者越来越认同一个观点:
没有世界交互能力的智能,不是完整智能。
原因很简单,如果AI永远只能:
text
回答问题
那么它始终是:
text
观察者
而真正的智能必须能够:
text
影响环境
例如:
- 完成任务
- 改变状态
- 达成目标
这才是真正意义上的智能。
十、鸿蒙生态其实也在走向Runtime时代
有趣的是,如果观察鸿蒙的发展路径,会发现与AGI极其相似。
过去:应用是核心。
后来:服务成为核心。
再后来:Task 成为核心。
未来:Runtime 可能成为核心。
因为真正重要的已经不是:
text
页面
而是:
text
状态连续性
这与具身智能强调的:
text
上下文连续性
本质一致。
十一、未来AI将从"回答机器"变成"世界参与者"
过去:
text
ChatGPT
解决的是:
text
问答
未来:
text
Embodied AI
解决的是:
text
执行
用户不再说:
text
告诉我怎么做
而是:
text
替我完成
这将是整个行业最大的变化。
十二、AGI真正缺失的最后一块拼图
回顾整个发展过程,AI已经拥有:
text
知识
拥有:
text
推理
拥有:
text
规划
甚至拥有:
text
Agent能力
但仍然缺少:
text
真实世界经验
而具身化正是在补齐这一块拼图。
十三、未来的完整架构
未来AGI系统可能演化成:
text
Perception
↓
World Model
↓
Reasoning
↓
Planner
↓
Agent Runtime
↓
Physical Runtime
↓
Environment
形成真正的智能闭环。
十四、总结
如果一句话总结AGI的演进方向:
从生成语言,到交互世界。
过去的大模型:
text
预测下一个词
未来的AGI:
text
预测下一个世界状态
过去的AI:
text
回答问题
未来的AI:
text
完成任务
过去:
text
Language Generation
未来:
text
World Interaction
最终你会发现:AGI真正的终点,也许从来不是更聪明地说话。
而是:
能够持续理解世界、影响世界、改变世界。
而具身化,正是从语言智能迈向通用智能的必经之路。