
网罗开发 (小红书、快手、视频号同名)
大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。
图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG
我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验 。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。
展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索"展菲",即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。
文章目录
-
- 引言
- 一、什么是具身智能?
- 二、为什么语言模型无法真正理解物理世界
- [三、从 GPT 到机器人,中间隔着什么?](#三、从 GPT 到机器人,中间隔着什么?)
- 四、具身智能的核心:感知
- [五、世界模型(World Model)的重要性](#五、世界模型(World Model)的重要性)
- [六、为什么具身智能天然就是 Agent](#六、为什么具身智能天然就是 Agent)
- [七、OpenClaw 与具身智能的相似之处](#七、OpenClaw 与具身智能的相似之处)
- 八、为什么具身智能比大模型更难
- 九、仿真世界为什么越来越重要
- 十、未来最大的突破:从理解到行动
- 十一、具身智能会开启新的产业革命
- [十二、AI 的终局,也许是"进入世界"](#十二、AI 的终局,也许是“进入世界”)
- 总结
引言
过去几年,大模型最令人震撼的能力,是它们开始学会:
text
写代码
写文章
回答问题
推理分析
于是很多人产生了一种错觉:
AI 已经开始理解世界了。
但如果你仔细观察会发现:
text
会聊天
≠ 会行动
会推理
≠ 会操作
会生成
≠ 会理解现实
举个最简单的例子,你问 AI:
text
杯子掉到地上会怎么样?
它会回答:
text
可能摔碎
但如果让它控制机器人去拿杯子:
text
伸手
抓取
移动
放置
成功率可能瞬间下降,原因很简单:
今天的大模型理解的是"语言世界",而不是"物理世界"。
而下一代 AI 最重要的发展方向之一,就是:
text
Embodied AI
也就是:
具身智能(Embodied Intelligence)。
因为只有当 AI 真正进入现实世界,它才有机会从:
text
理解文字
↓
理解环境
↓
理解物理规律
↓
理解行动后果
最终变成:
真正能够与世界交互的智能体。
一、什么是具身智能?
很多人第一次听到具身智能,会以为是:
text
机器人 + AI
但其实并不准确,具身智能真正强调的是:
智能必须建立在与环境的交互之上。
换句话说:
text
感知(Perception)
↓
行动(Action)
↓
反馈(Feedback)
↓
学习(Learning)
形成闭环,传统大模型:
text
输入文字
↓
输出文字
而具身智能:
text
观察世界
↓
影响世界
↓
感知结果
↓
持续优化
这两者有本质区别。
二、为什么语言模型无法真正理解物理世界
很多人认为:
text
训练数据足够多
模型足够大
最终就能理解现实,但问题在于:
语言本身并不包含完整世界,例如:
text
一个玻璃杯
在文本中只是:
text
Token
但现实世界里的杯子包含:
text
重量
材质
摩擦力
重心
形变
这些东西:
text
无法完整写进语言
所以模型知道:
text
杯子是什么
却未必知道:
text
怎么拿起杯子
这也是为什么:
语言知识不等于物理知识。
三、从 GPT 到机器人,中间隔着什么?
很多人觉得:
text
GPT 已经很聪明
那么:
text
接一个机械臂
是不是就行了?现实远比这复杂。
因为机器人面对的是:
text
连续空间
而不是:
text
离散 Token
例如,语言世界:
text
向前一步
现实世界:
text
前进多少厘米?
速度多少?
角度多少?
地面是否平整?
这些问题都需要实时决策,于是:
text
语言模型
和:
text
机器人控制
之间出现巨大鸿沟,这也是为什么:
机器人难的从来不是聊天,而是行动。
四、具身智能的核心:感知
想行动,先感知。所以具身智能第一层能力是:
text
Perception
包括:
text
视觉
语音
触觉
距离感知
空间定位
例如机器人看到:
text
桌子
杯子
椅子
它必须知道:
text
哪里可以走
哪里可以抓
哪里存在障碍
否则:
text
行动必然失败
所以未来 AI 不只是:
text
读文本
而是:
text
理解环境
五、世界模型(World Model)的重要性
近两年 AI 领域一个非常热门的概念:
text
World Model
世界模型,简单理解:
让 AI 在脑海里模拟现实。
例如,机器人想移动杯子。在真正行动之前:
text
先预测
text
如果这样抓
会不会掉?
如果这样放
会不会倾倒?
这其实和人类很像,人类并不是:
text
先行动
再思考
而是:
text
先模拟
再行动
所以未来具身智能的核心,很可能是一下组合:
text
World Model
+
Agent
六、为什么具身智能天然就是 Agent
传统模型:
text
回答问题
即可结束,但机器人不一样。机器人需要:
text
观察
↓
规划
↓
执行
↓
修正
↓
继续执行
这是一个持续循环,因此机器人本质上天然属于:
text
Agent System
而不是:
text
Chat System
这也是为什么未来越来越多研究开始融合:
text
LLM
+
Agent
+
Robot
因为:
现实世界本质上是任务驱动的。
七、OpenClaw 与具身智能的相似之处
很多人会觉得:
text
OpenClaw
只是一个 Agent 框架,其实从架构角度看:它和具身智能非常接近。
因为 OpenClaw 的核心也是:
text
感知
↓
决策
↓
执行
↓
反馈
例如:
text
观察系统状态
↓
调用工具
↓
执行任务
↓
更新状态
本质上就是:
text
数字世界里的具身智能
区别只是,机器人面对:
text
物理世界
而 OpenClaw 面对:
text
数字世界
八、为什么具身智能比大模型更难
大模型训练:
text
互联网数据
即可。但机器人训练需要:
text
真实世界数据
问题来了,现实世界非常昂贵。例如:
机器人学习抓杯子,可能需要:
text
几十万次尝试
而每一次尝试都意味着:
text
时间
硬件
维护成本
远比训练文本昂贵,所以:
数据获取成本,是具身智能最大的挑战之一。
九、仿真世界为什么越来越重要
因为真实训练太贵,于是行业开始大量使用:
text
Simulation
仿真环境,例如:
text
机器人先在虚拟世界学习
包括:
text
抓取
导航
避障
搬运
然后再迁移到现实,这就是:
text
Sim2Real
路线。未来越来越多具身智能系统可能都会采用:
text
虚拟训练
+
现实微调
模式。
十、未来最大的突破:从理解到行动
过去 AI 的核心能力是:
text
Knowledge
知识。未来 AI 的核心能力会变成:
text
Action
行动。因为:
text
知道怎么做
和:
text
真的做到
是两件完全不同的事情,例如:
text
AI 知道如何做饭
不代表:
text
机器人会做饭
所以未来竞争的重点会从:
text
谁知道更多
变成:
text
谁执行更好
十一、具身智能会开启新的产业革命
如果 AI 真正进入物理世界,那么影响的将不只是软件行业。而是:
text
制造业
物流
医疗
家庭服务
自动驾驶
工业机器人
因为未来 AI 不只是:
text
给建议
而是:
text
直接完成工作
这意味着:
AI 将从"信息生产力",升级为"物理生产力"。
十二、AI 的终局,也许是"进入世界"
重新看过去几十年 AI 的发展:
第一阶段
text
理解文字
第二阶段
text
理解图像
第三阶段
text
理解任务
第四阶段
text
理解世界
而具身智能,正是通往第四阶段的重要入口。因为:
真正的智能,从来不是停留在语言里,而是在行动中形成。
总结
核心的问题其实是:
AI 为什么如此聪明,却还不会像人一样行动?
答案很简单,因为今天的大模型理解的是:
text
语言世界
而不是:
text
物理世界
未来 AI 的真正突破,可能不再只是:
text
更大的模型
更强的推理
更多的参数
而是:
text
感知世界
理解世界
改变世界
当 AI 开始拥有:
text
视觉
行动
反馈
长期记忆
世界模型
它就不再只是一个聊天机器人,而会逐渐变成:
真正生活在现实世界里的智能体。