人工智能基础篇：概念性名词浅谈（第二讲）

大家好，今天开始讲述关于人工智能学习的基础篇。

（1）空间智能

霍华德·加德纳在多元智能理论中指出，空间智能是人们生活学习的基本能力，更是人们进行艺术、科学、数学及至文学活动的不可或缺的能力。"大千世界，色形而己。"宝宝无时无刻不在面对着各种各样的颜色、形状、大小、空间等。帮助宝宝发展空间智能，是早期教育一个非常重要的任务。

空间智能是指在大脑中形成一个外部空间世界的模式并能够运用和操作这些模式的能力。这种智能让人有能力以三度空间的方式来思考，使人知觉到外在和内在的影像，也能重现、转变或修饰影像，不但可以在空间中从容地游走，还可以随心所欲地操弄物件的位置，以产生或解读图形的讯息。航海家、飞行员、雕塑家、画家、发明家、建筑师、摄影师、服装设计师、广告设计师、电影制片人等都表现出高度发达的空间智能。空间智能从狭义上讲指的是人对空间方位的感知能力，而从广义看不再单纯的是人对空间方位的感知，还包括视觉辨别能力、形象思维能力两个方面。所谓空间智能是倾向于形象思维的智能，具有准确感觉视觉空间，并且能把所知觉到的形象表现出来的能力。儿童的空间智能表现在可以说出清楚的视觉意向；喜欢看图画书、图片，阅读时从图画而不是文字中获取更多信息；喜欢搭积木等。

（1）有利于发展观察能力，促进孩子视觉的敏感性和准确性；

（2）有利于发展思维的形象性，培养孩子富于想象，善于想象；

（3）有利于促进对空间关系的把握，发展方向感，发展二维和三维空间的转换能力；

（4）有利于培养艺术素质，发展、发现、发现美的能力。

空间智能不是死板的知识，不可以注入给孩子，想象是发展孩子空间智能的重要组成部分，想象能力对于儿童的智力发展和学习活动各个方面都起到积极作用：

（1）想象能力能够激发儿童学习的动机和成功的欲望；

（2）想象能力能够促进儿童学习活动的创造性；

（3）想象能力能够促进儿童自身智力的发展。

（2）世界模型

世界模型是人工智能领域用于模拟环境动态并预测未来状态的核心技术框架，通过多模态数据训练构建系统内部表征。该模型通过压缩感知数据形成时空表征，运用物理规律过滤冗余信息，并基于自监督学习预测环境演变轨迹。在具身智能领域，世界模型为虚拟环境训练与物理交互提供跨空间协同支持，其应用场景涵盖心理学中心智模型的衍生应用评估行为后果。

其技术实现涵盖神经网络（RNN、Transformer）、概率模型及端到端架构，2018年后深度学习技术的突破加速了该领域发展。应用场景覆盖自动驾驶行为预测、机器人导航规划、视频生成物理建模及社会系统模拟，李飞飞团队研发的3D场景生成模型与OpenAI的Sora（2024）模型可生成遵循牛顿力学的物体运动视频，World Labs开发的3D场景生成器能渲染符合建筑力学的虚拟环境。Meta FAIR团队发布支持131k token上下文的Code World Model(CWM)，通过模拟代码执行轨迹提升生成代码的可执行性，宇树科技开源的UnifoLM-WMA-0模型专为通用机器人学习设计，通过预测未来交互优化决策性能。2024年3月，谷歌云前人工智能负责人李飞飞创办的"世界实验室"开发能理解三维物理世界的AI模型"大世界模型"，可生成《哈利·波特》对角巷等虚构场景的数字创作环境。 2024年DeepMind团队研发的导航模型能预判障碍物位移轨迹，Trajectron++系统可模拟人机协作场景。截至2025年，Iso-Dream等系统已实现实时环境运动趋势预测，华为ADS 4.0方案成功实践技术验证，云端需数十万AI加速卡支撑算力需求。当前世界模型面临泛化能力不足、物理规则模拟偏差、多模态数据整合困难等技术瓶颈，神经符号AI融合与大规模物理引擎集成被视为未来发展重点方向。

根据李飞飞等学者最新研究，世界模型需具备生成性、多模态、互动性三大核心能力。生成性指能生成语义、几何、物理一致的三维模拟环境；多模态指可处理图像、视频、深度、文本等任意输入模态；互动性指能根据动作预测系统状态变化，实现因果推理。世界模型由三层核心架构构成：视觉编码层压缩原始感知数据，记忆建模层构建时空表征，控制决策层生成动作规划。具体实现方式包含：

端到端架构：特斯拉自动驾驶系统通过8摄像头输入构建3D向量空间，预测周围物体运动轨迹
混合建模框架：AlphaGo融合蒙特卡洛树搜索与深度神经网络，实现对围棋对弈环境的动态建模
生成式架构：Sora采用Transformer扩散模型，通过视频帧预测实现物理交互模拟
3D/4D感知架构：如World Labs的RTFM模型

世界模型理论演进历经三个阶段：

1. 系统动力学阶段（1960-2000）：World3模型模拟全球资源消耗趋势，奠定动态系统建模基础
1. 认知科学阶段（2001-2017）：心智模型理论引导AI建立环境因果认知框架
1. 深度学习阶段（2018至今）：Ha和Schmidhuber的CarRacing-v0实验验证模型预测控制可行性

2024年成为技术突破关键年，GPT-4实现初级时空推理能力，Sora模型视频生成时长突破60秒物理连贯性极限。

今天就讲这些，下篇文章见。