世界模型

思想之光照见本源：AI 感官全域觉醒进化史2017年，一篇题为《Attention Is All You Need》的论文悄然出现，它提出的Transformer架构如一道简洁而深刻的数学咒语，解开了序列数据的终极密码。这并非一次普通的技术迭代，而是一场认知的觉醒。就像DNA的双螺旋结构揭示了生命复制的秘密，注意力机制揭示了信息理解的秘密，为机器赋予了阅读世界的能力。

【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model让机器人在"想象空间"里通过世界模型做梦练习，用预测未来+评估好坏的组合方式自我提升策略，避免真实世界中昂贵的试错成本。

机器觉醒时代

芯驰发布具身智能全栈芯片：大脑R1、小脑D9与E3-R系列执行MCU2026年4月24日，北京车展现场，芯驰科技正式发布战略 2.0，全面从行驶智能进阶迈向通用智能。依托长期沉淀的车规级芯片研发实力与规模化量产落地经验，芯驰正式推出面向具身智能的全栈芯片解决方案：大脑R1系列、小脑D9系列以及关节模组E31系列等。

风巽·剑染春水

【World Models综述】理解世界还是预测未来？（ACM CS-2025）探索世界模型从阅读一篇综述开始！论文：Understanding World or Predicting Future? A Comprehensive Survey of World Models 论文与代码汇总：https://github.com/tsinghua-fib-lab/World-Model

VideoWorld 2：一种从真实世界视频学习可迁移知识的模型具身智能与视频理解领域一直有个核心难题，即如何让AI像人类一样，直接看无标注的真实视频，就能学会折纸、机器人操作这类复杂长时程技能，并且能够泛化到新环境？字节跳动Seed实验室联合北京交通大学提出了VideoWorld 2模型，首次研究了直接从原始真实世界视频中学习复杂长时程任务可迁移知识的问题。其核心贡献是提出动力学增强的隐式动力学模型（dLDM），将动作动力学与视觉外观解耦。首先，由预训练的视频扩散模型负责视觉外观建模，使dLDM能够学习聚焦于紧凑且有意义的任务相关动力学的隐式编码。随后，对这些隐式编

X-World：小鹏面向规模化端到端自动驾驶的可控自车中心多相机世界模型「自车中心、纯环视、全层级文本可控」目录01 研究背景：端到端自动驾驶世界模型的现存痛点02 X-World核心创新点：重构自动驾驶世界模型的技术范式

【世界模型】FLASHWORLD: HIGH-QUALITY 3D SCENE GENERATION WITHIN SECONDS标题：FLASHWORLD：秒级生成高质量三维场景原文链接：https://openreview.net/pdf?id=2IftRjRB07 源码链接：https://imlixinyang.github.io/FlashWorld-Project-Page/ 体验链接：https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark 发表：ICLR-2026

世界模型的三个进化方向：从 AAA 游戏到第一人称闭环

DreamZero技术解析：当世界模型成为机器人“物理大脑”原文摘要翻译最先进的视觉-语言-动作（VLA）模型在语义泛化方面表现出色，但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero，一种基于预训练视频扩散主干网络构建的世界动作模型（WAM）。与 VLA 不同，WAM 通过预测未来世界状态和动作来学习物理动力学，利用视频作为世界演化的密集表征。通过联合建模视频和动作，DreamZero 能够有效地从异构机器人数据中学习多样化技能，而无需依赖重复的演示数据。这使得在真实机器人实验中，相比于最先进的 VLA，对新任务和新环境的泛化能力提升了超过

【世界模型】Captain Safari：位姿对齐3D记忆的世界引擎（CVPR 2026）标题：Captain Safari: A World Engine with Pose-Aligned 3D Memory 来源：约翰霍普金斯大学；清华大学；加州大学圣克鲁兹分校链接：https://johnson111788.github.io/open-safari/

【VLA】Vision Language Action世界模型是智能体（Agent）内部对环境动态（dynamics）的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作，环境会如何变化”。

【世界模型】video2world：从不一致视角重建世界标题：World Reconstruction From Inconsistent Views 来源：德国慕尼黑工业大学链接：https://lukashoel.github.io/video_to_world

大数据在线

中国空间智能，梦想照进现实2026年初，AI教母李飞飞的AI公司World Labs再次获得一笔10亿美元的投资，投资名单除了传统投资机构外，还不乏英伟达、Autodesk等行业巨头，这清晰地传递出市场信号：继AI大语言模型之后，空间智能已成为AI的下一个圣杯。

康谋自动驾驶

视觉重建到物理仿真，3DGS如何走向工程应用？目录一、引言二、从重建到表达三、3DGS物理交互与光学仿真关键技术1、3DGS物理交互2、3DGS反射建模

【世界模型】UrbanWorld: An Urban World Model for 3D City Generation标题：UrbanWorld：一种用于三维城市生成的城市世界模型原文链接：https://arxiv.org/abs/2407.11965 源码链接：https://github.com/Urban-World/UrbanWorld 发表：预印本（ICLR-2025被拒） https://openreview.net/forum?id=4W1wTg7q9o

机器觉醒时代

DreamZero：从语言理解到世界建模——具身智能的WAM新范式在具身智能的发展进程中，机器人要实现从“语言理解”到“物理交互”的跨越，仍面临泛化能力不足、物理机理建模困难以及跨场景、跨本体迁移性差等核心挑战。以视觉-语言-动作模型（VLA）为代表的主流技术方案，借助预训练视觉-语言模型（VLM）强大的语义先验，在指令跟随与简单物体操作任务上取得了显著进展。然而，其在未知环境下的场景泛化能力，尤其是在新技能学习与运动模式生成方面的适应性，依然存在明显局限。

【世界模型】WorldWarp：异步视频扩散的3D重建标题：《WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion》项目：https://hyokong.github.io/worldwarp-page/ 来源：新加坡国立大学；香港理工大学

2026智驾决赛圈：洗牌、技术决战与3大生死门槛中国智能驾驶（智驾）行业正经历史上最剧烈的洗牌：曾经估值百亿的独角兽停摆、中腰部玩家批量出局，牌桌快速清空。行业形成明确共识：2026年将是决赛圈关闭的最后期限，最终仅2-3家核心供应商能存活，而主机厂自研阵营中，仅蔚来等少数玩家仍在坚守。

RISE——组合式世界模型驱动的RL框架：基于视频扩散模型预测的未来视觉状态，和VLA估计的进度价值评估，以先离线预热后在线改进世界模型一定是2026年的具身领域最热的研究方向之一，为何这么说呢为弥合这一鸿沟，RISE应运而生，一个通过想象进行机器人强化学习的可扩展框架。其核心是一个组合式世界模型，该模型

GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA：通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略今26年2.16是除夕，我司于过去三年完成了在具身领域的奠基回归正题，如果说上一篇文章《GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力：基于RGBD输入建模，及通过具身CoT增强推理能力》介绍的GigaBrain-0，可对标π0.5