世界模型

七77.12 小时前
世界模型
【视频世界模型】InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model原文链接:https://inspatio.github.io/worldfm/本文提出 InSpatio-WorldFM,一款面向空间智能的开源实时帧模型。现有基于视频的世界模型依赖序列帧生成,窗口级处理会带来较大延迟;与之不同,InSpatio-WorldFM 采用基于帧的范式,每一帧均可独立生成,能够实现低延迟的实时空间推理。该模型通过显式三维锚点与隐式空间记忆约束多视角空间一致性,在视角发生变化时,既能保证全局场景几何结构稳定,又能保留精细视觉细节。本文进一步设计了一套渐进式三阶段训练流程:先将预
audyxiao0011 天前
大数据·人工智能·大模型·智能体·世界模型
ICLR 2026论文分享 | WorldGym:用世界模型打造机器人策略评估新范式本文介绍了ICLR 2026的论文《WorldGym: World Model as an Environment for Policy Evaluation》。该论文提出了一种基于视频世界模型的机器人策略评估平台WorldGym。该框架能够仅通过单张初始图像,在生成的虚拟环境中完成机器人策略的全流程评估。WorldGym的架构如图1所示。首先,给定初始帧和语言指令,世界模型根据策略输出的动作序列交互式预测未来帧,作为生成式模拟器;随后,通过视觉语言模型(Visual Language Model,VLM
七77.4 天前
3d·世界模型
【3D 场景生成】MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation原文链接:https://arxiv.org/pdf/2412.03558 源码链接:https://huanngzh.github.io/MIDI-Page/ 发表:CVPR_2025
深蓝学院4 天前
无人机·世界模型
清华WorldVLN:首个自回归世界动作模型!零样本迁移真实无人机,成功率+12%「先预测世界,再决策动作」目录01 自回归世界建模+动作直解码(一)基础架构:四大模块构建闭环世界-动作链路
Ricky05535 天前
人工智能·机器人·世界模型
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)摘要:通用型机器人策略如今已能执行多种操作技能,但评估并提升其处理陌生物体和指令的能力仍面临重大挑战。严格的性能评估需要进行大量真实场景测试,而系统性优化则需依赖带有专家标注的修正数据——这两个过程均耗时漫长、成本高昂且难以规模化实施。世界模型为此提供了具有前景且可扩展的解决方案,它能够使策略在想象空间内运行。然而,关键难点在于构建一个能有效处理与通用型机器人策略进行多步骤交互的可控世界模型。这要求该模型需支持多视角预测、精细动作控制以及一致性的长时程交互能力,而这正是现有研究尚未实现的目标。本文通过引入
深蓝学院10 天前
自动驾驶·小米·世界模型
小米世界模型也来了:重建+生成一体化,实现秒级仿真+实时预测!「10秒3D重建、0.19秒/帧生成」目录01 理解这项工作的价值需要先理解它所要缝合的那道裂痕1. 纯重建路线:精准但“死板”,无法突破观测边界
七77.17 天前
3d·世界模型
【3D场景生成】Controllable 3D Outdoor Scene Generation via Scene Graphs标题: 基于场景图的可控三维室外场景生成 原文链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Liu_Controllable_3D_Outdoor_Scene_Generation_via_Scene_Graphs_ICCV_2025_paper.pdf 源码链接:https://yuheng.ink/project-page/control-3d-scene/ 发表:ICCV-2025
feasibility.1 个月前
人工智能·科技·语言模型·aigc·多模态·具身智能·世界模型
思想之光照见本源:AI 感官全域觉醒进化史2017年,一篇题为《Attention Is All You Need》的论文悄然出现,它提出的Transformer架构如一道简洁而深刻的数学咒语,解开了序列数据的终极密码。这并非一次普通的技术迭代,而是一场认知的觉醒。就像DNA的双螺旋结构揭示了生命复制的秘密,注意力机制揭示了信息理解的秘密,为机器赋予了阅读世界的能力。
传说故事1 个月前
论文阅读·人工智能·机器人·具身智能·世界模型
【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。
机器觉醒时代1 个月前
人工智能·具身智能·ai芯片·人形机器人·世界模型
芯驰发布具身智能全栈芯片:大脑R1、小脑D9与E3-R系列执行MCU2026年4月24日,北京车展现场,芯驰科技正式发布战略 2.0,全面从行驶智能进阶迈向通用智能。依托长期沉淀的车规级芯片研发实力与规模化量产落地经验,芯驰正式推出面向具身智能的全栈芯片解决方案:大脑R1系列、小脑D9系列以及关节模组E31系列等。
风巽·剑染春水1 个月前
人工智能·生成式ai·扩散模型·综述·智能体·世界模型
【World Models综述】理解世界还是预测未来?(ACM CS-2025)探索世界模型从阅读一篇综述开始!论文:Understanding World or Predicting Future? A Comprehensive Survey of World Models 论文与代码汇总:https://github.com/tsinghua-fib-lab/World-Model
audyxiao0012 个月前
人工智能·深度学习·世界模型
VideoWorld 2:一种从真实世界视频学习可迁移知识的模型具身智能与视频理解领域一直有个核心难题,即如何让AI像人类一样,直接看无标注的真实视频,就能学会折纸、机器人操作这类复杂长时程技能,并且能够泛化到新环境?字节跳动Seed实验室联合北京交通大学提出了VideoWorld 2模型,首次研究了直接从原始真实世界视频中学习复杂长时程任务可迁移知识的问题。其核心贡献是提出动力学增强的隐式动力学模型(dLDM),将动作动力学与视觉外观解耦。首先,由预训练的视频扩散模型负责视觉外观建模,使dLDM能够学习聚焦于紧凑且有意义的任务相关动力学的隐式编码。随后,对这些隐式编
深蓝学院2 个月前
自动驾驶·端到端·世界模型·小鹏
X-World:小鹏面向规模化端到端自动驾驶的可控自车中心多相机世界模型「自车中心、纯环视、全层级文本可控」目录01 研究背景:端到端自动驾驶世界模型的现存痛点02 X-World核心创新点:重构自动驾驶世界模型的技术范式
七77.2 个月前
3d·世界模型
【世界模型】FLASHWORLD: HIGH-QUALITY 3D SCENE GENERATION WITHIN SECONDS标题:FLASHWORLD:秒级生成高质量三维场景 原文链接:https://openreview.net/pdf?id=2IftRjRB07 源码链接:https://imlixinyang.github.io/FlashWorld-Project-Page/ 体验链接:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark 发表:ICLR-2026
paper_reader2 个月前
深度学习·计算机视觉·ai·世界模型
世界模型的三个进化方向:从 AAA 游戏到第一人称闭环
feasibility.2 个月前
论文阅读·人工智能·机器人·零样本·具身智能·vla·世界模型
DreamZero技术解析:当世界模型成为机器人“物理大脑”原文摘要翻译最先进的视觉-语言-动作(VLA)模型在语义泛化方面表现出色,但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero,一种基于预训练视频扩散主干网络构建的世界动作模型(WAM)。与 VLA 不同,WAM 通过预测未来世界状态和动作来学习物理动力学,利用视频作为世界演化的密集表征。通过联合建模视频和动作,DreamZero 能够有效地从异构机器人数据中学习多样化技能,而无需依赖重复的演示数据。这使得在真实机器人实验中,相比于最先进的 VLA,对新任务和新环境的泛化能力提升了超过
杀生丸学AI2 个月前
人工智能·大模型·aigc·safari·三维重建·3dgs·世界模型
【世界模型】Captain Safari:位姿对齐3D记忆的世界引擎(CVPR 2026)标题:Captain Safari: A World Engine with Pose-Aligned 3D Memory 来源:约翰霍普金斯大学;清华大学 ;加州大学圣克鲁兹分校 链接:https://johnson111788.github.io/open-safari/
bryant_meng2 个月前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
杀生丸学AI2 个月前
人工智能·三维重建·扩散模型·具身智能·视频生成·世界模型·空间智能
【世界模型】video2world:从不一致视角重建世界标题:World Reconstruction From Inconsistent Views 来源:德国慕尼黑工业大学 链接:https://lukashoel.github.io/video_to_world
大数据在线2 个月前
人工智能·世界模型·空间智能·李飞飞·飞渡科技
中国空间智能,梦想照进现实2026年初,AI教母李飞飞的AI公司World Labs再次获得一笔10亿美元的投资,投资名单除了传统投资机构外,还不乏英伟达、Autodesk等行业巨头,这清晰地传递出市场信号:继AI大语言模型之后,空间智能已成为AI的下一个圣杯。