世界模型

君为先-bey14 天前
transformer·扩散模型·导航·具身智能·世界模型·条件扩散
NWM----导航世界模型论文标题Navigation World Models作者Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun
alun55018 天前
高德·世界模型·谷歌地球
高德地球-ABot-Earth 0.5Lun.A, 2026.06.10“高德地球”是我自己这么叫,官方没这么叫,后文我均以“高德地球”为名替代官方名称,官方地址
vivo互联网技术19 天前
ai·aigc技术探索·世界模型·影像
MagicWorld 实现长时交互视频世界建模论文主页:MagicWorld: Towards Long-Horizon Stability for Interactive Video World Exploration
传说故事19 天前
论文阅读·人工智能·具身智能·世界模型
【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试通过把评测标准从“光看视频像不像”升级到“多模态感知+真动手干活+现实世界测试”,逼出真正能用的具身世界模型。
七77.20 天前
3d·世界模型
【3D 场景生成】NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes源码链接:https://3dlg-hcvc.github.io/NuiScene/ 发表:ICCV-2025
七77.20 天前
3d·世界模型
【3D 场景生成】WorldGen: From Text to Traversable and Interactive 3D Worlds原文链接:https://openaccess.thecvf.com/content/CVPR2026/papers/Wang_WorldGen_From_Text_to_Traversable_and_Interactive_3D_Worlds_CVPR_2026_paper.pdf video:https://www.meta.com/blog/worldgen-3d-world-generation-reality-labs-generative-ai-research/ 发表:CVPR-2026
七77.21 天前
世界模型
【视频世界模型】InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model原文链接:https://inspatio.github.io/worldfm/本文提出 InSpatio-WorldFM,一款面向空间智能的开源实时帧模型。现有基于视频的世界模型依赖序列帧生成,窗口级处理会带来较大延迟;与之不同,InSpatio-WorldFM 采用基于帧的范式,每一帧均可独立生成,能够实现低延迟的实时空间推理。该模型通过显式三维锚点与隐式空间记忆约束多视角空间一致性,在视角发生变化时,既能保证全局场景几何结构稳定,又能保留精细视觉细节。本文进一步设计了一套渐进式三阶段训练流程:先将预
audyxiao00121 天前
大数据·人工智能·大模型·智能体·世界模型
ICLR 2026论文分享 | WorldGym:用世界模型打造机器人策略评估新范式本文介绍了ICLR 2026的论文《WorldGym: World Model as an Environment for Policy Evaluation》。该论文提出了一种基于视频世界模型的机器人策略评估平台WorldGym。该框架能够仅通过单张初始图像,在生成的虚拟环境中完成机器人策略的全流程评估。WorldGym的架构如图1所示。首先,给定初始帧和语言指令,世界模型根据策略输出的动作序列交互式预测未来帧,作为生成式模拟器;随后,通过视觉语言模型(Visual Language Model,VLM
七77.24 天前
3d·世界模型
【3D 场景生成】MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation原文链接:https://arxiv.org/pdf/2412.03558 源码链接:https://huanngzh.github.io/MIDI-Page/ 发表:CVPR_2025
深蓝学院25 天前
无人机·世界模型
清华WorldVLN:首个自回归世界动作模型!零样本迁移真实无人机,成功率+12%「先预测世界,再决策动作」目录01 自回归世界建模+动作直解码(一)基础架构:四大模块构建闭环世界-动作链路
Ricky055325 天前
人工智能·机器人·世界模型
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)摘要:通用型机器人策略如今已能执行多种操作技能,但评估并提升其处理陌生物体和指令的能力仍面临重大挑战。严格的性能评估需要进行大量真实场景测试,而系统性优化则需依赖带有专家标注的修正数据——这两个过程均耗时漫长、成本高昂且难以规模化实施。世界模型为此提供了具有前景且可扩展的解决方案,它能够使策略在想象空间内运行。然而,关键难点在于构建一个能有效处理与通用型机器人策略进行多步骤交互的可控世界模型。这要求该模型需支持多视角预测、精细动作控制以及一致性的长时程交互能力,而这正是现有研究尚未实现的目标。本文通过引入
深蓝学院1 个月前
自动驾驶·小米·世界模型
小米世界模型也来了:重建+生成一体化,实现秒级仿真+实时预测!「10秒3D重建、0.19秒/帧生成」目录01 理解这项工作的价值需要先理解它所要缝合的那道裂痕1. 纯重建路线:精准但“死板”,无法突破观测边界
七77.1 个月前
3d·世界模型
【3D场景生成】Controllable 3D Outdoor Scene Generation via Scene Graphs标题: 基于场景图的可控三维室外场景生成 原文链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Liu_Controllable_3D_Outdoor_Scene_Generation_via_Scene_Graphs_ICCV_2025_paper.pdf 源码链接:https://yuheng.ink/project-page/control-3d-scene/ 发表:ICCV-2025
feasibility.2 个月前
人工智能·科技·语言模型·aigc·多模态·具身智能·世界模型
思想之光照见本源:AI 感官全域觉醒进化史2017年,一篇题为《Attention Is All You Need》的论文悄然出现,它提出的Transformer架构如一道简洁而深刻的数学咒语,解开了序列数据的终极密码。这并非一次普通的技术迭代,而是一场认知的觉醒。就像DNA的双螺旋结构揭示了生命复制的秘密,注意力机制揭示了信息理解的秘密,为机器赋予了阅读世界的能力。
传说故事2 个月前
论文阅读·人工智能·机器人·具身智能·世界模型
【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。
机器觉醒时代2 个月前
人工智能·具身智能·ai芯片·人形机器人·世界模型
芯驰发布具身智能全栈芯片:大脑R1、小脑D9与E3-R系列执行MCU2026年4月24日,北京车展现场,芯驰科技正式发布战略 2.0,全面从行驶智能进阶迈向通用智能。依托长期沉淀的车规级芯片研发实力与规模化量产落地经验,芯驰正式推出面向具身智能的全栈芯片解决方案:大脑R1系列、小脑D9系列以及关节模组E31系列等。
风巽·剑染春水2 个月前
人工智能·生成式ai·扩散模型·综述·智能体·世界模型
【World Models综述】理解世界还是预测未来?(ACM CS-2025)探索世界模型从阅读一篇综述开始!论文:Understanding World or Predicting Future? A Comprehensive Survey of World Models 论文与代码汇总:https://github.com/tsinghua-fib-lab/World-Model
audyxiao0012 个月前
人工智能·深度学习·世界模型
VideoWorld 2:一种从真实世界视频学习可迁移知识的模型具身智能与视频理解领域一直有个核心难题,即如何让AI像人类一样,直接看无标注的真实视频,就能学会折纸、机器人操作这类复杂长时程技能,并且能够泛化到新环境?字节跳动Seed实验室联合北京交通大学提出了VideoWorld 2模型,首次研究了直接从原始真实世界视频中学习复杂长时程任务可迁移知识的问题。其核心贡献是提出动力学增强的隐式动力学模型(dLDM),将动作动力学与视觉外观解耦。首先,由预训练的视频扩散模型负责视觉外观建模,使dLDM能够学习聚焦于紧凑且有意义的任务相关动力学的隐式编码。随后,对这些隐式编
深蓝学院2 个月前
自动驾驶·端到端·世界模型·小鹏
X-World:小鹏面向规模化端到端自动驾驶的可控自车中心多相机世界模型「自车中心、纯环视、全层级文本可控」目录01 研究背景:端到端自动驾驶世界模型的现存痛点02 X-World核心创新点:重构自动驾驶世界模型的技术范式
七77.3 个月前
3d·世界模型
【世界模型】FLASHWORLD: HIGH-QUALITY 3D SCENE GENERATION WITHIN SECONDS标题:FLASHWORLD:秒级生成高质量三维场景 原文链接:https://openreview.net/pdf?id=2IftRjRB07 源码链接:https://imlixinyang.github.io/FlashWorld-Project-Page/ 体验链接:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark 发表:ICLR-2026