世界模型

feasibility.5 天前
论文阅读·人工智能·机器人·零样本·具身智能·vla·世界模型
DreamZero技术解析:当世界模型成为机器人“物理大脑”原文摘要翻译最先进的视觉-语言-动作(VLA)模型在语义泛化方面表现出色,但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero,一种基于预训练视频扩散主干网络构建的世界动作模型(WAM)。与 VLA 不同,WAM 通过预测未来世界状态和动作来学习物理动力学,利用视频作为世界演化的密集表征。通过联合建模视频和动作,DreamZero 能够有效地从异构机器人数据中学习多样化技能,而无需依赖重复的演示数据。这使得在真实机器人实验中,相比于最先进的 VLA,对新任务和新环境的泛化能力提升了超过
杀生丸学AI6 天前
人工智能·大模型·aigc·safari·三维重建·3dgs·世界模型
【世界模型】Captain Safari:位姿对齐3D记忆的世界引擎(CVPR 2026)标题:Captain Safari: A World Engine with Pose-Aligned 3D Memory 来源:约翰霍普金斯大学;清华大学 ;加州大学圣克鲁兹分校 链接:https://johnson111788.github.io/open-safari/
bryant_meng7 天前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
杀生丸学AI13 天前
人工智能·三维重建·扩散模型·具身智能·视频生成·世界模型·空间智能
【世界模型】video2world:从不一致视角重建世界标题:World Reconstruction From Inconsistent Views 来源:德国慕尼黑工业大学 链接:https://lukashoel.github.io/video_to_world
大数据在线15 天前
人工智能·世界模型·空间智能·李飞飞·飞渡科技
中国空间智能,梦想照进现实2026年初,AI教母李飞飞的AI公司World Labs再次获得一笔10亿美元的投资,投资名单除了传统投资机构外,还不乏英伟达、Autodesk等行业巨头,这清晰地传递出市场信号:继AI大语言模型之后,空间智能已成为AI的下一个圣杯。
康谋自动驾驶16 天前
自动驾驶·可用性测试·3dgs·世界模型
视觉重建到物理仿真,3DGS如何走向工程应用?目录一、引言二、从重建到表达三、3DGS物理交互与光学仿真关键技术1、3DGS物理交互2、3DGS反射建模
七77.22 天前
3d·世界模型
【世界模型】UrbanWorld: An Urban World Model for 3D City Generation标题:UrbanWorld:一种用于三维城市生成的城市世界模型 原文链接:https://arxiv.org/abs/2407.11965 源码链接:https://github.com/Urban-World/UrbanWorld 发表:预印本(ICLR-2025被拒) https://openreview.net/forum?id=4W1wTg7q9o
机器觉醒时代1 个月前
人工智能·具身智能·人形机器人·世界模型
DreamZero:从语言理解到世界建模——具身智能的WAM新范式在具身智能的发展进程中,机器人要实现从“语言理解”到“物理交互”的跨越,仍面临泛化能力不足、物理机理建模困难以及跨场景、跨本体迁移性差等核心挑战。以视觉-语言-动作模型(VLA)为代表的主流技术方案,借助预训练视觉-语言模型(VLM)强大的语义先验,在指令跟随与简单物体操作任务上取得了显著进展。然而,其在未知环境下的场景泛化能力,尤其是在新技能学习与运动模式生成方面的适应性,依然存在明显局限。
杀生丸学AI1 个月前
3d·aigc·扩散模型·视觉大模型·世界模型·点云分割·高斯泼溅
【世界模型】WorldWarp:异步视频扩散的3D重建标题:《WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion》 项目:https://hyokong.github.io/worldwarp-page/ 来源:新加坡国立大学 ;香港理工大学
BackCatK Chen2 个月前
算法·华为·gpu算力·vla·世界模型
2026智驾决赛圈:洗牌、技术决战与3大生死门槛中国智能驾驶(智驾)行业正经历史上最剧烈的洗牌:曾经估值百亿的独角兽停摆、中腰部玩家批量出局,牌桌快速清空。行业形成明确共识:2026年将是决赛圈关闭的最后期限,最终仅2-3家核心供应商能存活,而主机厂自研阵营中,仅蔚来等少数玩家仍在坚守。
v_JULY_v2 个月前
世界模型·rise
RISE——组合式世界模型驱动的RL框架:基于视频扩散模型预测的未来视觉状态,和VLA估计的进度价值评估,以先离线预热后在线改进世界模型一定是2026年的具身领域最热的研究方向之一,为何这么说呢为弥合这一鸿沟,RISE应运而生,一个通过想象进行机器人强化学习的可扩展框架。其核心是一个组合式世界模型,该模型
v_JULY_v2 个月前
世界模型·gigabrain-0.5m·gigabrain-0.5
GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA:通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略今26年2.16是除夕,我司于过去三年完成了在具身领域的奠基回归正题,如果说上一篇文章《GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力:基于RGBD输入建模,及通过具身CoT增强推理能力》介绍的GigaBrain-0,可对标π0.5
阿杰学AI2 个月前
人工智能·ai·语言模型·自然语言处理·aigc·世界模型·世界模型训练师
AI核心知识106—大语言模型之 World Model Trainer(简洁且通俗易懂版)世界模型训练师 (World Model Trainer) 是 AI 领域中一个极具未来感、正在快速崛起的新兴职业。
要加油哦~2 个月前
人工智能·世界模型
AI-具身智能 | 世界模型 | Code2World 总结一、介绍Code2World 研究:如何把“代码”映射成一个可交互、可验证、可执行的“世界(World)”,并通过环境反馈反向改进代码生成。
康谋自动驾驶2 个月前
人工智能·3d·自动驾驶·仿真·3dgs·世界模型
2026年,3DGS和世界模型,在自动驾驶仿真中的组合应用2026年,自动驾驶仿真赛道将持续升温。回顾2025年,两大仿真新技术快速走进公众视野,分别是世界模型(World Model)与3DGS(3D Gaussian Splatting,3D高斯泼溅)。
杀生丸学AI2 个月前
人工智能·扩散模型·具身智能·视频生成·世界模型·自回归·空间智能
【世界模型】AI世界模型的两次物理大考(测评)如果你让当今最先进的AI视频模型生成一段“冰块落入温水”的视频,你很可能会得到一个画质惊艳、光线完美、动态流畅的短片。它几乎能以假乱真。
杀生丸学AI2 个月前
人工智能·大模型·aigc·三维重建·世界模型·逆渲染
【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制标题:《PPISP: Physically-Plausible Compensation and Control of Photometric Variations in Radiance Field Reconstruction》 项目:https://hyokong.github.io/worldwarp-page/ 来源:NVIDIA
杀生丸学AI2 个月前
人工智能·深度学习·3d·三维重建·世界模型·空间智能·高斯溅射
【视频生成】SRENDER:基于<稀疏扩散>与<3D渲染>的像机轨迹视频生成标题:《Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering》 项目:https://ayushtewari.com/projects/srender/ 来源:英国剑桥大学
白云千载尽2 个月前
算法·大模型·世界模型·自动驾驶仿真·navsim
cosmos系列模型的推理使用——cosmos transfer2.5我们先来使用cosmos transfer2.5来进行基本的功能推理。之前已经用过cosmos-transfer1的功能了,所以对一些基本内容还是比较熟悉了,这次我们主要解决cosmos2上遇到的一些问题。
M宝可梦3 个月前
人工智能·大语言模型·世界模型·lecun·jepa
I-JEPA CVPR2023 LeCun所说的world model和视频生成模型是一回事儿吗本文分为三大部分,一是对原论文的一些笔记;二是I-JEPA代码的一些记录;三是最后的一点总结;1.图像自监督学习分为invariance- based 方法以及 generative methods;