【机器人】复现 Aether 世界模型 | 几何感知统一 ICCV 2025

Aether 是几何感知统一世界模型,来自ICCV 2025,该框架具有三大核心功能:

(1) 4D动态重建,(2) 动作条件视频预测, (3) 目标条件视觉规划

特点:全基于合成数据进行训练,实现了对真实场景强大零样本泛化能力

代码地址:https://github.com/OpenRobotLab/Aether

论文地址:Aether: Geometric-Aware Unified World Modeling

本文分享 Aether 复现和模型推理的过程~

下面是4D重建的示例:

下面是一个动作条件预测的示例:

下面是一个视觉规划的示例:

1、创建Conda环境

首先下载Aether代码,进行工程目录

复制代码
git clone https://github.com/OpenRobotLab/Aether.git
cd Aether

创建一个Conda环境,名字为aether,使用Python版本是3.10

bash 复制代码
conda create -n aether python=3.10
conda activate aether

2、安装Aether环境依赖库

执行下面命令,进行安装:

bash 复制代码
pip install -r requirements.txt

其中,requirements.txt中包含的依赖库:

accelerate>=1.2.1

coloredlogs>=15.0.1

colorlog>=6.9.0

diffusers>=0.32.2

easydict>=1.13

einops>=0.8.0

hf_transfer>=0.1.8

huggingface-hub>=0.27.1

imageio>=2.33.1

imageio-ffmpeg>=0.5.1

iopath>=0.1.10

matplotlib>=3.10.0

numpy>=1.26.4,<2.0.0

omegaconf>=2.3.0

opencv-python-headless>=4.10.0.84

pillow>=11.1.0

plotly>=5.24.1

plyfile>=1.1

pre_commit>=4.0.1

python-dotenv>=1.0.1

PyYAML>=6.0.2

rich>=13.9.4

rootutils>=1.0.7

safetensors>=0.5.2

scikit-image>=0.25.0

scipy>=1.15.0

sentencepiece>=0.2.0

six>=1.17.0

tokenizers>=0.21.0

torch>=2.5.1

torchaudio>=2.5.1

torchmetrics>=1.6.1

torchvision>=0.20.1

tqdm>=4.67.1

transformers>=4.48.0

triton>=3.1.0

typer>=0.15.1

typing_extensions>=4.12.2

viser>=0.2.23

filterpy

trimesh

gradio

安装成功打印信息:

(base) lgp@lgp-MS-7E07:~/2025_project/Aether$ conda activate aether

(aether) lgp@lgp-MS-7E07:~/2025_project/Aether$

(aether) lgp@lgp-MS-7E07:~/2025_project/Aether$ pip install -r requirements.txt

Successfully built iopath antlr4-python3-runtime filterpy

Installing collected packages: sentencepiece, pytz, pydub, nvidia-cusparselt-cu12, mpmath, easydict, distlib, antlr4-python3-runtime, zipp, xxhash, websockets, urllib3, tzdata, typing_extensions, triton, tqdm, tomlkit, sympy, svg.path, sniffio, six, shtab, shellingham, semantic-version, safetensors, ruff, rtree, rpds-py, regex, PyYAML, python-multipart, python-dotenv, pyparsing, pygments, psutil, portalocker, platformdirs, pillow, packaging, orjson, nvidia-nvtx-cu12, nvidia-nvjitlink-cu12, nvidia-nccl-cu12, nvidia-curand-cu12, nvidia-cufile-cu.......

.......

torch-2.7.1 torchaudio-2.7.1 torchmetrics-1.7.4 torchvision-0.22.1 tqdm-4.67.1 transformers-4.53.1 trimesh-4.6.13 triton-3.3.1 typeguard-4.4.4 typer-0.16.0 typing-inspection-0.4.1 typing_extensions-4.14.1 tyro-0.9.26 tzdata-2025.2 urllib3-2.5.0 uvicorn-0.35.0 vhacdx-0.0.8.post2 virtualenv-20.31.2 viser-1.0.0 websockets-15.0.1 xxhash-3.5.0 yourdfpy-0.0.58 zipp-3.23.0

(aether) lgp@lgp-MS-7E07:~/2025_project/Aether

再安装 protobuf,执行下面命令进行安装:

bash 复制代码
pip install protobuf==3.20.3

等待安装完成~

3、模型权重

需要两个模型权重:AetherWorldModel--AetherV1THUDM--CogVideoX-5b-I2V

如果直接运行推理,会自动下载的,默认在**~/.cache/huggingface/hub/** 目录下

11G ~/.cache/huggingface/hub/models--AetherWorldModel--AetherV1

9.7G ~/.cache/huggingface/hub/models--THUDM--CogVideoX-5b-I2V

权重地址:

https://huggingface.co/AetherWorldModel/AetherV1/tree/main

https://huggingface.co/THUDM/CogVideoX-5b/tree/main

4、本地运行推理

4D重建示例,执行下面命令:

bash 复制代码
python scripts/demo.py --task reconstruction --video ./assets/example_videos/moviegen.mp4

运行时,需要联网下载权重的,而且权重比较大,需要等待时间较长~

(aether) lgp@lgp-MS-7E07:~/2025_project/Aether$

(aether) lgp@lgp-MS-7E07:~/2025_project/Aether$ python scripts/demo.py --task reconstruction --video ./assets/example_videos/moviegen.mp4

You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers

config.json: 782B [00:00, 2.79MB/s]

model.safetensors.index.json: 19.9kB [00:00, 3.38MB/s]

model-00002-of-00002.safetensors: 100%|█████████████████████████████████████████████████████| 4.53G/4.53G [04:08<00:00, 18.2MB/s]

model-00001-of-00002.safetensors: 100%|█████████████████████████████████████████████████████| 4.99G/4.99G [04:09<00:00, 20.0MB/s]

Fetching 2 files: 100%|███████████████████████████████████████████████████████████████████████████| 2/2 [04:10<00:00, 125.16s/it]

Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00, 1.32it/s]

config.json: 872B [00:00, 3.16MB/s]

diffusion_pytorch_model.safetensors: 100%|████████████████████████████████████████████████████| 862M/862M [02:17<00:00, 6.26MB/s]

scheduler_config.json: 100%|████████████████████████████████████████████████████████████████████| 482/482 [00:00<00:00, 1.99MB/s]

config.json: 914B [00:00, 3.12MB/s]

........................

Building GLB scene

GLB Scene built

(aether) lgp@lgp-MS-7E07:~/2025_project/Aether

结果将保存在./outputs/

生成文件:

reconstruction_moviegen_disparity.mp4:

动作条件视频预测,执行下面命令:

bash 复制代码
python scripts/demo.py --task prediction --image ./assets/example_obs/car.png --raymap_action assets/example_raymaps/raymap_forward_right.npy

打印信息:

You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers

Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00, 1.78it/s]

Fetching 3 files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 18450.02it/s]

Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 51.99it/s]

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [04:08<00:00, 4.97s/it]

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:09<00:00, 2.49s/it]

Building GLB scene

GLB Scene built

生成文件:

目标条件视觉规划,执行下面命令:

bash 复制代码
python scripts/demo.py --task planning --image ./assets/example_obs_goal/01_obs.png --goal ./assets/example_obs_goal/01_goal.png

打印信息:

You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers

Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00, 1.80it/s]

Fetching 3 files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 18978.75it/s]

Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 52.97it/s]

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [04:07<00:00, 4.96s/it]

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:09<00:00, 2.49s/it]

Building GLB scene

GLB Scene built

生成文件:

5、使用 Gradio 运行推理

Gradio 提供了基于网络的交互式 Aether 体验,执行下面命令:

bash 复制代码
python scripts/demo_gradio.py

注意:运行时推荐使用一块80GB内存的显卡(48G其实也勉强能运行的)

然后在浏览器输入:http://127.0.0.1:7860/,能看到下面的界面了

里面有三种任务(reconstruction、prediction、planning),有示例数据,也可以上传自己的数据进行测试

下面是一个prediction示例:

下面可以看看点云和预测的效果:

相关文章推荐:

UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation-CSDN博客

【机器人】复现 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

【机器人】复现 WMNav 具身导航 | 将VLM集成到世界模型中-CSDN博客

【机器人】复现 ECoT 具身思维链推理-CSDN博客

【机器人】复现 SG-Nav 具身导航 | 零样本对象导航的 在线3D场景图提示-CSDN博客

【机器人】复现 3D-Mem 具身探索和推理 | 3D场景记忆 CVPR 2025 -CSDN博客

【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动_embodied reasoner-CSDN博客

【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统-CSDN博客

【机器人】ForesightNav | 高效探索 动态场景 CVPR2025_pointnav中的指标介绍-CSDN博客

【机器人】复现 HOV-SG 机器人导航 | 分层 开放词汇 | 3D 场景图-CSDN博客

【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图-CSDN博客

分享完成~

相关推荐
张较瘦_3 分钟前
[论文阅读] 人工智能 | 读懂Meta-Fair:让LLM摆脱偏见的自动化测试新方法
论文阅读·人工智能
巴伦是只猫41 分钟前
【机器学习笔记 Ⅲ】4 特征选择
人工智能·笔记·机器学习
好心的小明1 小时前
【王树森推荐系统】召回11:地理位置召回、作者召回、缓存召回
人工智能·缓存·推荐系统·推荐算法
lishaoan771 小时前
使用tensorflow的线性回归的例子(十二)
人工智能·tensorflow·线性回归·戴明回归
二DUAN帝2 小时前
UE实现路径回放、自动驾驶功能简记
人工智能·websocket·机器学习·ue5·自动驾驶·ue4·cesiumforue
zskj_zhyl2 小时前
AI健康小屋“15分钟服务圈”:如何重构社区健康生态?
大数据·人工智能·物联网
荔枝味啊~2 小时前
相机位姿估计
人工智能·计算机视觉·3d
陈纬度啊3 小时前
自动驾驶ROS2应用技术详解
人工智能·自动驾驶·unix
开开心心_Every4 小时前
全能视频处理工具介绍说明
开发语言·人工智能·django·pdf·flask·c#·音视频
xunberg4 小时前
AI Agent 实战:将 Node-RED 创建的 MCP 设备服务接入 Dify
人工智能·mcp