VLA--Gemini Robotics On-Device: 将AI带到本地机器人设备上


更多内容:XiaoJ的知识星球


目录

  • [1. 一种高效、本地的机器人模型](#1. 一种高效、本地的机器人模型)
  • [2. 模型能力和性能](#2. 模型能力和性能)
  • [3. 可适应新任务,跨实体泛化](#3. 可适应新任务,跨实体泛化)
  • [4. Gemini Robotics SDK](#4. Gemini Robotics SDK)
  • [5. MuJoCo物理模拟器](#5. MuJoCo物理模拟器)
  • 参考

.

Gemini Robotics On-Device :谷歌DeepMind推出可本地运行 于机器人本体的高效通用 VLA(视觉语言行动)模型 ,具备灵巧操作与快速任务适应能力,断网也能低延迟稳定工作 。搭配 Gemini Robotics SDK ,可在 MuJoCo 模拟器或真实环境中评测与微调模型。

.

1. 一种高效、本地的机器人模型

今年 3 月,Google 推出了 Gemini Robotics,一个先进的 VLA(视觉语言行动)模型,将 Gemini 2.0 的多模态推理和现实世界理解带入物理世界。

紧接着,Google 推出 Gemini Robotics On-Device,一个很强大的 VLA 模型,专为在机器人设备本地运行而优化。Gemini Robotics On-Device 展现出强大的通用灵巧性和任务泛化能力,并且针对在机器人本身高效运行进行了优化。由于该模型独立于数据网络运行,因此它适用于对延迟敏感的应用,并确保在间歇性或无连接的环境中保持稳健性。

还提供 Gemini Robotics SDK ,帮助开发者轻松在他们的任务和环境上评估 Gemini Robotics On-Device,在 MuJoCo 物理模拟器中测试我们的模型,并快速将其应用于新领域,只需 50 到 100 个演示即可。开发者可以通过加入可信测试者计划来获取 SDK。

.

2. 模型能力和性能

Gemini Robotics On-Device 是一款双臂机器人的机器人基础模型,对计算资源要求极低。它在 Gemini Robotics 的任务泛化与灵巧操作能力之上,进一步具备:

  • 面向灵巧操控的快速实验设计

  • 通过微调即可适应新任务并提升表现

  • 本地低延迟推理优化

该模型在多种测试场景中展现出卓越的视觉、语义与行为泛化能力,可理解自然语言指令,并完成诸如拉开拉链、折叠衣物等高灵巧度任务------全部直接在机器人端运行。

Gemini Robotics On-Device 强大的泛化性能和指令跟随性能表现。

图表:评估 Gemini Robotics On-Device 泛化性能的图表

图表:评估 Gemini Robotics On-Device 指令跟随性能的图表

.

3. 可适应新任务,跨实体泛化

Gemini Robotics On-Device 是谷歌DeepMind首次提供的可用于微调的 VLA 模型。虽然许多任务可以直接使用,但开发者也可以选择调整模型以实现其应用更好的性能。我们的模型能够快速适应新任务,只需 50 到 100 个示例即可------这表明该设备模型能够多么好地将其基础知识泛化到新任务中。

这里,展示了 Gemini Robotics On-Device 在涉及针对新模型进行微调的任务上,如何优于当前的最好设备端 VLA。我们在七个不同难度的灵巧操作任务上测试了该模型,包括系午餐盒、抽牌和倒沙拉酱等。

图表:展示 Gemini Robotics On-Device 任务适应性能的图表

可将 Gemini Robotics On-Device 模型适配到不同的机器人形态上。虽然训练是在 ALOHA 机器人,但能够进一步将其适配到双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。

  • 在双臂 Franka 机器人上,该模型执行通用指令跟随,包括处理先前未见过的物体和场景,完成折叠衣服等灵巧任务,或执行需要精确度和灵巧性的工业皮带组装任务。

  • 在 Apollo 人形机器人上,可将模型适配于一个显著不同的形态。相同的通用模型可以遵循自然语言指令,并以通用方式操作不同的物体,包括之前未见过的物体。

.

4. Gemini Robotics SDK

Gemini Robotics SDK:https://github.com/google-deepmind/gemini-robotics-sdk:https://github.com/google-deepmind/gemini-robotics-sdk

Safari SDK 提供了使用 Gemini Robotics 模型系列中的所有模型所需的完整生命周期工具,包括但不限于,访问检查点、部署模型、在机器人和模拟环境中评估模型、上传数据、微调模型、下载微调后的检查点等。大多数功能需要您加入 Gemini Robotics 可信测试者计划才能使用。

.

1)安装

Safari SDK 可以通过 PyPI 轻松安装。

shell 复制代码
pip install safari_sdk

源代码可在 https://github.com/google-deepmind/gemini-robotics-sdk 上找到。

.

2)构建wheel

构建Python wheel:

shell 复制代码
scripts/build_wheel.sh

这个脚本将构建一个可用于 pip 安装的 Safari SDK 轮子,并将文件路径打印到标准输出。

.

3)Flywheel CLI

Flywheel CLI 是在安装 pip 包后可用的便捷 CLI 工具。它提供了一套与 Gemini Robotics 平台交互的命令,例如训练模型、服务模型、管理数据和下载工件。

要使用 CLI:

shell 复制代码
flywheel-cli <command> [--flags] [--flags]

支持的命令有:

  • train:训练一个模型。需要指定任务 ID、开始日期和结束日期。

  • serve:部署一个模型。需要指定训练作业 ID。

  • list:列出可用的训练作业。

  • list_serve: 列出可用的服务任务。

  • data_stats: 显示可用于训练的数据统计信息。

  • download: 从训练任务或特定的工件 ID 下载工件。

  • upload_data: 将数据上传到数据摄取服务。

  • version: 显示 SDK 的版本。

  • help: 显示所有可用命令和标志的帮助信息。

.

5. MuJoCo物理模拟器

MuJoCo物理模拟器:https://github.com/google-deepmind/aloha_sim

Aloha Sim 是一个定义 Aloha 机器人模拟环境的 Python 库。它包含一系列用于机器人学习和评估的任务。

.

1)安装

使用 pip 安装:

shell 复制代码
# create a virtual environment and pip install
pip install -e .

或者直接使用 uv 运行

shell 复制代码
pip install uv
uv run <script>.py

告诉 Mujoco 使用哪个后端,否则模拟将会非常慢

shell 复制代码
export MUJOCO_GL='egl'

.

2)测试

shell 复制代码
# 在没有策略的情况下与场景交互
python aloha_sim/viewer.py --policy=no_policy --task_name=HandOverBanana

# individual tests
python aloha_sim/tasks/test/aloha2_task_test.py
python aloha_sim/tasks/test/hand_over_test.py
...

# all tests
python -m unittest discover aloha_sim/tasks/test '*_test.py'

.

3)推理

使用 Gemini Robotics 模型进行推理 受信任的测试者。如果您不是受信任的测试者,请在此注册 此处.

请遵循 SDK 文档 来部署模型。用于真实世界评估的相同模型可以直接应用于模拟。

(1)安装 SDK 依赖

shell 复制代码
pip install aloha_sim[inference]

(2)交互式展开

使用选定任务启动查看器:

shell 复制代码
# defaut task: "put the banana in the bowl"
python aloha_sim/viewer.py

# "remove the cap from the marker"
python aloha_sim/viewer.py --task_name=MarkerRemoveLid

# "place the can opener in the left compartment of the caddy"
python aloha_sim/viewer.py --task_name=ToolsPlaceCanOpenerInLeftCompartment
...

查看 task_suite.py 获取所有可用任务列表。

您可以使用查看器暂停/继续环境,与对象交互,并为机器人输入新指令。

shell 复制代码
Instructions for using the viewer:

- shift + 'i' = enter new instruction
- space bar = pause/resume.
- backspace = reset environment.
- mouse right moves the camera
- mouse left rotates the camera
- double-click to select an object

When the environment is not running:

- ctrl + mouse left rotates a selected object
- ctrl + mouse right moves a selected object

When the environment is running:

- ctrl + mouse left applies torque to an object
- ctrl + mouse right applies force to an object

(3)评估

shell 复制代码
python aloha_sim/run_eval.py

对所有任务运行 N 个评估周期,并将视频保存在 /tmp/

.


.

参考

Gemini Roboticshttps://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

Gemini Robotics On-Devicehttps://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

Gemini Robotics SDKhttps://github.com/google-deepmind/gemini-robotics-sdk

MuJoCo物理模拟器https://github.com/google-deepmind/aloha_sim

可信测试者计划注册https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/viewform?ts=67cef986\&edit_requested=true

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

相关推荐
棒棒的皮皮1 天前
【深度学习】YOLO模型评估之指标、可视化曲线分析
人工智能·深度学习·yolo·计算机视觉
驭白.1 天前
不止于自动化:新能源汽车智造的数字基座如何搭建?
大数据·人工智能·自动化·汽车·数字化转型·制造业
企业智能研究1 天前
什么是数据治理?数据治理对企业有什么用?
大数据·人工智能·数据分析·agent
阿里云大数据AI技术1 天前
面向 Interleaved Thinking 的大模型 Agent 蒸馏实践
人工智能
Evand J1 天前
【课题推荐】基于群体智能的定位系统优化——多机器人协同定位,通过群体智能优化路径规划与误差修正
机器人·协同·路径·多机器人
AI Echoes1 天前
LangChain 非分割类型的文档转换器使用技巧
人工智能·python·langchain·prompt·agent
哔哔龙1 天前
LangChain核心组件可用工具
人工智能
全栈独立开发者1 天前
点餐系统装上了“DeepSeek大脑”:基于 Spring AI + PgVector 的 RAG 落地指南
java·人工智能·spring
2501_941878741 天前
在班加罗尔工程实践中构建可持续演进的机器学习平台体系与技术实现分享
人工智能·机器学习
guoketg1 天前
BERT的技术细节和面试问题汇总
人工智能·深度学习·bert