Dexmal 原力灵机开源 Dexbotic:具身智能的“Transformers“库来了

现在 AI 能写代码、能画画,但你有没有想过,让 AI 去拧个瓶盖,为什么就这么难?

因为拧瓶盖这件事,需要三个能力同时在线:

  1. 眼睛-视觉(Vision): 它得先看懂------哪个是瓶子?哪里是盖子?盖子纹理是什么样?

  2. 大脑-语言(Language):它得理解人类的指令------"拧开瓶盖"是什么意思?是顺时针还是逆时针?用多大力?

  3. 身体-动作(Action):它得精确地执行------手指要以多大角度抓住瓶盖?施加多大扭矩?

这三个能力,缺一不可,还得实时协同。

连接这三个能力的技术,就是 ****VLA(Vision-Language-Action)模型,****也是当下具身智能领域最核心的能力。

但现在做 VLA 研究的这群人,面临的是------现在做大模型的这群人 10 年前的工程环境。

什么意思?

VLA 领域现在的状态,类似于 2015-2016 年时候的深度学习------虽然算法创新很快,OpenVLA、RT-2、Pi0 轮番登场,但在工程上,很多团队在重复造轮子。

比如,你在顶会上看到三篇 VLA 论文,一个用 PyTorch + Llama2,一个用 JAX + PaLI,一个用 TensorFlow + 自己魔改的 VLM。想复现并对比,你得配置三套完全不同的环境。

比训练更恶心的是数据问题,想用同一份数据测试三个算法,你得写三个数据加载的脚本。

你还会面临一个问题------评测不公平,算法 A 训了 100 个 epoch,学习率 1e-4,算法 B 训了 200 个 epoch,学习率 2e-5,难以确定哪个更优。

而且,大多数 VLA 模型(OpenVLA、CogACT)在用 2023 的 Llama2,但现在 VLM 已经迭代到 Qwen2.5、Llama3 了。

为什么不用最新的?因为 VLA 代码一般和特定 VLM 深度绑定,换模型意味着大改代码,甚至重构整个训练流程。

这不是某个人、某个团队的问题,而是 VLA 研究的现状------****工程基础设施不成熟,****不得不内卷重复造轮子。

而这些痛苦,在 NLP、CV、深度学习领域里,还算可控。

因为你有 PyTorch、TensorFlow 这样的框架,有 MMDetection、Transformers 这样的工具箱。

Transformers 库允许让你能用 3 行代码加载 BERT、GPT,而不用管它们底层的实现细节。

复制代码
from transformers import AutoModel   

model = AutoModel.from_pretrained("bert-base")

而就在最近,死磕真实世界"的老熟人---Dexmal 原力灵机推出了 Dexbotic,一套基于 PyTorch 框架开发的开源视觉-语言-动作模型(VLA)代码库,刚好提供了一种终结这种"内卷式"的重复劳动的方案。

前几天我写过一篇文章,介绍了他们不久前推出的全球首个大规模、多任务的真实机器人基准测试平台------RoboChallenge,在这个平台上,全球的机器人可以远程用真实的机器人,进行公平评测。解决的是具身智能领域"评测标准缺失"的问题。

而这次的 Dexbotic,解决的是"训练标准缺失"的问题。

就像计算机视觉有 MMDetection,NLP 有 Transformers 库,Dexbotic 试图成为具身智能领域的标准化工具箱。

总结来说,Dexbotic 提供了一套同时支持多个主流 VLA 算法的代码库,用户只需配置一次环境,基于所提供的预训练模型,即可在各类仿真环境中复现各类主流 VLA 算法。

不用再从头配环境,不用再猜别人的参数,更不用担心预训练模型过时。

老规矩,先放传送门:

官网:

https://dexbotic.com/
Paper

https://dexbotic.com/Dexbotic_Tech_Report.pdf
GitHub:

https://github.com/Dexmal/dexbotic
Hugging Face:

https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4

现在我们一起看看 Dexbotic 到底做了什么?

Dexbotic 做了什么?

简单点说,Dexbotic 做了三件事:统一框架、统一数据、提供更强的预训练模型

听起来好像没那么难,但这三件事,恰恰是现在 VLA 研究最缺的。

先说统一框架,用一个环境跑通所有主流算法。

主流的 VLA 算法有 Pi0、OpenVLA-OFT、CogACT 等,这些算法原本分散在不同的代码仓库,使用不同的深度学习框架,有些甚至没有开源完整代码。

现在在 Dexbotic 里,想测试 Pi0 和 CogACT 哪个更好,不用配两套环境,改一行代码就行:

复制代码
class MyExp(BaseExp):  

model = "CogACT" # 从 π0 切换到 CogACT

Dexbotic 的做法是,把所有 VLA 模型抽象成两部分:视觉-语言模型(VLM)+ 动作专家(Action Expert)。VLM 负责「看懂」和「理解」,Action Expert 负责「执行」。这样一来,不管你用的是扩散模型还是流匹配,底层的 VLM 都可以复用,就这么简单。

再说统一数据格式

这个问题比统一框架还恶心。因为每个团队采集数据的方式都不一样:有人用图片序列存储,有人用视频,有人还把机器人状态单独存成 CSV。你想混合使用不同来源的数据,得写一堆数据转换脚本,还得祈祷转换过程没出 bug。

Dexbotic 定义了一个叫 Dexdata 的格式:视频统一存成 MP4,每一帧的元数据(机器人状态、文字指令)存成 JSONL。就这么简单粗暴。

这个格式最大的好处是省空间

以前那种把每一帧都存成 PNG 的方式,一个任务的数据可能要几个 GB,现在用视频压缩,能省下一大半存储。对于那些要在云端训练、数据传输成本很高的团队来说,是一件收益很大的事。

而且,转换一次之后,不管你是要训练 Pi0、CogACT 还是 OpenVLA,都能直接用。不用再为每个算法写一套数据加载代码。

我觉得最值得拿出来说说的,其实是预训练模型。

大多数 VLA 模型都是基于 Llama2 构建的,而 Llama2 是 2023 年的东西。现在是 2025 年,Qwen2.5、Llama3 在视觉-语言理解上已经甩开 Llama2 几条街了。

之前换模型意味着要大改代码,甚至重构整个训练流程,虽然大部分是工程活儿,但折腾一圈,成本太高。

Dexbotic 做的事情就是:基于最新的 Qwen2.5,从头预训练了一个视觉-语言模型,叫 DexboticVLM

然后,基于这个模型,重新训练了几个主流的 VLA 算法------Pi0、CogACT、OpenVLA-OFT、MemoryVLA。效果也很明显。

拿 SimplerEnv 这个仿真环境来说,它包含 4 个操作任务:把勺子放在毛巾上、把胡萝卜放在盘子上、堆叠方块、把茄子放进篮子。

CogACT 官方版本的平均成功率是 51.3%,用了 Dexbotic 的预训练模型之后,直接飙到 69.5%------提升了 18 个百分点。

OFT 更夸张:官方版本只有 30.2%,用了 Dexbotic 之后变成 76.4%------提升了 46 个百分点。

再看 CALVIN 这个长时任务基准。它要求机器人连续完成多个指令,比如"先打开抽屉,再拿出红色方块,然后放到桌上"。这考验的是机器人的长时记忆和任务规划能力。

CogACT 官方版本平均能连续完成 3.25 个任务,用了 Dexbotic 之后能完成 4.06 个------提升了 25%。

意味着同样的算法,用了更好的基础模型,性能起飞了。

当然,仿真环境的成功率再高,也不如真机测试来得实在。

Dexmal 原力灵机团队在真实机器人上做了大量实验,包括 UR5e、Franka、ALOHA、ARX5 等多种平台。

从视频可以看到,有些任务的成功率已经很高了------比如用 UR5e 摆盘子,成功率达到 100%;用 ALOHA 叠碗,成功率 90%;用 ARX5 搜索绿色盒子,成功率 80%。

但也有一些任务还很困难,比如撕纸、倒薯条这种精细操作,成功率只有 20%-40%。

这也不是 Dexbotic 的问题,是这个领域要突破的问题,真实世界里的摩擦、碰撞、形变,都会导致失败。

上面介绍了这么多,可以概括一下,Dexbotic 整体架构分为三层:数据层(Data Layer)、模型层(Model Layer) 和 实验层(Experiment Layer)。

数据格式统一,模型层提供了几乎主流 VLA 算法,作为研究者,你 99% 的时间只在实验层工作。

值得一提的是,Dexbotic 的基础设施也很灵活,从云端到本地都支持。

如果你有预算,它支持阿里云 PAI、火山引擎这些云平台,可以用几百张 GPU 做大规模分布式训练。

如果你是高校学生或者小团队,它也支持本地 GPU 训练------一张 RTX 4090 就能跑起大多数 VLA 模型。不用非得有几百张 A100 才能入场。

除了这些核心能力,Dexbotic 还有一个很实用的设计:实验为中心的开发框架

传统的深度学习项目,配置参数通常用 YAML 文件。你想改一个参数,得复制整个配置文件,找到对应的那一行,小心翼翼地修改,还得检查有没有漏改的地方。

Dexbotic 的做法是用 Python 类来管理配置。你有一个基础配置类,想改什么参数,就继承这个类,覆盖那一行:

复制代码
# 基础配置  

class BaseExp:

model = "DexboticVLM"

lr = 1e-4

epochs = 100

# 你的实验

class MyExp(BaseExp):

lr = 5e-5 # 只改学习率,其他自动继承

这符合软件工程的"开闭原则"------对扩展开放,对修改封闭。你改一行代码,不会影响其他部分,做对照实验的速度都变快了呢。

Dexbotic 还有一个容易被忽视的价值:它为未来的"全身控制"做了架构准备。

现在的机器人研究,通常分两个方向:

  • ****操作(Manipulation):****用机械臂抓取、放置

  • ****导航(Navigation):****在环境中移动、避障

这两个方向往往是分开研究的。但未来的机器人,显然不能"只会站着抓东西"或"只会走路不干活"。它需要既能走到厨房,又能打开冰箱拿出可乐。

Dexbotic 在设计时考虑了这一点,把操作类和导航类统一到了一套框架下:

  • 支持操作类策略:Pi0、CogACT、OpenVLA-OFT

  • 支持导航类策略:MUVLA

****这意味着,未来你可以在同一个框架下,训练"既能走又能干活"的机器人。****虽然现在还做不到,但至少架构上留了空间。

最后,聊聊开源。

Dexbotic 是完全开源的,代码、预训练模型都在 GitHub 和 Hugging Face 上。

而且,为了进一步软硬件协同推进具身智能发展,降低了研究者的使用、改造的门槛,Dexmal 原力灵机还开源了DOS - W1 (Dexbotic Open Source-W1)------一款低成本的双臂机器人硬件平台。所有硬件设计文件都公开,使用消费级电机和传感器,普通实验室就能组装。

以及全球首个大规模、多任务的真实机器人基准测试平台 RoboChallenge:

至此,Dexmal 原力灵机的版图非常清晰了:

  1. 软件(大脑)Dexbotic 提供了标准化的"软件开发工具箱";

  2. 硬件(身体)DOS-W1 系列提供了开放、低成本的"硬件身体";

  3. 标准(试炼)RoboChallenge 则提供了公平衡量"AI 大脑"能力的"标准竞技场"。

这套组合拳,试图从根本上降低具身智能研究的门槛。

那 Dexbotic 能否真正成为具身智能的"标准工具箱"?

可能这还需要时间验证。但是对于那些正在被"配置地狱"和"高昂成本"双重折磨的研究者来说---这个正在形成的完整生态,或许,真的值得一试!

10月23日晚 19:00,Dexmal 原力灵机创始团队成员汪天才将现身直播间,讲解开源一站式 VLA 工具箱 Dexbotic,欢迎大家扫描图中二维码预约观看、线上交流 :

相关推荐
飞飞是甜咖啡5 小时前
SPP-CNN解决CNN只能处理固定大小的输入图片
人工智能·神经网络·cnn
xiaoxiaode_shu5 小时前
神经网络基础
人工智能·深度学习·神经网络
想ai抽5 小时前
Flink的checkpoint interval与mini-batch什么区别?
大数据·flink·batch
字节跳动数据平台5 小时前
火山引擎推出Data Agent评测体系,并发布《2025数据智能体实践指南》
大数据
字节跳动数据平台5 小时前
火山引擎发布新产品用户研究Agent,并推出数据智能体评测体系
大数据
在未来等你6 小时前
Kafka面试精讲 Day 29:版本升级与平滑迁移
大数据·分布式·面试·kafka·消息队列
雾行灯6 小时前
Hive 中的“分布键”之思:从数据组织到查询优化的系统解析
大数据
小小爱大王6 小时前
AI 编码效率提升 10 倍的秘密:Prompt 工程 + 工具链集成实战
java·javascript·人工智能
在未来等你6 小时前
Kafka面试精讲 Day 30:Kafka面试真题解析与答题技巧
大数据·分布式·面试·kafka·消息队列