Dexmal 原力灵机开源 Dexbotic：具身智能的“Transformers“库来了

现在 AI 能写代码、能画画，但你有没有想过，让 AI 去拧个瓶盖，为什么就这么难?

因为拧瓶盖这件事，需要三个能力同时在线：

眼睛-视觉（Vision）: 它得先看懂------哪个是瓶子？哪里是盖子？盖子纹理是什么样？
大脑-语言（Language）：它得理解人类的指令------"拧开瓶盖"是什么意思？是顺时针还是逆时针？用多大力？
身体-动作(Action)：它得精确地执行------手指要以多大角度抓住瓶盖？施加多大扭矩？

这三个能力，缺一不可，还得实时协同。

连接这三个能力的技术，就是 ****VLA(Vision-Language-Action)模型，****也是当下具身智能领域最核心的能力。

但现在做 VLA 研究的这群人，面临的是------现在做大模型的这群人 10 年前的工程环境。

什么意思？

VLA 领域现在的状态，类似于 2015-2016 年时候的深度学习------虽然算法创新很快，OpenVLA、RT-2、Pi0 轮番登场，但在工程上，很多团队在重复造轮子。

比如，你在顶会上看到三篇 VLA 论文，一个用 PyTorch + Llama2，一个用 JAX + PaLI，一个用 TensorFlow + 自己魔改的 VLM。想复现并对比，你得配置三套完全不同的环境。

比训练更恶心的是数据问题，想用同一份数据测试三个算法，你得写三个数据加载的脚本。

你还会面临一个问题------评测不公平，算法 A 训了 100 个 epoch，学习率 1e-4，算法 B 训了 200 个 epoch，学习率 2e-5，难以确定哪个更优。

而且，大多数 VLA 模型（OpenVLA、CogACT）在用 2023 的 Llama2，但现在 VLM 已经迭代到 Qwen2.5、Llama3 了。

为什么不用最新的？因为 VLA 代码一般和特定 VLM 深度绑定，换模型意味着大改代码，甚至重构整个训练流程。

这不是某个人、某个团队的问题，而是 VLA 研究的现状------****工程基础设施不成熟，****不得不内卷重复造轮子。

而这些痛苦，在 NLP、CV、深度学习领域里，还算可控。

因为你有 PyTorch、TensorFlow 这样的框架，有 MMDetection、Transformers 这样的工具箱。

Transformers 库允许让你能用 3 行代码加载 BERT、GPT，而不用管它们底层的实现细节。

复制代码

from transformers import AutoModel

model = AutoModel.from_pretrained("bert-base")

而就在最近，死磕真实世界"的老熟人---Dexmal 原力灵机推出了 Dexbotic，一套基于 PyTorch 框架开发的开源视觉-语言-动作模型（VLA）代码库，刚好提供了一种终结这种"内卷式"的重复劳动的方案。

前几天我写过一篇文章，介绍了他们不久前推出的全球首个大规模、多任务的真实机器人基准测试平台------RoboChallenge，在这个平台上，全球的机器人可以远程用真实的机器人，进行公平评测。解决的是具身智能领域"评测标准缺失"的问题。

而这次的 Dexbotic，解决的是"训练标准缺失"的问题。

就像计算机视觉有 MMDetection，NLP 有 Transformers 库，Dexbotic 试图成为具身智能领域的标准化工具箱。

总结来说，Dexbotic 提供了一套同时支持多个主流 VLA 算法的代码库，用户只需配置一次环境，基于所提供的预训练模型，即可在各类仿真环境中复现各类主流 VLA 算法。

不用再从头配环境，不用再猜别人的参数，更不用担心预训练模型过时。

老规矩，先放传送门：

官网：

https://dexbotic.com/
Paper：

https://dexbotic.com/Dexbotic_Tech_Report.pdf
GitHub：

https://github.com/Dexmal/dexbotic
Hugging Face：

https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4

现在我们一起看看 Dexbotic 到底做了什么？

Dexbotic 做了什么？

简单点说，Dexbotic 做了三件事：统一框架、统一数据、提供更强的预训练模型。

听起来好像没那么难，但这三件事，恰恰是现在 VLA 研究最缺的。

先说统一框架，用一个环境跑通所有主流算法。

主流的 VLA 算法有 Pi0、OpenVLA-OFT、CogACT 等，这些算法原本分散在不同的代码仓库，使用不同的深度学习框架，有些甚至没有开源完整代码。

现在在 Dexbotic 里，想测试 Pi0 和 CogACT 哪个更好，不用配两套环境，改一行代码就行：

复制代码

class MyExp(BaseExp):

model = "CogACT" # 从 π0 切换到 CogACT

Dexbotic 的做法是，把所有 VLA 模型抽象成两部分：视觉-语言模型（VLM）+ 动作专家（Action Expert）。VLM 负责「看懂」和「理解」，Action Expert 负责「执行」。这样一来，不管你用的是扩散模型还是流匹配，底层的 VLM 都可以复用，就这么简单。

再说统一数据格式。

这个问题比统一框架还恶心。因为每个团队采集数据的方式都不一样：有人用图片序列存储，有人用视频，有人还把机器人状态单独存成 CSV。你想混合使用不同来源的数据，得写一堆数据转换脚本，还得祈祷转换过程没出 bug。

Dexbotic 定义了一个叫 Dexdata 的格式：视频统一存成 MP4，每一帧的元数据（机器人状态、文字指令）存成 JSONL。就这么简单粗暴。

这个格式最大的好处是省空间。

以前那种把每一帧都存成 PNG 的方式，一个任务的数据可能要几个 GB，现在用视频压缩，能省下一大半存储。对于那些要在云端训练、数据传输成本很高的团队来说，是一件收益很大的事。

而且，转换一次之后，不管你是要训练 Pi0、CogACT 还是 OpenVLA，都能直接用。不用再为每个算法写一套数据加载代码。

我觉得最值得拿出来说说的，其实是预训练模型。

大多数 VLA 模型都是基于 Llama2 构建的，而 Llama2 是 2023 年的东西。现在是 2025 年，Qwen2.5、Llama3 在视觉-语言理解上已经甩开 Llama2 几条街了。

之前换模型意味着要大改代码，甚至重构整个训练流程，虽然大部分是工程活儿，但折腾一圈，成本太高。

Dexbotic 做的事情就是：基于最新的 Qwen2.5，从头预训练了一个视觉-语言模型，叫 DexboticVLM。

然后，基于这个模型，重新训练了几个主流的 VLA 算法------Pi0、CogACT、OpenVLA-OFT、MemoryVLA。效果也很明显。

拿 SimplerEnv 这个仿真环境来说，它包含 4 个操作任务：把勺子放在毛巾上、把胡萝卜放在盘子上、堆叠方块、把茄子放进篮子。

CogACT 官方版本的平均成功率是 51.3%，用了 Dexbotic 的预训练模型之后，直接飙到 69.5%------提升了 18 个百分点。

OFT 更夸张：官方版本只有 30.2%，用了 Dexbotic 之后变成 76.4%------提升了 46 个百分点。

再看 CALVIN 这个长时任务基准。它要求机器人连续完成多个指令，比如"先打开抽屉，再拿出红色方块，然后放到桌上"。这考验的是机器人的长时记忆和任务规划能力。

CogACT 官方版本平均能连续完成 3.25 个任务，用了 Dexbotic 之后能完成 4.06 个------提升了 25%。

意味着同样的算法，用了更好的基础模型，性能起飞了。

当然，仿真环境的成功率再高，也不如真机测试来得实在。

Dexmal 原力灵机团队在真实机器人上做了大量实验，包括 UR5e、Franka、ALOHA、ARX5 等多种平台。

从视频可以看到，有些任务的成功率已经很高了------比如用 UR5e 摆盘子，成功率达到 100%；用 ALOHA 叠碗，成功率 90%；用 ARX5 搜索绿色盒子，成功率 80%。

但也有一些任务还很困难，比如撕纸、倒薯条这种精细操作，成功率只有 20%-40%。

这也不是 Dexbotic 的问题，是这个领域要突破的问题，真实世界里的摩擦、碰撞、形变，都会导致失败。

上面介绍了这么多，可以概括一下，Dexbotic 整体架构分为三层：数据层（Data Layer）、模型层（Model Layer）和实验层（Experiment Layer）。

数据格式统一，模型层提供了几乎主流 VLA 算法，作为研究者，你 99% 的时间只在实验层工作。

值得一提的是，Dexbotic 的基础设施也很灵活，从云端到本地都支持。

如果你有预算，它支持阿里云 PAI、火山引擎这些云平台，可以用几百张 GPU 做大规模分布式训练。

如果你是高校学生或者小团队，它也支持本地 GPU 训练------一张 RTX 4090 就能跑起大多数 VLA 模型。不用非得有几百张 A100 才能入场。

除了这些核心能力，Dexbotic 还有一个很实用的设计：实验为中心的开发框架。

传统的深度学习项目，配置参数通常用 YAML 文件。你想改一个参数，得复制整个配置文件，找到对应的那一行，小心翼翼地修改，还得检查有没有漏改的地方。

Dexbotic 的做法是用 Python 类来管理配置。你有一个基础配置类，想改什么参数，就继承这个类，覆盖那一行：

复制代码

# 基础配置

class BaseExp:

model = "DexboticVLM"

lr = 1e-4

epochs = 100

# 你的实验

class MyExp(BaseExp):

lr = 5e-5 # 只改学习率，其他自动继承

这符合软件工程的"开闭原则"------对扩展开放，对修改封闭。你改一行代码，不会影响其他部分，做对照实验的速度都变快了呢。

Dexbotic 还有一个容易被忽视的价值：它为未来的"全身控制"做了架构准备。

现在的机器人研究，通常分两个方向:

****操作(Manipulation)：****用机械臂抓取、放置
****导航(Navigation)：****在环境中移动、避障

这两个方向往往是分开研究的。但未来的机器人，显然不能"只会站着抓东西"或"只会走路不干活"。它需要既能走到厨房，又能打开冰箱拿出可乐。

Dexbotic 在设计时考虑了这一点，把操作类和导航类统一到了一套框架下:

支持操作类策略:Pi0、CogACT、OpenVLA-OFT
支持导航类策略:MUVLA

****这意味着，未来你可以在同一个框架下，训练"既能走又能干活"的机器人。****虽然现在还做不到，但至少架构上留了空间。

最后，聊聊开源。

Dexbotic 是完全开源的，代码、预训练模型都在 GitHub 和 Hugging Face 上。

而且，为了进一步软硬件协同推进具身智能发展，降低了研究者的使用、改造的门槛，Dexmal 原力灵机还开源了DOS - W1 （Dexbotic Open Source-W1）------一款低成本的双臂机器人硬件平台。所有硬件设计文件都公开，使用消费级电机和传感器，普通实验室就能组装。

以及全球首个大规模、多任务的真实机器人基准测试平台 RoboChallenge：

至此，Dexmal 原力灵机的版图非常清晰了：

软件（大脑） ：Dexbotic 提供了标准化的"软件开发工具箱"；
硬件（身体） ：DOS-W1 系列提供了开放、低成本的"硬件身体"；
标准（试炼） ：RoboChallenge 则提供了公平衡量"AI 大脑"能力的"标准竞技场"。

这套组合拳，试图从根本上降低具身智能研究的门槛。

那 Dexbotic 能否真正成为具身智能的"标准工具箱"？

可能这还需要时间验证。但是对于那些正在被"配置地狱"和"高昂成本"双重折磨的研究者来说---这个正在形成的完整生态，或许，真的值得一试！

10月23日晚 19:00，Dexmal 原力灵机创始团队成员汪天才将现身直播间，讲解开源一站式 VLA 工具箱 Dexbotic，欢迎大家扫描图中二维码预约观看、线上交流 :