Dexbotic 开源深度解析:重构具身智能 VLA 研发的技术基石与实现路径

Dexbotic 开源深度解析:重构具身智能 VLA 研发的技术基石与实现路径

大家好,我是AI算法工程师七月,曾在华为、阿里任职,技术栈广泛,爱好广泛,喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

  • 关注公众号:智启七月,获取最新观察、思考和文章推送。
  • 关注知乎:七月,获取最新观察、思考和文章推送。
  • 关注CSDN:智启七月,获取最新观察、思考和文章推送。
  • 网站1 :七月
  • 网站2:zerodesk

我会在这里分享关于 编程技术、独立开发、行业资讯,思考感悟 等内容。爱好交友,想加群滴滴我,wx:swk15688532358,交流分享

如果本文能给你提供启发或帮助,欢迎动动小手指,一键三连 (点赞、评论、转发),给我一些支持和鼓励,谢谢。

作者:七月 链接:julyblog 来源:七月 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

Dexbotic 开源

今天的 VLA 研究分散在各个机构,每个研究团队都在用自己的规则"下棋"。他们采用不同的数据格式,基于不同的模型架构,运行在不同的实验环境中。这种碎片化的研发状态,让全球研究陷入了一场低效的"中盘缠斗"。一个根本性的问题被长期搁置:一个算法在另一个实验室表现不佳,我们很难判断,究竟是因为设计缺陷,还是仅仅因为"水土不服"。当公平比较都难以实现时,有效的知识积累与真正的技术进步又从何谈起?为打破这一困境,Dexmal 原力灵机开源了 Dexbotic。

作为一套基于 PyTorch 框架的开源视觉-语言-动作模型工具箱,Dexbotic 从数据、模型到实验三个层面,为具身智能研究者提供了一种标准化、模块化且高性能的一站式科研基础设施。它的出现,显著提升 VLA研究的工程效率,或将为具身智能落下"第三十七手"。

这次的 Dexbotic,解决的是"训练标准缺失"的问题。

就像计算机视觉有 MMDetection,NLP 有 Transformers 库,Dexbotic 试图成为具身智能领域的标准化工具箱。

添加图片注释,不超过 140 字(可选)

总结来说,Dexbotic 提供了一套同时支持多个主流 VLA 算法的代码库,用户只需配置一次环境,基于所提供的预训练模型,即可在各类仿真环境中复现各类主流 VLA 算法。

不用再从头配环境,不用再猜别人的参数,更不用担心预训练模型过时。

老规矩,先放传送门:

官网: Dexbotic Paperdexbotic.com/Dexbotic_Te... GitHub: github.com/Dexmal/dexb... Hugging Face: huggingface.co/collections...

现在我们一起看看 Dexbotic 到底做了什么?

Dexbotic 做了什么?

简单点说,Dexbotic 做了三件事:统一框架、统一数据、提供更强的预训练模型

统一数据

传统VLA研究经常因为数据往往格式各异、命名混乱,视频、传感器状态与文本描述难以统一对齐而陷入混乱,各种信息常需手工对齐,既耗时又易错。

对此,Dexbotic设计了一种名为Dexdata的统一高效的数据格式,为UR5、Franka、ALOHA、ARX5等多款主流机器人提供统一的数据格式。

在Dexdata格式中,所有内容被结构化存储为两个核心目录:视频目录与JSONL目录,视频目录中存储.mp4格式的视频文件,而JSONL目录中存储对应的文本信息。每个JSONL文件包含单个机器人任务的完整数据,还包含index_cache.json文件,用于记录所有任务的元数据并加速数据访问。

基于Dexdata格式的数据,系统将自动执行数据处理流程,提取图像、文本及状态信息用于模型训练,提高训练效率。相比Lerobot与RLDS等格式,Dexdata在数据加载与模型训练阶段能显著节省存储空间。

添加图片注释,不超过 140 字(可选)

数据标准化是研究的基础,实则决定了后续多机器人、多视角的可拓展性,也决定了具身智能的规模化发展潜力。

Dexdata的创新之处,就在于没有局限于单一机器人类型,而是构建了可拓展的通用框架,让不同机器人的数据能够在同一框架下复用。Dexmal原力灵机团队还表示,他们将持续扩展Dexdata的适配范围,让更多机器人平台接入这一标准。把所有 VLA 模型抽象成两部分:视觉-语言模型(VLM)+ 动作专家(Action Expert)。VLM 负责「看懂」和「理解」,Action Expert 负责「执行」。这样一来,不管你用的是扩散模型还是流匹配,底层的 VLM 都可以复用,就这么简单。

提供更强的预训练模型

Dexbotic从零开始预训练了视觉-语言模型DexboticVLM, 既可以直接支持离散VLA训练,也可以作为现有VLA策略的基座模型。该模型采用模块化设计,整合了CLIP作为视觉编码器、两层MLP作为投影层、Qwen2.5作为大语言模型。

Dexbotic 提供了两种预训练模型:

离散型预训练模型(Dexbotic-Base): 适用于通用VLA策略,模型使用了来自Open-X Embodiment数据集、RLBench、Libero、Maniskill2等多个仿真器的数据,并融合了UR5等真实机械人的数据。,用离散化token形式来学习动作空间。研究者可直接在此模型上微调,复现π0、OFT、CogACT、MemoryVLA等主流算法,而无需从零训练。

添加图片注释,不超过 140 字(可选)

连续型预训练模型(Dexbotic-CogACT): 专为连续动作策略设计,包括单臂和双臂两个版本。单臂模型基于Dexbotic-Base进行连续表征预训练,数据来自Open-X Embodiment子集与团队私有数据集;双臂版本包含来自8种真实单臂机器人(UR5、Franka、UniTree Z1、Realman GEN72、ARX5等)的52个任务数据,还进一步引入Robomind、AgiBot World 及 ALOHA双臂数据,以支持多视角输入与双臂任务。

Dexbotic这种同时覆盖离散与连续动作策略的设计,精准击中了当前VLA研究的核心需求差异,既兼顾了学术研究的开放性,又考虑了产业落地的实用性。

目前,DexboticVLM了同时提供支持π0、OpenVLA-OFT、CogACT、MemoryVLA等多种VLA策略的统一代码库,用户仅需一次环境配置即可复现多种VLA方法。另外,用户也可以便捷地自定义新的VLA模型。这就让研究者无需重复搭建环境,也能轻松横向比较不同策略的性能,从而在统一标准下推动算法的进化。

基于最新的 Qwen2.5,从头预训练了一个视觉-语言模型,叫 DexboticVLM 。然后,基于这个模型,重新训练了几个主流的 VLA 算法------Pi0、CogACT、OpenVLA-OFT、MemoryVLA。效果也很明显。

拿 SimplerEnv 这个仿真环境来说,它包含 4 个操作任务:把勺子放在毛巾上、把胡萝卜放在盘子上、堆叠方块、把茄子放进篮子。

CogACT 官方版本的平均成功率是 51.3%,用了 Dexbotic 的预训练模型之后,直接飙到 69.5%------提升了 18 个百分点。

添加图片注释,不超过 140 字(可选)

OFT 更夸张:官方版本只有 30.2%,用了 Dexbotic 之后变成 76.4%------提升了 46 个百分点。

再看 CALVIN 这个长时任务基准。它要求机器人连续完成多个指令,比如"先打开抽屉,再拿出红色方块,然后放到桌上"。这考验的是机器人的长时记忆和任务规划能力。CogACT 官方版本平均能连续完成 3.25 个任务,用了 Dexbotic 之后能完成 4.06 个------提升了 25%。

意味着同样的算法,用了更好的基础模型,性能起飞了。

当然,仿真环境的成功率再高,也不如真机测试来得实在。

Dexmal 原力灵机团队在真实机器人上做了大量实验,包括 UR5e、Franka、ALOHA、ARX5 等多种平台。

添加图片注释,不超过 140 字(可选)

从视频可以看到,有些任务的成功率已经很高了------比如用 UR5e 摆盘子,成功率达到 100%;用 ALOHA 叠碗,成功率 90%;用 ARX5 搜索绿色盒子,成功率 80%。

统一框架

在传统的VLA开发流程中,研究者需要手动配置大量YAML文件,这些配置复杂、易错,不仅浪费大量时间,也容易让科研的可复现性陷入混乱。

而Dexbotic秉持着"实验为中心"的理念,重塑了这一流程。它创新性引入的实验脚本机制, 把一套复杂的实验配置,简化为一套可继承的脚本体系,在确保系统稳定性的同时支持快速实验迭代开发。

具体来说,用户不再需要手动维护庞杂的配置文件,可基于base_exp脚本继承配置,修改优化器、数据、模型等字段,不必复制完整文件即可创建新的实验方案。运行命令格式为:python xxx_exp.py -task train。

这样的机制就意味着,研究人员的时间不再浪费在环境修补与路径兼容上,而能真正投入到算法优化本身,提升研究单位产出。不仅提升了个体效率,更能加速整个行业的技术迭代速度,形成良性创新循环。

Dexbotic同时支持云端与本地一体化训练, 它既可运行在阿里云、火山引擎等大规模云训练平台上,也适配RTX 4090等消费级显卡的本地训练环境。这让研究门槛被大幅降低,中小型团队甚至个人研究者,都可以以更低成本参与到具身智能的创新浪潮中。可以说,Dexbotic让做实验本身重新变成了一件轻松、高效且透明的事情。

相关推荐
Miku164 小时前
吴恩达Agentic AI课程Module1学习笔记
人工智能·设计模式·agent
San304 小时前
使用 n8n 构建自动化科技新闻速览工作流:从 RSS 到 AI 摘要生成与文件存储
运维·人工智能·机器学习
程序员泥瓦匠4 小时前
在 GEO / AIO 角度:如何优化 SEO 内容?
人工智能·seo
格林威4 小时前
常规点光源在工业视觉检测上的应用
大数据·人工智能·数码相机·计算机视觉·视觉检测·制造·视觉光源
技术闲聊DD4 小时前
深度学习(14)-Pytorch torch 手册
人工智能·pytorch·深度学习
Baihai_IDP4 小时前
AI 编程热潮下的万字思考 —— 规避风险,善用其利
人工智能·程序员·ai编程
无风听海4 小时前
神经网络之样本方差的无偏估计
人工智能·神经网络·概率论
beyond阿亮5 小时前
nacos支持MCP Server注册与发现
java·python·ai·nacos·mcp