AI洞察 | 智元、阿里在机器人领域的重磅开源

欢迎关注微信公众号：科技洞察者 📌

今天，我们将聚焦 AI 领域的最新进展，从具身智能的突破到模型开发的新工具，共同探讨技术开放如何加速创新。

具身智能：世界模型与开放协议的融合

近期，具身智能领域迎来多项重磅发布，技术巨头们正通过前沿研究与开源策略，加速机器人从感知到决策再到执行的全链条打通。

智元机器人：Genie Envisioner (GE) 平台

智元机器人推出了 Genie Envisioner (GE) 平台，这是一个面向真实世界机器人操控的统一世界模型平台。GE 平台突破了传统机器人学习分阶段开发的模式，将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，实现了机器人从"看"到"想"再到"动"的端到端推理与执行。

GE 基于约 3000 小时的真实机器人操控视频数据训练，在跨平台泛化和长时序任务执行上展现出显著优势。其核心在于构建了基于世界模型的视觉中心建模范式，直接在视觉空间中建模机器人与环境的交互动态，完整保留了操控过程中的空间结构和时序演化信息，从而赋予其高效的跨本体泛化能力和在超长步骤任务中的精确执行能力。

GE 平台由 GE-Base、GE-Act 和 GE-Sim 三个紧密集成的组件构成，智元机器人计划开源 GE 的全部代码、预训练模型和评测工具，旨在推动机器人从被动执行向主动"想象---验证---行动"的转变。

主页：genie-envisioner.github.io/

Github：github.com/AgibotTech/...

论文：arxiv.org/abs/2508.05...

阿里达摩院：具身智能核心技术开放

在世界机器人大会上，阿里达摩院宣布开源三项核心具身智能技术：视觉-语言-动作模型 RynnVLA-001-7B、世界理解模型 RynnEC 以及机器人上下文协议 RynnRCP。此举旨在解决具身智能开发中数据、模型与机器人本体适配的挑战，推动整个开发流程的打通。

达摩院首次提出并开源的 RynnRCP，是一套完整的机器人服务协议和框架，旨在实现不同数据、模型与本体间的无缝对接，打通从传感器数据采集到模型推理，再到机器人动作执行的完整工作流程。

RynnVLA-001 能够从第一人称视频中学习人类操作技能并将其迁移至机械臂，使机器人动作更连贯自然。

RynnEC 则赋予大模型理解物理世界的能力，能从 11 个维度解析场景物体，无需 3D 模型即可通过视频序列建立连续空间感知。

达摩院正通过与硬件厂商、数据采集方及技术社区的合作，构建开放协作平台，旨在拓展机器人产业空间并加速商业化落地。

机器人上下文协议 RynnRCP：github.com/alibaba-dam...

视觉-语言-动作模型 RynnVLA-001：github.com/alibaba-dam...

世界理解模型 RynnEC：github.com/alibaba-dam...

WorldVLA 模型：github.com/alibaba-dam...

AI 模型开发利器：效率与普惠并进

除了具身智能的宏大愿景，AI 模型开发工具与基础视觉模型也迎来了重要更新，旨在提升开发效率、降低技术门槛。

微软：POML------LLM 提示工程新范式

微软近日推出了 POML（Prompt Orchestration Markup Language），这是一种专为大型语言模型（LLMs）提示工程设计的新型标记语言，旨在通过结构化、可维护的方式提升 AI 应用开发效率。

POML 采用类似 HTML 的语法，利用<role>、<task>等语义组件将复杂提示模块化，从而提高提示的可读性、可重用性和可维护性。

它解决了传统提示工程中缺乏结构、数据整合复杂、格式敏感及工具支持不足等问题，并支持嵌入多种数据类型和通过 CSS-like 系统灵活调整输出格式。

POML 配备了强大的开发工具生态，包括提供语法高亮、自动补全等功能的 Visual Studio Code 扩展，以及 Node.js 和 Python 的 SDK。

尽管其结构化设计和模板引擎受到部分开发者认可，但也有观点指出其与 XML 的相似性，以及可能增加的学习成本。

微软强调 POML 在动态内容生成、A/B 测试和多模态指令生成等场景中的潜力，预计未来将成为提示工程领域的重要标准。

Github：github.com/microsoft/p...

Meta AI：DINOv3------自监督图像识别新里程碑

Meta AI 近日正式开源了全新一代通用图像识别模型 DINOv3，该模型基于自监督学习，核心创新在于无需人工标注即可实现卓越性能，彻底摆脱了对大量标注数据的依赖。这一特性显著降低了数据准备成本，并使其在数据稀缺或标注昂贵的场景中展现出巨大潜力，其在多项基准测试中的表现已与 SigLIP2 等领先模型持平或更优。

DINOv3 具备高质量高分辨率的密集特征表示能力，能够同时捕捉图像的全局信息和局部细节，为图像分类、目标检测、语义分割、图像检索和深度估计等多种视觉任务提供强大支持，并能高效处理卫星图像、医学图像等复杂数据类型。

Meta AI 此次将 DINOv3 的完整训练代码和预训练模型以商业友好许可开源，极大降低了开发者的使用门槛，支持通过 PyTorch Hub 和 Hugging Face Transformers 库加载，从而推动了 AI 视觉生态的发展。DINOv3 的发布是计算机视觉领域的技术飞跃，但其在实际部署中可能带来的隐私和偏见等伦理问题也值得持续关注。

主页：ai.meta.com/blog/dinov3...

Github：github.com/facebookres...

HuggingFace：huggingface.co/collections...

论文：arxiv.org/abs/2508.10...
如果对你有帮助的话，请点赞、分享。关注微信公众号科技洞察者，第一时间获取前沿科技讯息，还有数字人播客、演示视频等丰富内容，我们下期再见。