veRL 推出开源 Uni-Agent：为通用 Agent 训练打造统一框架

仓库地址：Uni-Agent：github.com/verl-projec...

最近，OpenClaw 等开源 Agent 项目的爆火，释放出一个很强的信号：

Agent 正在从"看起来很厉害"，走向"真的开始替人做事"。它不再只是回答问题，而是开始真正执行任务，这也是 Agent 最让人兴奋的地方。

但在热闹背后，一个关键问题也逐渐浮出水面：能够支撑复杂通用场景、规模化运行，并自然衔接训练流程的开源基础设施，仍然十分稀缺。

今天的大多数开源 Agent 框架，已经在 Benchmark 和单任务验证中展现出不错的效果；但当需求进一步走向真实业务、开放环境以及长期演化时，底层系统能力的重要性会被迅速放大。

这背后，其实是 Agent 从 Demo 走向真实应用时的一道 "系统性断层"。

许多现有方案在预设任务中已经足够优秀，但当用户希望 Agent 接入自己的工具链、业务流程和执行环境，去完成例如论文检索、投研分析，甚至更复杂的生产任务时，就会不可避免地对框架提出更高要求：

开放性
扩展性
持续演化能力

尤其当 Agent 真正进入大规模任务执行阶段，安全隔离、高并发调度、多环境适配成为核心瓶颈 ------ 这也正是我们在 Uni-Agent 的运行层，重点集成火山引擎 veFaaS Sandbox 的原因。

再换句话说，Agent 的关注点，正在发生转移：从"一个 demo 能不能跑通"，转向：

"一套框架能否承载真实世界的复杂性，并支持持续探索与进化"；
"一套框架能否承载真实世界的复杂性、支撑规模化高并发执行，并支持持续探索与进化"。

Uni-Agent：从 Demo 到真实世界的一步

Uni-Agent 是 veRL 开源团队提出的、为通用 Agent 打造的统一训练框架，其核心目标是构建一个贯通构建、运行与训练完整流程的系统，旨在：

让开发者可以更轻松地构建自己的 Agent；
让系统可以稳定地支撑大规模任务运行；
让交互过程能够自然接入训练闭环，通过强化学习持续进化。

"Uni"包含两层含义：

Unified： 将构建（Build）、运行（Run）、训练（Train）融合在同一框架中，让推理与训练能够自然衔接；
Universal： 框架设计面向更通用、更复杂、更真实的应用场景。

veRL：字节跳动技术团队发起并维护的一个开源强化学习框架，它旨在通过高效的训练流程和灵活的算法实现，支持多样的强化学习训练需求。仓库地址：github.com/verl-projec...

一、Build：面向通用场景的灵活构建

具备稳定且通用的抽象，是 Agent 从"仅在少数场景可用"走向"在真实世界中可扩展、可复用、可演化"的基础。在 Uni-Agent 中，我们首先通过**"提取共性，释放变化"**的设计原则来解决这一基础问题。

我们将 Agent 的核心能力拆解为三个模块：

model：负责推理与决策；
tool：负责感知与行动；
env：负责执行环境与状态承载。

在这套抽象下，Uni-Agent 在三层都保留了扩展能力：model 层既可以灵活对接外部 API 模型服务，也支持接入用户自部署的 vLLM、SGLang 等推理后端；tool 层作为承载特定任务能力的关键抽象，支持围绕不同任务自由扩展；env 层支持可扩展的执行环境接入。这样一来，用户可以围绕自己的任务去组合和扩展 Agent 能力，以更低成本完成新场景接入。

例如，在 tutorial 中，我们实现了一个用于 arXiv 论文搜索与推荐的 Agent，仅通过新增一个 tool 就完成了功能扩展，整个 pipeline 无需改动。

二、Run：支持规模化任务的稳定运行

在真实场景应用中，处理规模是一个关键因素。

无论是大规模任务执行、批量结果验证，还是训练中的 rollout 采样，本质上都依赖于高效、稳定的并行推理和执行能力。相比"单个任务是否能跑通"，系统能否稳定地同时运行上千个任务，更能真正体现其能力上限。

在运行层，Uni-Agent 基于火山引擎 veFaaS Sandbox 提供了一套面向规模化的远程沙盒执行方案，从三个维度提供支撑：

安全性： 基于 MicroVM 级虚拟化，为每个任务提供隔离环境，安全应对未知代码执行与工具调用；
性能： 通过镜像预热、资源池化与调度优化，实现高并发与快速启动，在万级并发下仍保持稳定；
场景适配： 支持 Code、Browser、Computer 等多种执行环境，并允许自定义镜像，方便接入真实工具链与业务系统。

同时，Uni-Agent 还提供了轻量级的实时仪表盘（Live Dashboard），支持对大规模任务进行实时监控，让每个 Agent 任务的运行状态、日志流和整体进展都清晰可见。

三、Train：让 Agent 在真实环境中进化

复杂多变场景下的"skill"固然重要，但真正推动基模能力演进的，是在环境交互的过程中持续学习和进化。对 Agent 来说，每一次 rollout、每一次反馈、每一次结果验证，都是走向更强能力的训练信号。只有把真实交互自然接入训练闭环，Agent 才能在场景中不断进化。

Uni-Agent不只负责把 Agent 跑起来，也可以自然接入 verl 训练引擎，并支持当下前沿的高效训练技术。同时，Uni-Agent 也会随 verl 持续进行版本迭代，及时支持最新的训练能力与系统特性。

我们在现有的 Coding Agent 任务上进行了大规模的验证实验，用开源的 R2E-Gym 数据集（约 4500 条训练数据）训练 Qwen3-Coder-30B 模型，结果如下：

从这组曲线可以看到，模型在真实交互环境和强化学习的过程中里呈现出相对稳定的能力提升：训练 reward 持续抬升，验证集效果整体向上，并在期间出现了能力的涌现。这说明在 Uni-Agent 的训练框架下，模型能力可以沿着真实任务持续增长。

我们进一步观察到一个很关键的现象：Agent 任务天然存在明显的长尾效应，不同样本在交互轮数、环境执行时长和 rollout 长度上差异很大。这使得fully async、partial rollout 这些技术在 Agent 训练场景中展现出很强的适配价值。我们的实验表明，相比同步训练方案，异步训练效率实现了成倍提升，同时效果基本保持稳定。

四、长期愿景

我们希望，未来的 Agent 不只是"会聊天、会调几个工具"，而是真正能够在复杂世界中感知、行动、探索和进化。这也是 Uni-Agent 的长期愿景。

如果你也对通用 Agent、规模化推理、Agent 训练感兴趣，欢迎关注和 star Uni-Agent ，一起交流、共建：github.com/verl-projec...