英伟达:解耦训练与推演的服务架构

📖标题:ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

🌐来源:arXiv, 2603.18815v1

🛎️文章简介

🔸研究问题:现有的多轮大模型智能体强化学习框架中,轨迹生成(Rollout)与策略训练紧密耦合,导致资源利用冲突且系统难以迁移维护,如何解决这一瓶颈?

🔸主要贡献:提出了 ProRL Agent,一种基于"推演即服务"理念的可扩展基础设施,通过 HTTP API 将完整的智能体推演生命周期与训练循环彻底解耦。

📝重点思路

🔸采用推演即服务架构,将环境初始化、工具执行、结果评估等推演逻辑封装为独立的 HTTP 服务,使训练器仅需提交任务并接收轨迹,实现计算资源的物理隔离。

🔸设计基于 Singularity 的无根沙箱环境,支持在共享的高性能计算集群中以非特权用户身份运行,解决了传统 Docker 方案在 HPC 环境中的权限限制问题。

🔸实施三阶段异步流水线(初始化、运行、评估),为每个阶段分配独立的工作线程池,避免慢速阶段阻塞整体流程,最大化并发吞吐量。

🔸引入 Token-in/Token-out 通信机制,直接在训练管线中传递 Token ID 而非文本,消除了重新分词带来的分布漂移,确保训练数据的精确性。

🔸优化底层工具后端,利用伪终端替代 tmux 执行 Bash 命令,通过进程内 API 连接 IPython 内核,并使用 Unix 域套接字进行通信,显著降低单步动作延迟。

🔎分析总结

🔸在软件工程任务上的实验表明,ProRL Agent 在不同规模模型(4B 至 14B)上均显著优于现有框架,特别是在 8B 模型上实现了近两倍的性能提升。

🔸该系统具有良好的通用性,不仅在代码任务中表现优异,在需要网页搜索的 STEM 任务、依赖数学计算的 Math 任务以及代码生成的 Code 任务中均展现出稳定的训练收益。

🔸可扩展性测试显示,随着计算节点数量的增加,系统的推演吞吐量呈近乎线性的增长,证明其能有效利用大规模集群资源。

🔸消融实验证实,负载均衡策略、高效的 Bash 执行优化以及陈旧任务清理机制是提升 GPU 利用率和减少动作执行时间的关键因素。

💡个人观点

论文将高 I/O 消耗的推演过程独立化为微服务,解决了异构资源争抢的痛点。

🧩附录

相关推荐
程序员cxuan2 小时前
Agents.md 是什么
人工智能·后端·程序员
人工小情绪2 小时前
Windows 安装 Codex 桌面版,并用 CC Switch 管理配置
人工智能·windows·codex·cc switch
godspeed_lucip2 小时前
LLM和Agent——专题6:Multi Agent 入门(5)
人工智能·python
网安情报局2 小时前
告别排队与高延迟:直连GPT全系列,解锁低门槛、高稳定的AI生产力
人工智能·gpt·api·ai大模型
Hali_Botebie2 小时前
非共轭先验(Non-conjugate Prior)和共轭先验(Conjugate Prior)
人工智能·机器学习
没事别瞎琢磨2 小时前
三、配置系统——默认值与解析
人工智能·node.js
拓朗工控3 小时前
视觉检测行业工控机选型指南:核心要素与避坑策略
人工智能·数码相机·视觉检测·工控机·工业电脑
Urbano3 小时前
工装制作全流程科普:从面料到自动化生产
网络·人工智能
武子康3 小时前
调查研究-166 VoxCPM 详解:一个值得重点关注的开源 TTS 项目
人工智能·openai
hhzz3 小时前
详细解读Anthropic报告《当AI构建自己时...》
人工智能