rlinf - rlinf技术,学习,经验文章

无问芯穹

3 个月前

探路智能体落地“最后一公里”：复现Cursor在线强化学习，RLinf-Online团队详解技术实现路径及背后思考日前，我们基于 RLinf 框架实现了一个 Onlin RL 的示例，支持以组件的形式直接接入已部署的 Agent 服务中做在线强化学习，可帮助针对用户偏好在线调优 Agent 的服务效果，获得了许多伙伴的关注和反馈，今天我们将分享一些背后的思考，并为大家提供一个复现教程。