技术栈

rlinf

无问芯穹
3 小时前
agent·强化学习·rlinf
探路智能体落地“最后一公里”:复现Cursor在线强化学习,RLinf-Online团队详解技术实现路径及背后思考日前,我们基于 RLinf 框架实现了一个 Onlin RL 的示例,支持以组件的形式直接接入已部署的 Agent 服务中做在线强化学习,可帮助针对用户偏好在线调优 Agent 的服务效果,获得了许多伙伴的关注和反馈,今天我们将分享一些背后的思考,并为大家提供一个复现教程。
我是有底线的