agentic rl

威化饼的一隅

【大模型LLM学习】Agentic RL—基于Qwen3-4b训练Travel Planning Agent通义千问的deepresearch系列最新的一篇，高德公开了旅行规划助手的训练方法，论文为《ArenaRL: Scaling RL for Open-Ended Agents via Tournament based Relative Ranking》，并且这种方法不只是可以用于旅行规划助手，还可以扩展到其他Open-ended生成任务，解决开放生成任务里面llm-as-judge打分太随机把奖励信号淹没的问题。在这篇中记录尝试训练本地的旅行规划助手，需要使用到高德的地理API接口，阿里百炼的Qwe

【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器，并清晰地划分了三个核心组件之间的交互边界：ROLL（训练框架）、iFlow CLI（Agent 框架）和 ROCK（沙箱管理器）。

TORL：解锁大模型推理新境界，强化学习与工具融合的创新变革在大语言模型（LLMs）推理能力不断提升的当下，如何让模型更高效地解决复杂计算和推理任务成为关键。本文介绍的TORL（Tool-Integrated Reinforcement Learning）框架给出了全新方案。它通过强化学习让大模型自主运用计算工具，性能提升显著，为LLMs发展开辟新方向，一起来了解吧！

我是有底线的