agentic rl

威化饼的一隅1 天前
大模型·llm·agent·强化学习·智能体·agentic rl·旅游智能体
【大模型LLM学习】Agentic RL—基于Qwen3-4b训练Travel Planning Agent通义千问的deepresearch系列最新的一篇,高德公开了旅行规划助手的训练方法,论文为《ArenaRL: Scaling RL for Open-Ended Agents via Tournament based Relative Ranking》,并且这种方法不只是可以用于旅行规划助手,还可以扩展到其他Open-ended生成任务,解决开放生成任务里面llm-as-judge打分太随机把奖励信号淹没的问题。   在这篇中记录尝试训练本地的旅行规划助手,需要使用到高德的地理API接口,阿里百炼的Qwe
山顶夕景3 个月前
大模型·llm·强化学习·rl·agentic rl
【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent 框架) 和 ROCK(沙箱管理器)。
亚里随笔1 年前
人工智能·llm·agent·agentic rl
TORL:解锁大模型推理新境界,强化学习与工具融合的创新变革在大语言模型(LLMs)推理能力不断提升的当下,如何让模型更高效地解决复杂计算和推理任务成为关键。本文介绍的TORL(Tool-Integrated Reinforcement Learning)框架给出了全新方案。它通过强化学习让大模型自主运用计算工具,性能提升显著,为LLMs发展开辟新方向,一起来了解吧!
我是有底线的