强化学习真能“教会“智能体推理吗?拆解 Agentic RL 的边界与配方用强化学习(Reinforcement Learning, RL)训练智能体已经成为提升推理的主流路线,但两个核心争议始终没有消散:RL 到底是在"教"出新能力,还是只在"放大"基座模型已有的能力?多轮工具调用这种长链任务,奖励该怎么给?本文结合《Demystifying Reinforcement Learning in Agentic Reasoning》与《Does RL Really Incentivize Reasoning Capacity Beyond the Base Model?》两篇研