奖励函数 - 奖励函数技术,学习,经验文章

nju_spy

7 个月前

RL4LLM_Survey 强化学习在大语言模型后训练综述Review of Reinforcement Learning for Large Language Models: Formulations, Algorithms, and Opportunities