VeRL 框架下 RL 微调 DeepSeek-7B,比较 PPO / GRPO 脚本的参数差异最近正在研究如何使用强化学习(RL)技术微调大模型,读 VeRL 框架 的代码。VeRL 代码库在 examples/ 目录下提供了一些 RL 训练的示例脚本。其中,ppo_trainer/run_deepseek7b_llm.sh 和 grpo_trainer/run_deepseek7b_llm.sh 这两个脚本均使用 gsm8k 数据集训练 deepseek 7b 模型,不过一个使用 PPO 算法,另一个使用 GRPO 算法。经比较,这两个脚本的内容只有一些参数不同。