Datawhale：吴恩达Post-training of LLMs，学习打卡5

Arctic.acc2025-11-18 13:35

通过本次GRPO在线强化学习的实践，我对基于可验证奖励的模型对齐方法有了更深入的理解。业界比较关注实际训练中的工程细节和评估可靠性，我们可以使用GSM8K数据集，通过设计精确的正则表达式提取\boxed{}内的答案，并结合二元奖励函数进行反馈，整个流程清晰且可复现。这让我意识到，在数学、代码等"正确性导向"的任务中，相比复杂的奖励模型，可验证奖励反而更直接有效。不过，我也注意到当前奖励机制仅关注最终结果，忽略了推理过程的质量，未来可以尝试引入CoT评分或分步打分来优化。此外，实验结果显示准确率提升有限，部分原因是输出token不足导致生成被截断，这也提醒我在实际评测中要合理设置生成参数。整体来看，GRPO无需价值网络的设计显著降低了显存开销，适合在资源受限环境下开展实验，是一次理论与实践结合紧密的有益训练。