posttraining - posttraining技术,学习,经验文章

山顶夕景

3 个月前

【LLM后训练】看Off-Policy and On-Policy Learning以轨迹来源为核心维度，将大模型后训练，按照轨迹来源分类，可以分为离策略学习【基于外部提供轨迹更新模型】、在线策略学习【基于当前模型生成轨迹更新模型】，工作在《Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning》(https://arxiv.org/pdf/2604.07941)