技术栈
posttraining
山顶夕景
4 小时前
llm
·
distillation
·
蒸馏
·
posttraining
【LLM后训练】看Off-Policy and On-Policy Learning
以轨迹来源为核心维度,将大模型后训练,按照轨迹来源分类,可以分为离策略学习【基于外部提供轨迹更新模型】、在线策略学习【基于当前模型生成轨迹更新模型】,工作在《Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning》(https://arxiv.org/pdf/2604.07941)
我是有底线的