技术栈

posttraining

山顶夕景
4 小时前
llm·distillation·蒸馏·posttraining
【LLM后训练】看Off-Policy and On-Policy Learning以轨迹来源为核心维度,将大模型后训练,按照轨迹来源分类,可以分为离策略学习【基于外部提供轨迹更新模型】、在线策略学习【基于当前模型生成轨迹更新模型】,工作在《Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning》(https://arxiv.org/pdf/2604.07941)
我是有底线的