技术栈

opd

山顶夕景
14 天前
大模型·llm·蒸馏·rlvr·opd·opsd
【LLM】On-Policy Distillation Survery链接:https://arxiv.org/pdf/2604.00626f-散度最小化:OPD方法将训练过程重新组织为围绕学生采样的轨迹进行优化,目标是减少复合误差,使其线性化。公式如下: L O P D ( θ ) = E y ∼ π mix [ ∑ t = 1 ∣ y ∣ D f ( p T ( ⋅ ∣ x , y < t ) , p θ ( ⋅ ∣ x , y < t ) ) ] \mathcal{L}_{OPD}(\theta) = E_{y \sim \pi_{\text{mix}}} \left
君为先-bey
20 天前
强化学习·扩散模型·opd
DiffusionOPD——扩散模型中在线策略蒸馏的统一视角DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
我是有底线的