FIPO粗读笔记

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

来自 arxiv.org/abs/2603.22446,从介绍看没比之前二八开那篇多多少认知,感觉是描述类似的事情

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

来自https://arxiv.org/pdf/2603.22117

不训练,只在推理时增强关键 Token 的信号,准确率就能原地起飞,朝着delta logp的方向优化

"Oops Moment"多于"Aha 'Moment "

来自 https://qwen-pilot.notion.site/rlvr-secrets

在长序列推理中,模型常常已经推导出了正确答案,却由于冗余的自我反思而将其推翻。这种破坏性的 "Oops"时刻发生的频率比自我纠正的 "Aha"时刻高出 3 倍。

罪魁祸首? 标准 RL(如 GRPO)中采用的粗粒度信用分配 (Credit Assignment),它将奖励简单地平均分配给了整个推理链。

FIFO

FIFO更像是把第二篇delta logp的观察做了一个实现:

参考文档

相关推荐
半壶清水3 小时前
[软考网规考点笔记]-局域网之以太网标准
网络·笔记·网络协议·考试
忙什么果3 小时前
transformer学习笔记2
笔记·学习·transformer
ZhiqianXia3 小时前
Gem5 学习笔记(2) : Gem5 建模要点与基本思路
笔记·学习
_李小白4 小时前
【OSG学习笔记】Day 25: OSG 设计架构解析
笔记·学习·架构
后藤十八里4 小时前
维普期刊逆向笔记
javascript·笔记·js逆向
风中的小熊生气4 小时前
MQ 学习笔记
笔记·学习
elseif1235 小时前
【Markdown】指南(上)
linux·开发语言·前端·javascript·c++·笔记
深蓝海拓5 小时前
基于QtPy (PySide6) 的PLC-HMI工程项目(二)系统规划
笔记·python·qt·学习·plc
鱼鳞_6 小时前
Java学习笔记_Day20(二叉树)
java·笔记·学习