FIPO粗读笔记

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

来自 arxiv.org/abs/2603.22446,从介绍看没比之前二八开那篇多多少认知,感觉是描述类似的事情

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

来自https://arxiv.org/pdf/2603.22117

不训练,只在推理时增强关键 Token 的信号,准确率就能原地起飞,朝着delta logp的方向优化

"Oops Moment"多于"Aha 'Moment "

来自 https://qwen-pilot.notion.site/rlvr-secrets

在长序列推理中,模型常常已经推导出了正确答案,却由于冗余的自我反思而将其推翻。这种破坏性的 "Oops"时刻发生的频率比自我纠正的 "Aha"时刻高出 3 倍。

罪魁祸首? 标准 RL(如 GRPO)中采用的粗粒度信用分配 (Credit Assignment),它将奖励简单地平均分配给了整个推理链。

FIFO

FIFO更像是把第二篇delta logp的观察做了一个实现:

参考文档

相关推荐
LinXunFeng6 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
闪闪发亮的小星星11 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq11 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
阿米亚波11 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
自传.11 天前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
.千余11 天前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
自传.11 天前
尚硅谷 Vibe Coding|第二章 AI编程工具生态 学习笔记
笔记·学习·ai编程·尚硅谷·vibe coding
秋波。未央11 天前
Java Agent 开发 · Day 1 学习笔记(含作业完整标准答案)
java·笔记·学习
中屹指纹浏览器11 天前
2026指纹浏览器字体指纹、字体渲染偏差检测与全维度虚拟字体池搭建方案
经验分享·笔记