FIPO粗读笔记

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

来自 arxiv.org/abs/2603.22446,从介绍看没比之前二八开那篇多多少认知,感觉是描述类似的事情

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

来自https://arxiv.org/pdf/2603.22117

不训练,只在推理时增强关键 Token 的信号,准确率就能原地起飞,朝着delta logp的方向优化

"Oops Moment"多于"Aha 'Moment "

来自 https://qwen-pilot.notion.site/rlvr-secrets

在长序列推理中,模型常常已经推导出了正确答案,却由于冗余的自我反思而将其推翻。这种破坏性的 "Oops"时刻发生的频率比自我纠正的 "Aha"时刻高出 3 倍。

罪魁祸首? 标准 RL(如 GRPO)中采用的粗粒度信用分配 (Credit Assignment),它将奖励简单地平均分配给了整个推理链。

FIFO

FIFO更像是把第二篇delta logp的观察做了一个实现:

参考文档

相关推荐
静小谢5 小时前
sql笔记
spring boot·笔记·sql·mybatis
不会编程的懒洋洋5 小时前
VisionPro 中 卡尺 CogCaliperTool
图像处理·人工智能·笔记·计算机视觉·visionpro·cogcalipertool
xqqxqxxq6 小时前
Maven 完整配置与使用技术笔记
java·笔记·maven
風清掦6 小时前
【STM32学习笔记-13】PWR电源控制
笔记·stm32·学习
不可少的事只有一件6 小时前
网络调试笔记
笔记
曹瑞曹瑞6 小时前
onlyoffice的windows指定版本下载笔记
笔记·onlyoffice
噜噜噜阿鲁~6 小时前
python学习笔记 |10.1、面向对象编程-类和实例
笔记·python·学习
kdxiaojie6 小时前
U-Boot分析【学习笔记】(8)
linux·笔记·学习
不会编程的懒洋洋6 小时前
VisionPro 中 直方图 CogHistogramTool
图像处理·人工智能·笔记·计算机视觉·机器视觉·visionpro·康耐视
沉浸式学习ing7 小时前
播客和视频怎么变成知识库里的笔记?音视频转结构化笔记完整方案
人工智能·笔记·gpt·学习·ai·音视频·notion