FIPO粗读笔记

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

来自 arxiv.org/abs/2603.22446,从介绍看没比之前二八开那篇多多少认知,感觉是描述类似的事情

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

来自https://arxiv.org/pdf/2603.22117

不训练,只在推理时增强关键 Token 的信号,准确率就能原地起飞,朝着delta logp的方向优化

"Oops Moment"多于"Aha 'Moment "

来自 https://qwen-pilot.notion.site/rlvr-secrets

在长序列推理中,模型常常已经推导出了正确答案,却由于冗余的自我反思而将其推翻。这种破坏性的 "Oops"时刻发生的频率比自我纠正的 "Aha"时刻高出 3 倍。

罪魁祸首? 标准 RL(如 GRPO)中采用的粗粒度信用分配 (Credit Assignment),它将奖励简单地平均分配给了整个推理链。

FIFO

FIFO更像是把第二篇delta logp的观察做了一个实现:

参考文档

相关推荐
自小吃多18 分钟前
某志步进电机驱动器故障排查标准流程
笔记
zhangrelay39 分钟前
后智能时代智能体推演预测娱乐文-节选-
笔记·学习·娱乐
小碗羊肉1 小时前
【Agent笔记 | 第六篇】Agent关键组件
笔记·agent
likerhood1 小时前
服务器使用 vLLM 部署 Qwen2.5-Coder-7B-CL 笔记
服务器·笔记·vllm
Upsy-Daisy1 小时前
Hermes Agent 学习笔记 01:一个会记忆、会学习、能长期运行的 AI Agent
人工智能·笔记·学习
LuminousCPP1 小时前
从零开始学 C++|系列开篇:从 C 到 C++ 的衔接之路
开发语言·c++·笔记
星恒随风2 小时前
C++ 类和对象入门(一):从 class、访问限定符到 this 指针
开发语言·c++·笔记·学习·状态模式
ouliten2 小时前
C++笔记:C++20风格线程池
c++·笔记·c++20
超人不会飞_Jay2 小时前
6.2前端笔记
前端·javascript·笔记
数智工坊2 小时前
周志华《Machine Learning》学习笔记--第十章--降维与度量学习
笔记·学习·机器学习