FIPO粗读笔记

taoqick2026-04-02 19:30

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

来自 arxiv.org/abs/2603.22446，从介绍看没比之前二八开那篇多多少认知，感觉是描述类似的事情

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

来自https://arxiv.org/pdf/2603.22117

不训练，只在推理时增强关键 Token 的信号，准确率就能原地起飞，朝着delta logp的方向优化

"Oops Moment"多于"Aha 'Moment "

来自 https://qwen-pilot.notion.site/rlvr-secrets

在长序列推理中，模型常常已经推导出了正确答案，却由于冗余的自我反思而将其推翻。这种破坏性的 "Oops"时刻发生的频率比自我纠正的 "Aha"时刻高出 3 倍。

罪魁祸首？标准 RL（如 GRPO）中采用的粗粒度信用分配 (Credit Assignment)，它将奖励简单地平均分配给了整个推理链。

FIFO

FIFO更像是把第二篇delta logp的观察做了一个实现：

参考文档

https://www.xiaohongshu.com/explore/69cb69d6000000001a0210a5?xsec_token=AB1kvdAVJl18j38Zk-jR5z74EhvitE7IC26Sve-MjZZq8=\&xsec_source=pc_user

上一篇：用Open Claw接口做1688选品、价格监控、货源对比

下一篇：真实有效的 AI 方法论：01 先升级输入方式

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03【AI】2026 年具身智能模型和世界模型总结 04CC-Switch & Claude 基于 Linux 服务器安装使用指南 05人工智能最新动态 AI 日报 · 2026年5月10日 06AI科技热点日报 | 2026年5月11日 07Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 08零基础教你claude code 接入 deepseek V4 09裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 10Cursor 接入 DeepSeek‑V4‑Pro 完整指南（2026 实测）