06-17 · LLM 最新论文速览

今日候选池 85 篇，硬过滤 + LLM 打分后通过评估 11 篇，精选 Top-10，另列 1 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. Learning from the Self-future: On-policy Self-distillation for dLLMs

评分 9.2 · 方向 cs.CL · Computation and Language · arxiv 2606.18195 · PDF

💡 d-OPSD 以自生成答案做后缀条件、step 级监督替代 token 级 KL，仅用 RLVR 10% 步数即超越其在 dLLM 推理任务上的表现。

扩散语言模型 后训练 自蒸馏 开源

摘要：在策略自蒸馏（OPSD）已被证明对大语言模型后训练有效，但尚未应用于扩散语言模型（dLLMs）。现有 OPSD 方法本质上依赖自回归的左到右前缀条件与 token 级监督，与 dLLMs 的任意顺序生成机制存在根本冲突。本文提出 d-OPSD，首个面向 dLLMs 的 OPSD 框架，做出两项核心贡献：一是将自生成答案作为后缀条件来构建自教师，使学生模型从"自我未来经验"而非特权前缀中学习；二是将监督从 token 级转移到 step 级，与 dLLMs 的迭代去噪过程对齐。在四个推理基准上的实验表明，d-OPSD 以约 RLVR 10% 的优化步数即可持续超越 RLVR 和 SFT 基线，展示了优越的样本效率，为 dLLM 后训练开辟了新路径。

评分细项：rel 10 / nov 8 / prac 8 / author 7

2. Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2606.18216 · PDF

💡 ZPPO 将教师信号嵌入 prompt（BCQ/NCQ 重构）而非梯度，解决小模型 RL 中零优势问题导致的分布漂移。

后训练 强化学习 知识蒸馏

摘要：知识蒸馏在小模型场景下往往脆弱：强迫小学生模型模仿大教师的 logits 会导致泛化能力下降。强化学习（RL）虽可避免 logit 模仿，但在学生所有 rollout 均失败的困难问题上注入教师响应会破坏 on-policy 假设并引发分布漂移。本文受 Vygotsky 最近发展区理论启发，提出 Zone of Proximal Policy Optimization（ZPPO），将教师信息保留在 prompt 层面而非梯度中。对困难问题构造两种重构 prompt：BCQ 将一个正确教师响应与一个错误学生响应配对供学生判别，NCQ 聚合学生错误 rollout 以暴露共性失败模式。通过 prompt 回放缓冲区循环训练直至学生"毕业"。在 Qwen3.5 系列（0.8B--9B）四种规模上验证了方法的有效性。

评分细项：rel 9 / nov 8 / prac 7 / author 8

3. Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models

评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2606.17890 · PDF

💡 在 GRPO 训练中对正确后多余推理做动态 rollout 裁剪（DRE），从 credit assignment 角度缓解 overthinking。

RL后训练 GRPO 推理效率

摘要：长链式思维推理能提升LLM在复杂任务上的表现，但模型常在已得出正确答案后继续生成不必要的推理，即"过度思考"(overthinking)。本文从GRPO式强化学习后训练的视角研究该现象，将其定性为训练时的信用分配问题而非仅是解码时的停止问题。作者发现GRPO训练初期，成功轨迹的过度思考程度略高于失败轨迹，而GRPO的序列级信用分配无法区分到达答案的有效前缀与多余后续，导致该不平衡在训练中被放大。为此提出动态Rollout编辑（DRE）：对成功轨迹中答案出现后的多余思考进行编辑，保留已验证的有效前缀，削弱对不必要推理的偏好信号。多任务实验验证了DRE的有效性。

评分细项：rel 9 / nov 8 / prac 8 / author 6

4. VoidPadding: Let $VOID$ Handle Padding in Masked Diffusion Language Models so that $EOS$ Can Focus on Semantic Termination

评分 8.3 · 方向 cs.CL · Computation and Language · arxiv 2606.17999 · PDF

💡 在 Masked Diffusion LM 中引入 $VOID$ token 解耦填充与终止，解决大块解码下 EOS 溢出并降低 55.7% NFE。

扩散语言模型 解码加速 开源

摘要：掩码扩散语言模型（MDLM）通过对预分配的掩码画布去噪来生成文本，响应长度建模是指令微调的核心问题。现有MDLM沿用自回归惯例，用重复的 $EOS$ 作为填充，使 $EOS$ 同时承担语义终止和填充双重角色。本文指出这种双重角色是大块解码时 $EOS$ 溢出的根本原因。为解耦两种功能，提出VoidPadding：引入 $VOID$ 专门负责填充， $EOS$ 仅用于语义终止。推理时 $EOS$ 信号实现提前停止， $VOID$ 信号引导自适应画布扩展。在Dream-7B-Instruct上，VoidPadding在数学推理和代码生成基准的平均得分比原模型提升17.84分，比RainbowPadding提升6.95分，同时解码NFE平均减少55.7%。

评分细项：rel 9 / nov 7 / prac 8 / author 7

5. ConSA: Controllable Sparsity in Hybrid Attention via Learnable Allocation

评分 7.6 · 方向 cs.CL · Computation and Language · arxiv 2606.18056 · PDF

💡 用 L0 正则化学习 full attention/sliding-window 的逐 KV-head 分配策略，在可控稀疏度下优于手工规则混合注意力。

注意力机制 推理加速 混合架构

摘要：混合注意力架构（全注意力 FA + 滑动窗口注意力 SWA）是高效 LLM 推理的有效范式，但现有方法多依赖手工规则或简单启发式来分配 FA/SWA。本文提出 ConSA 框架，通过 L0 正则化学习二值掩码，在用户指定的稀疏度目标下自动优化每个注意力单元的 FA/SWA 分配，并以增广拉格朗日约束在层级或 KV-head 粒度上精确控制稀疏度。在 0.6B 和 1.7B 模型上的实验表明，学习到的分配方案一致优于规则基线，KV-head 粒度优于层粒度。学习结果呈现出底层使用 SWA、中间层集中使用 FA 的模式，不同于均匀交错的规则方法，且该模式在不同模型规模和稀疏度下稳定存在，揭示了内在注意力行为的细粒度结构。

评分细项：rel 8 / nov 7 / prac 7 / author 7

6. Variable-Width Transformers

评分 7.0 · 方向 cs.CL · Computation and Language · arxiv 2606.18246 · PDF

💡 提出沙漏形 ><former 架构，中间层变窄以非均匀分配宽度，减少 22% FLOPs 和 15% KV cache 开销。

推理加速 KV cache 模型架构

摘要：Transformer 语言模型通常在所有层保持统一宽度，忽略了不同层可能承担不同计算角色的事实。本文提出 ><former 架构，采用非均匀宽度分配：早期和末期层较宽，中间层较窄，形成沙漏形结构，并通过无参数的残差缩放机制实现层间维度变换。在 200M--2B（dense）及 3B（MoE）规模的 decoder-only 模型上，><former 在语言建模损失上持续优于等参数量的均匀宽度基线，同时减少约 22% 的 FLOPs 和 15% 的 KV cache 内存/IO 开销。分析表明，这种瓶颈结构使残差流产生了质性不同的表示。结果证明非均匀宽度分配能实现更优的资源-性能权衡。

评分细项：rel 7 / nov 7 / prac 7 / author 7

7. STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Training

评分 6.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.17979 · PDF

💡 利用文本-图像注意力构建时空自适应奖励分配图（STAR），将 RL 后训练的优势信号按去噪步骤和空间区域精细化分配给扩散/flow 模型。

RL后训练 文生图 奖励分配 扩散模型

摘要：现有文本到图像生成的强化学习后训练方法通常将最终图像奖励转化为单一标量优势，并以相同强度应用于整个生成轨迹。然而，文本到图像生成具有天然的时空结构：不同去噪步骤负责不同生成阶段，决定文本对齐的内容往往仅出现在图像局部区域。为解决这一粒度不匹配问题，本文提出时空自适应奖励分配方法 STAR，适用于扩散模型和流模型的 RL 后训练。STAR 利用生成模型内部的文本-图像注意力，从用户提示词中的核心内容出发，构建随去噪步骤动态变化的空间分配图，将组相对优势分配到更相关的潜空间区域，几乎无额外计算开销，并通过空间分辨的策略目标对这些区域施加更强的策略更新。基于 Stable Diffusion 3.5 Medium 在 GenEval、OCR 文本渲染和 PickScore 三项任务上的实验表明，STAR 在不改变外部奖励模型的前提下显著提升了组合语义对齐、文本渲染和偏好优化性能。

评分细项：rel 7 / nov 7 / prac 7 / author 5

8. PreAct: Computer-Using Agents that Get Faster on Repeated Tasks

评分 6.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.17929 · PDF

💡 PreAct 将 computer-using agent 首次成功执行编译为状态机程序，后续重复任务直接回放，速度提升 8.5-13×，异常时回退至 agent 重推理。

agentic workflow GUI agent 推理加速 程序合成

摘要：计算机操作智能体（computer-using agents）通过屏幕点击和输入驱动软件，但每次都从零开始解决任务，重复任务时仍需重新读屏、重新推理，付出全部开销。PreAct 让智能体在重复任务上显著提速：首次成功后，将执行轨迹编译为轻量状态机程序（状态检查屏幕、转移执行动作），后续直接回放，无需逐步调用语言模型，速度提升 8.5--13 倍。回放并非盲目执行------每步都验证屏幕是否匹配预期，一旦偏离即交还智能体控制。入库前，程序需从干净状态重新执行并通过独立评估器确认任务完成，过滤掉表面回放成功但实际未完成的程序。在移动端、桌面端和网页三个基准上，该入库验证机制有效区分了有效程序与退化程序，每个基准带来 1.75--2.6 个任务的提升。

评分细项：rel 7 / nov 7 / prac 8 / author 5

9. Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent Large Language Model Systems

评分 6.2 · 方向 cs.MA · Multiagent Systems · arxiv 2606.17182 · PDF

💡 用 TLA+ 形式化多 agent LLM 系统四种并发异常，以 Verus 验证三种 Rust 运行时的隔离保证

多agent系统 并发安全 形式化验证

摘要：多智能体 LLM 系统通过内存存储、向量索引和工具注册表共享状态。本文将这种共享建模为确定性生成语义下的长时读-生成-写操作，并在 TLA+ 中形式化了四类并发异常：陈旧生成、幻影工具、因果级联和工具效果重排序------它们是经典隔离异常的结构性类比，均附有 TLC 反例。核心贡献是机械验证了一条严格分离的极大链 L0⊊...⊊L4，据作者所知这是首个针对此类运行时的机器检验一致性层次结构。274 条 Verus 证明义务（零 assume/admit）验证了检测器的健全性与完备性。三个已部署的 Rust 运行时实现 L0-L1（悲观锁、可序列化快照隔离、默认 SI），L2-L4 通过无依赖预防孪生进行验证，并在三个模型族上线测试。作者还复现了字节跳动 deer-flow 中的静默丢失更新并形式化了其修复方案。

评分细项：rel 6 / nov 7 / prac 6 / author 5

10. Fixed-Point Reasoners: Stable and Adaptive Deep Looped Transformers

评分 6.2 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.18206 · PDF

💡 在循环 Transformer 中引入 pre-norm + 残差缩放解决信号衰减，以不动点收敛作为自适应停止机制。

推理范式 looped Transformer 自适应计算

摘要：循环架构为需要组合推理的任务提供了逐步求解的归纳偏置，但与深层网络类似，随着循环次数增加会出现信号传播问题。本文通过 pre-norm 层和残差缩放解决该问题，并提出 FPRM（Fixed-Point Reasoning Model），一种基于 Transformer 的不动点推理模型，利用不动点收敛作为端到端的停止机制。FPRM 能根据任务难度自适应调整计算量，在 Sudoku、Maze、状态追踪和 ARC-AGI 等推理基准上表现出色。

评分细项：rel 6 / nov 7 / prac 5 / author 6

📚 速览 · 其他通过评估的工作（1 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.AI 6.2 Small Initialization Matters for Large Language Models · 💡 发现小初始化尺度可显著提升 LLM 预训练效果尤其是推理任务，提出 γ-initialization 规则并揭示先压缩后扩展的参数发育轨迹。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考