06-11 · LLM 最新论文速览

今日候选池 82 篇，硬过滤 + LLM 打分后通过评估 11 篇，精选 Top-10，另列 1 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models

评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2606.12273 · PDF

💡 提出 AGDO 框架，利用 dLLM 注意力结构确定去噪顺序并在 SFT/RL 中加权关键 token，提升推理任务表现。

扩散语言模型 后训练 强化学习 SFT

摘要：扩散大语言模型（dLLMs）通过并行解码提供了自回归模型的高效替代方案，但现有后训练方法多依赖随机掩码策略，忽略了 token 间的内在依赖关系。本文对 dLLMs 中的注意力机制进行实证分析，发现对未掩码上下文关注更强的 token 生成稳定性更高且在推理中起关键作用。基于此，提出 AGDO------一种注意力引导的去噪与优化框架，使训练和优化过程与注意力导出的依赖关系对齐。AGDO 根据注意力结构确定去噪顺序，并在监督微调和强化学习中强调注意力关键 token。在数学和代码基准上的实验表明，AGDO 持续提升推理性能，优于现有 dLLMs 后训练方法。

评分细项：rel 9.5 / nov 7.5 / prac 7 / author 7

2. VIA-SD: Verification via Intra-Model Routing for Speculative Decoding

评分 8.1 · 方向 cs.CL · Computation and Language · arxiv 2606.12243 · PDF

💡 VIA-SD 在投机解码中引入模型内路由的轻量子验证器，将验证分三级处理，比 SD 基线再加速 10-20%。

投机解码 推理加速 模型路由

摘要：Speculative decoding（SD）通过轻量级 drafter 生成候选、大模型并行验证来降低 LLM 推理成本，但现有方法仅做二元决策：接受或完全重算。本文发现许多被拒绝的 token 实际上可由从完整验证器内部路由得到的精简子模型正确验证，无需调用全模型。据此提出 VIA-SD------一种多层级验证框架：高置信 token 直接接受，中等置信 token 由精简验证器再生成，不确定 token 才交由全模型处理。在四类任务和多个模型家族上，VIA-SD 将拒绝率降低 0.10--0.22，相比强 SD 基线加速 10--20%，相比非草稿解码加速 2.5--3 倍，且无需修改现有 SD 框架的训练流程。

评分细项：rel 9 / nov 7 / prac 8 / author 5

3. Verifiable Environments Are LEGO Bricks: Recursive Composition for Reasoning Generalization

评分 7.9 · 方向 cs.CL · Computation and Language · arxiv 2606.12373 · PDF

💡 RACES 将可验证环境视为可组合积木，通过 SEQUENTIAL/PARALLEL/SORT/SELECT 算子递归组合实现 RL 训练环境超线性扩展。

RLVR 环境组合 推理泛化 可验证奖励

摘要：基于可验证环境的强化学习（RL）已成为提升大语言模型推理能力的有效途径，但现有环境构造方法受限于线性扩展瓶颈。本文提出 RACES 框架，将可验证环境视为可递归组合的积木：当一个环境的输出类型与另一个环境的输入类型匹配时，即可自动融合为新环境。基于 300 个基础环境和四种组合算子（SEQUENTIAL、PARALLEL、SORT、SELECT），RACES 能生成多样化的复合推理任务。实验表明，在这些复合环境上进行 RL 训练可显著提升推理泛化能力：DeepSeek-R1-Distill-Qwen-14B 在六个未见基准上平均提升 3.1 分（48.2→51.3），Qwen3-14B 从 58.8 提升至 61.1，且性能可与大规模手工环境方法媲美。

评分细项：rel 8.5 / nov 7.5 / prac 7.0 / author 6.5

4. Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning

评分 8.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.11634 · PDF

💡 SWARR 通过 SFT 转换 + on-policy RL 适配，使滑动窗口注意力在数学推理中逼近全注意力精度并保留线性复杂度。

推理加速 滑动窗口注意力 RL适配 长上下文

摘要：推理型大语言模型对长上下文推理需求日增，但自注意力（SA）的二次复杂度成为瓶颈。本文研究 SWARR 方案，将滑动窗口注意力（SWA）模型适配于数学推理。该方案分两阶段：(1) 通过监督微调（SFT）将预训练 SA 模型高效转换为 SWA；(2) 通过强化学习进行策略适配。作者发现 SFT 后 SWA 仍逊于 SA，原因在于数据-架构不匹配------SFT 数据多为 SA 设计，含 SWA 难以建模的长程依赖。而 on-policy RL 基于 SWA 约束下的自生成轨迹优化，能使推理路径适应窗口限制。实验表明该方法大幅缩小 SWA 与 SA 的精度差距，同时保持线性注意力的效率优势。核心贡献是证明 RL 能改变仅凭转换和 SFT 对 SWA 可行性的消极结论。

评分细项：rel 8.5 / nov 7.5 / prac 8.0 / author 7.0

5. Context-Driven Incremental Compression for Multi-Turn Dialogue Generation

评分 7.3 · 方向 cs.CL · Computation and Language · arxiv 2606.12411 · PDF

💡 C-DIC 将多轮对话视为交错上下文线程，通过可修订的 per-thread 压缩状态和 TBPTT 实现长对话高效压缩。

长上下文 KV压缩 多轮对话 上下文压缩

摘要：现代对话系统随对话轮次增长面临冗余注意力与编码开销，简单截断或摘要会损失信息，而现有上下文压缩方法缺乏跨轮记忆共享与修正机制，在长对话中误差累积严重。本文提出上下文驱动增量压缩（C-DIC），将对话视为交织的语境线程，维护可修正的线程级压缩状态作为紧凑对话记忆。每轮通过轻量的检索-修正-回写循环实现跨轮信息共享并更新过时记忆，稳定长程行为。训练端采用截断时间反向传播（TBPTT）适配多轮场景，无需全历史反传即可学习跨轮依赖。实验表明 C-DIC 在长对话基准上性能与效率兼优，推理延迟和困惑度在数百轮对话中保持稳定。

评分细项：rel 7.5 / nov 7.0 / prac 7.5 / author 6.5

6. InternVideo3: Agentify Foundation Models with Multimodal Contextual Reasoning

评分 7.4 · 方向 cs.CV · Computer Vision · arxiv 2606.12195 · PDF

💡 InternVideo3 用多模态上下文推理闭环 + M²LA KV-cache 压缩 + rule-based RL 训练，提升长视频 agent 理解能力。

多模态Agent KV-cache压缩 强化学习 视频理解

摘要：基础模型正向具备多步推理和工具使用的智能体行为演进，但开源工作多聚焦文本场景，长时程多模态任务仍缺乏探索。本文提出 InternVideo3，通过多模态上下文推理（MCR）增强视频理解的智能体能力。MCR 将理解建模为在共享演化上下文上的闭环过程，涵盖观测、指令、推理、工具动作与记忆，将长视频理解转化为证据积累与验证。效率方面提出 Multimodal Multi-head Latent Attention（M²LA），在保留完整 token 流的同时压缩 KV cache。训练采用持续预训练、短到长监督微调、基于规则的强化学习及在线蒸馏的分阶段策略。模型在 Video-MME、MLVU、EgoSchema 等基准上表现优异，并可作为具备检索工具的视频智能体，展现稳健的证据驱动行为。

评分细项：rel 7.5 / nov 7.0 / prac 7.5 / author 8.0

7. Adaptive Multi-Resolution Procedural Knowledge Compression for Large Language Models

评分 6.8 · 方向 cs.CL · Computation and Language · arxiv 2606.12203 · PDF

💡 SKIM 将 LLM agent 的可复用文本技能压缩为自适应数量的 soft token，降低重复调用时的 prefill 开销。

推理加速 soft token压缩 agentic workflow

摘要：大语言模型（LLM）广泛用于自主工作流处理复杂任务，可复用的自然语言技能（skill）已成为注入过程性知识的流行范式。然而高频调用的技能每次都放入上下文会大幅增加 prefill 开销与延迟。现有文本压缩方法多针对事实性知识，难以保留过程性知识中的逻辑依赖与工具协议。本文提出 SKIM（SKIll coMpression），一种自适应多分辨率软 token 压缩框架：根据每条技能的复杂度生成不同数量的 soft token，在提升推理效率的同时保持技能执行效果。实验表明，SKIM 可将技能压缩至原始 token 长度的 30%--60%，任务性能优于已有压缩方法。

评分细项：rel 7 / nov 6.5 / prac 7.5 / author 6

8. TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search

评分 7.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.11662 · PDF

💡 TreeSeeker 用树结构分支+文本 UCB 信号控制深度搜索中的试错与回溯，提升多步 web 搜索的证据可靠性。

多agent搜索 推理时框架 树搜索

摘要：深度搜索（Deep Search）要求智能体通过多步网络检索、浏览、证据比对与综合来回答复杂问题，核心难点在于多条看似合理的搜索方向中如何抉择------贪心跟随当前最优方向易陷入弱延续，无纪律探索则浪费预算。本文提出 TreeSeeker，一种推理时受控试错框架：将搜索组织为树结构状态上的 branch-and-return 搜索，每轮读取所有子目标树，利用文本化 UCB 信号（价值、不确定性、风险）决定开发、探索或剪枝回退。辅助模块 TreeMem 将证据与失败线索挂载于对应分支以指导后续决策。在 XBench-DeepSearch、BrowseComp 及 BrowseComp-ZH 上，TreeSeeker 持续优于强开源基线。

评分细项：rel 7.5 / nov 7.0 / prac 6.5 / author 6.0

评分 6.5 · 方向 cs.MA · Multiagent Systems · arxiv 2606.12281 · PDF

💡 在去中心化 MARL 中用对比学习构建共识模型，按共识约束筛选教师动作建议，即插即用提升合作稳定性。

多Agent MARL 知识共享 对比学习

摘要：在去中心化训练与执行（DTDE）的合作多智能体强化学习中，基于动作建议的知识共享可促进可解释且可扩展的协作，但现有方法往往盲目遵从教师指导而忽略师生兼容性，导致过度建议、稳定性不佳和性能下降。本文提出基于共识的通信与知识共享框架 CCKS，使智能体依据共识约束有选择地采纳建议，平衡自主探索与经验学习。核心思路是利用对比学习基于局部观测构建共识模型，在动作选择时依据共识与共享知识进行评分。CCKS 为即插即用模块，可无缝集成现有 DTDE 算法。在 Google Research Football 和 StarCraft II 多智能体挑战环境中的实验表明，CCKS 显著提升了合作效率、学习速度和整体性能。

评分细项：rel 7.0 / nov 6.0 / prac 6.5 / author 5.5

10. Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models

评分 6.7 · 方向 cs.CV · Computer Vision · arxiv 2606.12412 · PDF

💡 用可恢复路由替代视觉 token 永久剪枝，被延迟 token 跳过当前层后在下一决策点重新参与候选，保持 KV-cache 预算同时提升定位性能。

VLM推理加速 token剪枝 KV-cache

摘要：视觉语言模型（VLM）将图像编码为数百至数千个视觉 token，导致解码器在注意力计算和 KV cache 内存上开销巨大。现有视觉 token 压缩方法多采用"排序-丢弃"范式，永久移除低分 token。本文指出这种不可逆操作具有脆弱性：token 重要性随解码器深度变化，早期被判低分的 token 在后续层可能变得关键，尤其对定位敏感的查询。为此提出 Reroute------一种无需训练的即插即用方案，将"移除"替换为"可恢复路由"：被推迟的 token 绕过当前阶段但在下一决策点重新进入候选池，保持与原剪枝方法相同的 TFLOPs 和 KV cache 预算。在 LLaVA-1.5 和 Qwen 骨干上结合 FastV、PDrop 等方法的实验表明，Reroute 在激进压缩下改善了定位性能，同时维持通用 VQA 表现。

评分细项：rel 7 / nov 6 / prac 7 / author 5

📚 速览 · 其他通过评估的工作（1 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CL 6.0 FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents · 💡 提出 FORT 框架合成抗捷径搜索任务训练 deep search agent，通过控制证据共覆盖、暴露常量等四类风险消除搜索过程塌缩。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考