06-10 · LLM 最新论文速览

今日候选池 89 篇，硬过滤 + LLM 打分后通过评估 7 篇。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models

评分 8.6 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.11164 · PDF

💡 将推理时 KV cache 压缩建模为分层预算分配：离线层级预分配捕捉 Reasoning Wave，在线头级按实时效用再分配。

KV cache压缩 推理加速 长CoT 免训练

摘要：长链式思维（CoT）推理导致 KV cache 急剧膨胀，成为 LLM 推理的瓶颈。现有解码阶段压缩方法多采用均匀预算分配，而非均匀方案则主要针对静态 prefill 阶段，无法适应自回归推理的逐步上下文需求。本文提出 ReasonAlloc，一种无需训练的分层预算分配框架：离线层级策略捕捉架构驱动的"Reasoning Wave"需求模式，在线头级策略根据实时效用将资源动态分配给信息密集的注意力头。在 MATH-500、AIME 2024 上的实验表明，ReasonAlloc 在小预算（128-512 tokens）下显著优于均匀预算 R-KV、SnapKV 及 Pyramid-RKV，且可即插即用于现有 token 驱逐策略，几乎无额外开销。

评分细项：rel 9.5 / nov 7.5 / prac 8.0 / author 6.0

2. Decentralized Multi-Agent Systems with Shared Context

评分 8.1 · 方向 cs.MA · Multiagent Systems · arxiv 2606.10662 · PDF

💡 提出 DeLM 去中心化多 agent 框架，通过共享验证上下文与异步任务队列协调并行 agent，SWE-bench 提升 10.5pp 且成本降半

多agent 去中心化 test-time scaling 长上下文

摘要：多智能体系统（MAS）可通过将复杂问题分解为并行子任务来扩展 LLM 的测试时推理能力，但现有方案多依赖中心化调度，随子任务增多，中央控制器成为通信与整合瓶颈。本文提出 DeLM，一种去中心化 MAS 框架，通过并行智能体、共享验证上下文和任务队列实现分布式协调：智能体异步领取子任务，读取已验证的累积进展，执行本地推理后写回紧凑更新。在 SWE-bench Verified 上，DeLM 的 Avg.@1/Pass@2/Pass@4 均为最优，最高超出最强基线 10.5 个百分点，同时单任务成本降低约 50%；在 LongBench-v2 Multi-Doc QA 上，平均准确率提升最高达 5.7 个百分点。

评分细项：rel 9 / nov 7 / prac 8 / author 6

3. Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

评分 7.4 · 方向 cs.CL · Computation and Language · arxiv 2606.11052 · PDF

💡 发现CoT-SFT破坏混合线性注意力模型的长程检索能力，提出QK-Restore免训练恢复W_Q/W_K以兼顾推理与长上下文。

SFT 长上下文 混合注意力 训练后修复

摘要：链式思维监督微调（CoT-SFT）虽能提升推理能力，但本文发现它会系统性地损害混合线性注意力模型的长上下文检索能力。在 HypeNet、Jet-Nemotron 等架构上，CoT-SFT 后 Needle-In-A-Haystack 检索性能显著下降（如 HypeNet-9B 在 NIAH-S2@256K 上从 67.2% 降至 9.4%），且上下文越长、检索越难时退化越严重。作者将此归因于 CoT-SFT 使注意力梯度偏向短程模式，破坏了负责长程路由的 W_Q、W_K 投影。据此提出 QK-Restore：一种免训练方法，仅从微调前检查点恢复 W_Q 和 W_K，保留其余参数，并引入 Procrustes 变体平衡路由保持与推理适配。实验表明该方法能以零训练成本恢复长上下文能力，同时保持推理性能。

评分细项：rel 8 / nov 7 / prac 7 / author 5

4. A History-Aware Visually Grounded Critic for Computer Use Agents

评分 6.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.11078 · PDF

💡 HiViG 为 GUI agent 引入历史感知的视觉定位 critic，在测试时用宏动作摘要与坐标校验拦截错误操作。

Agent GUI自动化 test-time critic

摘要：现有计算机使用代理（CUA）的测试时干预方法存在两大缺陷：短视决策（遗忘早期动作）和缺乏视觉定位（无法检测点击错误等缺陷动作）。本文提出 HiViG，一个历史感知、视觉定位的测试时框架。其核心是在真实 GUI 轨迹上训练的多模态评论模型，能将历史交互压缩为紧凑记录，并基于视觉定位评估动作。推理时，HiViG 向策略决策循环注入宏动作历史（总结已完成目标）和视觉定位批评（将执行坐标与当前截图核对以拦截错误）。在网页、移动和桌面基准上，HiViG 一致优于现有评论方法，分别为 Qwen3-VL-32B 和 Gemini-3-Flash 带来 5.8% 和 9.0% 的成功率提升，并展现出跨平台泛化能力。

评分细项：rel 7.0 / nov 6.5 / prac 7.0 / author 6.5

评分 6.7 · 方向 cs.MA · Multiagent Systems · arxiv 2606.10546 · PDF

💡 SkillAxe 将 skill 质量分解为四个可解释维度，无监督迭代自我诊断与改进 LLM agent 技能文档，pass rate 从 16% 提至 52%

agent技能 自改进 无监督

摘要：技能文档（结构化自然语言指令）对 LLM 智能体框架至关重要，但 LLM 自身编写的技能效果不佳------在 SkillsBench 上，人工技能可提升 16.2 个百分点的通过率，而 LLM 技能几乎无增益。本文提出 SkillAxe，一个全无监督框架，使 LLM 能迭代地诊断并改进自身技能。该框架将技能质量分解为四个可解释维度（质量影响、触发精度、指令合规与归因、解决路径覆盖），生成结构化改进建议，无需标注、测试套件或环境奖励。SkillAxe 在 SkillsBench 上相对提升通过率 28%，弥合了与人工技能 47--67% 的差距；在 SpreadsheetBench 上仅用 22 条技能即将通过率从 16.0% 提升至 52.0%。

评分细项：rel 7 / nov 6 / prac 7 / author 6

6. Density Field State Space Models: 1-Bit Distillation, Efficient Inference, and Knowledge Organization in Mamba-2

评分 6.7 · 方向 cs.CL · Computation and Language · arxiv 2606.10932 · PDF

💡 将Mamba-2 1.3B蒸馏为1-bit骨架+int8低秩修正，278MB体积实现21.4×推理加速，仅需32M token蒸馏。

模型压缩 SSM 1-bit量化 推理加速

摘要：本文提出 Density Field State Space Models (DF-SSM)，将 SSM 压缩为 1-bit 骨架加 int8 低秩修正的框架。应用于 Mamba-2 1.3B，获得 278 MB 模型（比 FP16 教师小 9.7 倍），GPU 推理速度提升 21.4 倍，下游任务性能仅比从头训练的 1.58-bit BitMamba-2 低 2--4 个百分点。蒸馏仅需 32M token 和单张 A100 6 小时。推理管线结合 cuBLAS INT8 张量核、自定义 CUDA 内核及 AVX-512 CPU 后端。此外，作者分析了模型内部知识组织，发现三个处理阶段：意图分类（0--3 层，抽象空间无词表对齐）、知识检索（25--35 层，事实关联局部化）和输出格式化（36--47 层），揭示早期分类由句法模板而非语义驱动。

评分细项：rel 7 / nov 7 / prac 7 / author 4

7. The Role of Feedback Alignment in Self-Distillation

评分 6.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.11173 · PDF

💡 在自蒸馏中比较三种反馈上下文设计，发现逐步对齐 critique 比 GRPO/参考解更精准地修正出错 token。

自蒸馏 后训练 GRPO 反馈设计

摘要：语言模型在获得额外上下文（如对先前回答的反馈）时通常表现更好，自蒸馏（self-distillation）旨在让模型在无上下文时也能保持这种提升。该方法通过匹配学生（仅看到问题）与自教师（同时看到上下文）的输出分布来训练模型，但上下文的设计尚未被充分探索。本文系统比较了三种反馈上下文：二元奖励（GRPO）、参考解答、以及与求解器推理轨迹逐步对齐的批评。实验表明，逐步对齐的批评效果最优，比 GRPO 高出 16.11 分，比参考解答条件的自蒸馏高 5.27 分（Avg@12）。逐 token 优势分析揭示了原因：步骤对齐的反馈仅修正推理出错的 token，保留正确行为；而参考解答由于表述和推导路径不同，会迫使模型在每个 token 上都改变行为。研究表明，反馈与求解器推理之间的结构对齐是自蒸馏有效性的关键驱动因素。

评分细项：rel 7.5 / nov 7.0 / prac 6.5 / author 4.5

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考