06-16 · LLM 最新论文速览

今日候选池 101 篇，硬过滤 + LLM 打分后通过评估 15 篇，精选 Top-10，另列 5 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. CoAgent: Concurrency Control for Multi-Agent Systems

评分 8.3 · 方向 cs.MA · Multiagent Systems · arxiv 2606.15376 · PDF

💡 针对多 agent 共享可变状态场景提出 MTPO 协议：固定序列化序顺序 + 投机写入 + LLM 自主修复冲突，替代锁/OCC。

多Agent并发控制 MTPO协议 实用工程

摘要：多智能体 LLM 系统（编码、运维、文档等）常并行操作同一 git 仓库或 Kubernetes 集群等共享状态，本质上面临并发控制问题。然而经典机制难以适配 LLM 智能体：单次事务跨越数分钟推理，读集宽泛且不透明，写操作即时生效无法缓冲。锁会阻塞长时推理，OCC 的中止重试则浪费大量计算。本文利用 LLM 智能体独有的能力------能自主判断冲突写入是否影响其计划并局部修复------提出咨询式并发协议 MTPO（Monotonic Trajectory Pre-Order）。该协议在启动时固定序列化顺序，投机式地原地应用写操作，通过单向通知让受影响智能体自行修复计划，并借助工具预注册的 saga 式逆操作机械地撤销和重排错序写入，最终保证可串行化。系统实现为 CoAgent，一个工具调用中间件。

评分细项：rel 8.5 / nov 8.0 / prac 8.5 / author 7.0

2. Context-Aware RL for Agentic and Multimodal LLMs

评分 7.9 · 方向 cs.CL · Computation and Language · arxiv 2606.17053 · PDF

💡 ContextRL 通过对比上下文选择作为辅助 RL 目标，增强 agent 在长 tool trace 和多模态中的细粒度证据定位能力，在 GRPO 基础上提升 2%+。

RL后训练 agentic 多模态 GRPO

摘要：LLM 在需要从长上下文或复杂多模态输入中定位关键细节时常常失败。本文提出 ContextRL，一种上下文感知的强化学习方法，通过间接辅助目标提升长程推理与多模态能力。其核心思路是：给定查询和答案，让模型从两个高度相似的上下文中选出支持该问答对的那个，以此奖励细粒度的证据定位能力。作者在两个领域构建对比数据：编码智能体以执行轨迹为上下文（1K 对），多模态推理以图像为上下文（7K 对，通过生成编辑和相似性检索构建）。实验表明 ContextRL 在 5 个长程基准上平均超过标准 GRPO +2.2%，在 12 个视觉问答基准上平均 +1.8%。对照实验证实增益来自上下文选择目标本身，而非额外数据。

评分细项：rel 8.5 / nov 7.0 / prac 7.0 / author 7.0

3. TokenPilot: Cache-Efficient Context Management for LLM Agents

评分 7.4 · 方向 cs.CL · Computation and Language · arxiv 2606.17016 · PDF

💡 TokenPilot 以双粒度策略（摄入门控压缩 + 生命周期驱逐）管理 agent 长会话上下文，保持 prefix cache 连续性，降低 56-87% 推理成本。

agentic workflow KV cache 推理加速 长上下文 开源

摘要：LLM Agent 在长时交互中面临上下文不断累积导致推理成本飙升的问题。现有文本裁剪或动态记忆淘汰方法会破坏 prompt 前缀连续性，引发 KV cache 失效。TokenPilot 提出双粒度上下文管理框架来平衡文本稀疏化与缓存命中率：全局层面，Ingestion-Aware Compaction 在内容进入时稳定前缀布局并过滤环境噪声；局部层面，Lifecycle-Aware Eviction 追踪上下文片段的剩余效用，仅在任务相关性过期时才批量卸载。在 PinchBench 和 Claw-Eval 上，TokenPilot 在隔离模式下分别降低 61% 和 56% 的成本，连续模式下分别降低 61% 和 87%，同时保持与已有系统相当的任务表现。

评分细项：rel 8.0 / nov 6.5 / prac 8.0 / author 6.5

4. Your Agent Has a Genome: Sequence-Level Behavioral Analysis and Runtime Governance of LLM-Powered Autonomous Agents

评分 7.3 · 方向 cs.MA · Multiagent Systems · arxiv 2606.15579 · PDF

💡 将 LLM agent 运行轨迹编码为 XEPV 四字母序列，挖掘高风险 n-gram 并部署三层 Governor 提升成功率 6.2%、降 token 44%。

Agent运行治理 行为序列分析 多Agent优化

摘要：本文提出 Base Sequence Analysis 框架，将 LLM Agent 的运行时行为编码为由四字母（X-探索、E-执行、P-规划、V-验证）组成的符号序列，类比基因组分析方法对其进行 n-gram 挖掘和马尔可夫转移分析。对生产环境 ReAct Agent 347 条执行轨迹的分析发现：三元组 P-X-P 是唯一显著的高风险模式（成功率降低 10.4%）；P 比率是成功的最强负预测因子；E→V 转移概率仅 2.1%，暴露系统性验证缺失。基于此设计了 Governor 三层运行时干预系统，部署后任务成功率提升 6.2%，token 消耗降低 44%。在 SWE-bench 的 2000 条 SWE-agent 轨迹上验证了该编码方案的跨系统泛化能力。

评分细项：rel 7.5 / nov 7.0 / prac 8.0 / author 5.0

5. KVEraser: Learning to Steer KV Cache for Efficient Localized Context Erasing

评分 7.2 · 方向 cs.CL · Computation and Language · arxiv 2606.17034 · PDF

💡 KVEraser 用可学习的 steering states 替换被删除 span 的 KV 向量，避免长上下文局部擦除时对后缀的全量重算。

KV cache 长上下文 推理加速 上下文编辑

摘要：在 KV cache 上进行事后上下文擦除面临"局部编辑、全局传播"的难题：被删除片段的影响已扩散到后续所有 token 的缓存状态中，精确擦除需重算整个后缀，代价随后缀长度线性增长。本文提出 KVEraser，一种学习式 KV cache 编辑方法：仅将被擦除区间的 KV 状态替换为学习得到的 steering states，其余缓存保持不变。训练采用两阶段流程------通用 span-neighbor 预训练抑制被删片段的残留影响，再经任务微调适配下游场景。实验表明，在 1K--32K 上下文的域内任务上，KVEraser 性能接近全量重算，而延迟仅增加 24%（全量重算增加 17.6 倍）。该方法还可泛化到含有害事实干扰的长文档 QA 等未见任务，在近似擦除方法中取得最优表现。

评分细项：rel 7.5 / nov 7.5 / prac 7.0 / author 5.5

6. OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Models

评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.16774 · PDF

💡 提出 Collective Skill Tree Search，多模型协作搜索并评估可复用技能节点，构建结构化技能树提升 agent 工具使用

多agent 技能构建 树搜索

摘要：为 LLM 智能体配备可复用的技能对解决复杂任务至关重要。本文提出 Collective Skill Tree Search (CSTS)，一种基于树搜索的技能自动构建框架，用于生成结构化、多样且可迁移的技能树。CSTS 的核心是利用集体智慧，通过两个迭代阶段协同搜索与组合技能：Collective Skill Node Generation 借助多模型集体知识探索多样候选技能；Collective Skill Node Assessment 则由多模型担任评委，通过集体质量评分和集体迁移性评分筛选出高效且跨模型泛化的技能节点。框架进一步引入 Collective Skill Reinforcement Learning，结合技能增强训练数据使模型有效学习和调用技能。实验证明 CSTS 显著提升了 LLM 在工具使用、多步推理和动态环境交互中的表现。

评分细项：rel 7.5 / nov 6.5 / prac 6.5 / author 5.5

7. Skill-to-LoRA: From Using Skills to Learning Behaviors for Token-Efficient LLM Agents

评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.16769 · PDF

💡 将 SKILL.md 技能文档蒸馏为 LoRA adapter，在线推理时动态加载替代长文本注入，降低 token 开销并提升 pass rate

agent技能 LoRA token效率

摘要：Agent 技能通常以 SKILL.md 文件分发，每次调用都需将完整文档注入上下文，造成 token 浪费。本文提出 Skill-to-LoRA (S2L)，用技能专属的 LoRA adapter 替代运行时技能文本：离线阶段利用完整 SKILL.md 合成技能引导的示范数据并训练 adapter；在线阶段省略文档，动态加载对应 adapter 激活已学行为。在 SWE-Skills-Bench 的 21 项技能上以 Qwen3.6-27B 评估，S2L 相比无技能和全文本基线分别提升通过率 2.9 和 5.2 个百分点，每步 token 开销降低 6.6%。控制实验表明收益依赖技能与 adapter 的对齐：错配或共享 LoRA 均导致性能下降，说明程序性技能可被转化为可训练、可动态加载的行为模块。

评分细项：rel 7.0 / nov 7.0 / prac 7.5 / author 5.0

8. The Value Axis: Language Models Encode Whether They're on the Right Track

评分 6.8 · 方向 cs.CL · Computation and Language · arxiv 2606.17056 · PDF

💡 在 Qwen3-8B 中发现线性编码的 value axis，可用于 steering 控制自我纠正与回溯行为，并分析 DPO/SFT 对内部置信度的影响。

LLM内部表征 DPO 可解释性 steering

摘要：本文研究语言模型是否在内部追踪当前推理轨迹的"价值"------即当前策略达成目标的可能性。作者利用合成的上下文强化学习数据，为 Qwen3-8B 构建了一条"价值轴"(value axis)。实验表明该轴能区分高/低口头置信度、有无回溯的推理轨迹以及正确/损坏的代码。向高价值方向 steering 可抑制自我修正并减少冗余解释，向低价值方向 steering 则诱导回溯与探索。DPO 训练能提升被奖励行为的内部价值，使模型表现更自信。进一步发现模型在 post-training 后对政治敏感查询赋予低价值，SFT 则提升训练域内的内部信心。结果表明语言模型线性编码了对目标成功的预期估计，并以此调节推理方向上的置信度。

评分细项：rel 7.5 / nov 7.0 / prac 6.0 / author 5.0

9. DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents

评分 6.7 · 方向 cs.CL · Computation and Language · arxiv 2606.17029 · PDF

💡 DeepRubric 从 evidence tree 反向生成 query-rubric 对作为 RL 监督信号，提升 deep research agent 的训练效率。

RL后训练 deep research agent 数据构造

摘要：深度研究智能体通过检索和推理生成长篇报告，基于评分标准 (rubric) 的强化学习可优化其报告质量，但现有方法多由 LLM 直接为查询生成评分标准，当模型无法准确推断信息需求时，标准不完整会降低 RL 效率。DeepRubric 提出逆向数据构建框架：先确定证据支持的报告应评估什么，再据此合成对齐的查询-标准对。具体方法是从种子主题出发递归展开证据树，叶节点作为原子化可验证的评估目标，再由证据树生成训练查询与标准，确保奖励信号精确对应查询所需信息。基于 9K 条监督数据，使用 rubric-based GRPO 训练的 DeepRubric-8B 在三个基准上达到与先前开源 SOTA 深度研究模型可比的性能。

评分细项：rel 7.0 / nov 6.5 / prac 6.5 / author 5.0

10. User as Code: Executable Memory for Personalized Agents

评分 6.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.16707 · PDF

💡 提出 User as Code：将用户记忆表示为可执行 Python 对象与规则函数，通过 append-only log 定期 checkpoint 为类型化代码

个性化agent 记忆机制 可执行表示

摘要：个性化 AI 智能体需要跨对话持久维护用户记忆，现有方案多以非结构化文本、知识图谱或事实平面存储配合检索实现，但这种"事实袋"模式难以处理矛盾消解、聚合查询和规则执行。本文提出 User as Code (UaC) 范式：将用户模型表示为活的软件工程------用带类型的 Python 对象存储用户状态，用 Python 函数编码治理规则，使表示与推理统一于可执行代码。核心机制为两阶段流水线：append-only 日志保留所有事实，周期性检查点化为类型化代码。在长对话基准 LOCOMO 上 UaC 召回率达 78.8%，匹配全上下文上界和最强基线；而在聚合类问题上，检索式记忆骤降至 6-43%，UaC 保持近乎完美的 99%。

评分细项：rel 7.0 / nov 7.5 / prac 7.0 / author 4.0

📚 速览 · 其他通过评估的工作（5 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.AI 6.7 A First-Principles Derivation of LLM Policy Optimization: From Expected Reward to GRPO and Its Structural Extensions · 💡 从期望奖励目标 J(θ) 出发，沿轨迹侧与奖励侧两轴统一推导 REINFORCE→PPO→GRPO 及 Agentic RL 的设计逻辑
cs.CL 6.1 Understanding the Behaviors of Environment-aware Information Retrieval · 💡 用 RL 训练 LLM 针对不同检索器自适应生成查询风格，并提出 branching rollout 稳定多步检索训练
cs.AI 6.0 Scaling LLM Reasoning from Minimal Labels: A Semi-Supervised Framework with a Lightweight Verifier · 💡 用少量标注训练轻量推理正确性分类器，结合熵阈值过滤生成伪标签，以 1/10 标注量达到同等推理微调效果
cs.MA 6.0 Odds Law: The Decomposition Algebra On How Intelligence Organizes Itself to Solve Difficult Problems Reliably · 💡 用分解代数建模不可靠 solver 的组合结构，证明验证门以似然比几何放大正确率的 odds law。
q-fin.PM 6.2 Two Sides of Schur Damping: High-Dimensional Pseudo-Likelihoods and Portfolio Allocation · 💡 揭示空间统计 Vecchia 伪似然与组合配置中 Schur 补阻尼的数学等价性，给出封闭形式的 James-Stein 收缩强度。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考