05-15 · LLM 最新论文速览

今日候选池 88 篇，硬过滤 + LLM 打分后通过评估 24 篇，精选 Top-10，另列 14 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

评分 8.5 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.15726 · PDF

💡 在 RLVR 中引入 Strategy Nudging 生成多样化推理轨迹，并用 inter/intra-context 奖励分解与蒸馏回传基座策略。

RLVR 后训练 推理

摘要：本文关注 RLVR 中的探索瓶颈：策略只能从已采样轨迹中改进，单纯增加 rollouts 虽有效但代价高。作者提出 NudgeRL，通过"策略 nudging"在每次 rollout 中注入轻量级策略上下文，引导生成更多样的推理轨迹，而无需昂贵的 oracle 监督；并设计统一目标，将奖励分解为上下文间与上下文内两部分，同时加入蒸馏项，把发现的有效行为迁回基础策略。实验表明，NudgeRL 优于 rollout 预算高出 8 倍的标准 GRPO，并在 5 个高难数学基准上平均超过 oracle-guided RL 基线。

评分细项：rel 9.2 / nov 8.3 / prac 8.0 / author 5.6

2. Argus: Evidence Assembly for Scalable Deep Research Agents

评分 8.4 · 方向 cs.CL · Computation and Language · arxiv 2605.16217 · PDF

💡 提出 Argus，让 Searcher 用 ReAct 收集证据、Navigator 维护 evidence graph，并以 RL 训练验证与调度。

Agent Deep Research ReAct 强化学习

摘要：这篇论文把 deep research 视为"拼证据拼图"而非并行暴力搜索，提出多智能体系统 Argus。系统由 Searcher 和 Navigator 协作：Searcher 负责 ReAct 式检索与收集子问题证据，Navigator 维护共享证据图，判断缺失信息、调度 Searcher，并基于完整证据图生成带来源追踪的答案。作者用强化学习训练 Navigator 的验证、调度与综合能力，而 Searcher 保持标准 ReAct agent。基于 35B-A3B MoE，Argus 在 8 个基准上平均提升 5.5 分（单 Searcher）和 12.7 分（8 个并行 Searchers），显示其更能利用并行计算。

评分细项：rel 9.0 / nov 8.0 / prac 8.0 / author 7.0

3. BootstrapAgent: Distilling Repository Setup into Reusable Agent Knowledge

评分 8.1 · 方向 cs.CL · Computation and Language · arxiv 2605.15815 · PDF

💡 提出多智能体 BootstrapAgent，把仓库启动过程蒸馏为可验证 .bootstrap 合约，并结合 warm repair 与 delta repair 自动修复。

多智能体 代码代理 软件工程 仓库启动

Comments：19 pages, 9 figures, 6 tables

摘要：论文聚焦代码 agent 在陌生仓库中的"冷启动"难题：环境搭建往往需要大量试错，但积累的依赖修复与配置经验无法复用。作者提出 BootstrapAgent，将 repository bootstrapping 建模为可复用知识提炼问题，并生成持久、可验证、可供 agent 消费的 .bootstrap contract。框架结合证据提取、结构化规划、基于 Docker 的确定性验证和 trace 驱动修复，还提出 warm repair、clean replay 以及带 sanity check 的 delta repair，以兼顾调试效率与可复现性。实验显示，其成功率达 92.9%，比基线高 10% 以上，同时下游 token ...

评分细项：rel 8.7 / nov 7.8 / prac 8.8 / author 5.5

4. Look Before You Leap: Autonomous Exploration for LLM Agents

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.16143 · PDF

💡 提出 Explore-then-Act 训练范式，交替执行任务 rollout 与探索 rollout，并用 Exploration Checkpoint Coverage 衡量覆盖率。

LLM Agent 强化学习 agentic workflow

摘要：作者指出，LLM agents 在陌生环境中常因过早利用先验而失败，缺乏系统性自主探索能力。为此，论文提出可验证指标 Exploration Checkpoint Coverage，用于衡量 agent 对关键状态、对象和可供性交互的覆盖程度。分析发现，标准面向任务的强化学习会导致行为狭窄且重复，限制后续任务表现。作者进一步提出将任务执行 rollout 与探索 rollout 交替训练、分别用对应可验证奖励优化，并据此构建 Explore-then-Act 范式：先用交互预算收集环境知识，再执行任务。结果表明，先探索后行动对提升泛化与真实环境适应性至关重要。

评分细项：rel 8.8 / nov 7.8 / prac 7.9 / author 5.5

5. RecMem: Recurrence-based Memory Consolidation for Efficient and Effective Long-Running LLM Agents

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.16045 · PDF

💡 RecMem 将交互先存入 subconscious memory，仅在语义相似事件持续复现时触发记忆提炼，并做 semantic refinement。

LLM Agent 长上下文 记忆系统

Comments：Accepted to ACL 2026 Findings

摘要：RecMem 研究长时运行 LLM agent 的记忆构建成本问题。现有外部记忆系统通常对每次交互都调用 LLM 做记忆提取，导致 token 开销很高。作者提出基于 recurrence 的记忆巩固机制：先将新交互存入"潜意识"层，并用轻量 embedding 编码检索；只有当语义相似交互持续重复出现时，才调用 LLM 提取 episodic memory 与 semantic memory，因为这类簇通常更值得总结。为避免遗漏细节，RecMem 还加入语义细化机制以恢复被压缩掉的事实。实验表明，它可将 3 个 SOTA 记忆系统的记忆构建 token 成本最多降低 87%，同时准确率更高。

评分细项：rel 8.4 / nov 7.4 / prac 8.9 / author 6.0

6. Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation

评分 7.9 · 方向 cs.CL · Computation and Language · arxiv 2605.15913 · PDF

💡 面向长上下文块注意力，构建 SemanticSeg 自动分块数据集，并用 block distillation、sink tokens 与 block dropout 训练学生模型。

长上下文 块注意力 KV cache 蒸馏

Comments：16 pages, 2 figures

摘要：本文试图提升 block attention 的通用性，以便在 RAG 等长上下文场景中更好复用 KV cache。针对文本难以自动切分为语义自洽块、以及现有 block fine-tuning 效率低且易伤性能两大问题，作者首先构建 SemanticSeg 数据集，覆盖 16 类、3 万多条、长度 2k-32k 的文本，并训练轻量 segmenter，实现符合人类直觉且粒度可控的自动分块。其次提出 block distillation，用冻结的 full-attention 教师指导 block-attention 学生，并引入 block sink tokens、block dropout 和 token-level loss ...

评分细项：rel 8.4 / nov 7.5 / prac 8.5 / author 5.5

7. Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems

评分 7.8 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15573 · PDF

💡 提出 Nexa 混合编排：先并行生成，再用轻量 Transformer 预测稀疏 DAG，仅执行一轮顺序消息传播。

多智能体 Agentic Workflow 编排

摘要：论文研究多智能体协作中并行与串行模式的折中：前者延迟低但交互不足，后者可逐步改进但通信成本高。作者提出 Nexa，一种 response-conditioned 的可训练混合编排策略。它先让多个 agent 并行作答，再将回答嵌入共享语义空间，预测一个稀疏有向无环通信图；若图为空则保持纯并行，否则执行一次串行消息传播。该策略由轻量 Transformer 实现，不依赖外部 LLM judge、reward model 或手工测试时拓扑搜索。论文还给出基于 policy gradient 的训练方法。结果表明，Nexa 能在通信与时延受控的同时提升最终答案质量。

评分细项：rel 8.1 / nov 7.6 / prac 7.8 / author 6.0

8. Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation

评分 7.8 · 方向 cs.CV · Computer Vision · arxiv 2605.16003 · PDF

💡 为交互式长视频生成提出 Echo-Forcing，用分层时序记忆、Scene Recall Frames 与差异感知衰减管理 KV。

长上下文 视频扩散 KV cache 推理优化

摘要：本文面向交互式长视频生成，指出现有基于 autoregressive video diffusion、局部注意力与 KV caching 的训练后优化方法，难以处理 prompt 切换、旧场景遗忘和历史场景召回。核心问题在于历史 KV 状态功能纠缠：稳定背景与近期动态共用同一缓存策略。作者提出无需训练的 Echo-Forcing 场景记忆框架，包括三部分：分层时间记忆，解耦稳定锚点、压缩历史与最近窗口；Scene Recall Frames，将历史场景压缩为结构化 KV 以支持远程召回；Difference-aware Memory Decay，根据新旧场景差异自适应遗忘冲突 token。实验表明，该方法在 VBench-Long ...

评分细项：rel 8.0 / nov 8.0 / prac 8.0 / author 5.5

9. DimMem: Dimensional Structuring for Efficient Long-Term Agent Memory

评分 7.2 · 方向 cs.CL · Computation and Language · arxiv 2605.15759 · PDF

💡 提出 DimMem 维度化长期记忆，把记忆编码为 time/location/reason 等 typed units，支持按维检索与低成本上下文召回。

Agent Memory 长上下文 检索 记忆系统

摘要：DimMem 提出一种面向 LLM agent 长期记忆的轻量化框架，旨在缓解"原始对话历史成本高、扁平事实/摘要又损失结构"的两难。其核心做法是把每条记忆表示为原子化、带类型且自包含的单元，并显式记录时间、地点、原因、目的、关键词等字段，从而支持按维度检索、更新与选择性回忆，无需把完整历史放入上下文。实验在 LoCoMo-10 和 LongMemEval-S 上分别达到 81.43% 和 78.20% 准确率，并将 LoCoMo 单次查询 token 成本降低 24%。此外，经该 schema 微调后的 Qwen3-4B 提取器也优于 LightMem + GPT-4.1-mini，说明显式维度化结构是高效长期记忆的有效基础。

评分细项：rel 7.6 / nov 6.8 / prac 8.0 / author 5.0

10. FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast

评分 7.1 · 方向 cs.CL · Computation and Language · arxiv 2605.16233 · PDF

💡 提出 FORGE，用 Reflexion 式失败反思生成规则与示例记忆，并以 population broadcast 演化分层 ReAct agent。

Agent Memory ReAct Reflexion

摘要：FORGE 研究 LLM agent 能否在不做权重更新的情况下，仅靠自生成记忆持续提升决策能力。方法采用分阶段、群体式演化框架：在内循环中，基于 Reflexion 的反思 agent 将失败轨迹转化为可复用的自然语言记忆，如规则、few-shot 示例或混合形式；在外循环中，把当前最优个体的记忆广播到整个种群，并通过 graduation 机制冻结已收敛实例。该方法在网络防御 POMDP 基准 CybORG CAGE-2 上，对 4 个 LLM 家族均显著优于 zero-shot 和单流 Reflexion：平均回报较 zero-shot 提升 1.7--7.7 倍，较 Reflexion 提升 29--72%，严重失败率可降至约 ...

评分细项：rel 7.5 / nov 7.5 / prac 7.0 / author 5.0

📚 速览 · 其他通过评估的工作（14 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CV 7.5 Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization · 💡 提出 Flash-GRPO 单步策略优化，用 iso-temporal grouping 和 temporal gradient rectification 加速视频扩散对齐。
cs.AI 7.2 ScreenSearch: Uncertainty-Aware OS Exploration · 💡 提出 ScreenSearch，用结构化界面检索去重与 ambiguity-aware PUCT 图 bandit 扩展桌面 GUI 状态探索。
cs.AI 7.1 PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control · 💡 面向点级几何 GUI 控制，PAGER 用依赖结构规划加像素级执行，并结合 precision-aligned RL 降低误差传播。
cs.AI 7.1 PRISM: Prompt Reliability via Iterative Simulation and Monitoring for Enterprise Conversational AI · 💡 PRISM 将提示工程做成闭环流程：自动生成测试、多轮仿真、LLM-as-judge 诊断，并迭代修复提示回归。
cs.CV 7.1 VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation · 💡 针对实例级视频理解，内化 tool-calling 与主动感知能力，并用冷启动 SFT 加 RL 训练 LVLM。
cs.CV 6.9 Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models · 💡 提出 ML-FOP-SOAP 二阶优化器，用 Fisher-Orthogonal Projection 与分层 folding 校正多模态梯度方差冲突。
cs.MA 6.3 Multi-Agent Cooperative Transportation: Optimal and Efficient Task Allocation and Path Finding · 💡 提出 CT-TAPF 与 CT-TCBS，把团队编组、任务分配和无碰撞路径规划联合求解多机器人协作搬运。
cs.CV 6.6 RaPD: Resolution-Agnostic Pixel Diffusion via Semantics-Enriched Implicit Representations · 💡 把扩散过程放入连续 Neural Image Field 潜空间，并用 Coordinate-Queried Attention Renderer 实现任意分辨率生成。
cs.MA 6.1 Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback · 💡 针对网络化多智能体 RLHF，提出基于 κ-hop 邻域截断轨迹偏好的分布式零阶策略梯度算法。
cs.AI 6.3 Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning · 💡 提出 BISON 双层策略：低层用模仿学习控制，高层在符号世界模型上规划以处理长时程任务。
q-fin.TR 6.6 The Privacy Subsidy: Kyle's λ λ λ under Noise-Perturbed Order-Flow Observation · 💡 在线性 Kyle 模型中引入高斯隐私噪声观测，推导价格冲击系数、知情交易策略与 privacy subsidy 闭式解。
cs.AI 6.0 Property-Guided LLM Program Synthesis for Planning · 💡 在 PDDL 规划中用 property-guided program synthesis 生成启发式函数，并以形式化反例反馈替代纯分数评估。
cs.CV 6.2 From Failure to Feedback: Group Revision Unlocks Hard Cases in Object-Level Grounding · 💡 在 VLM grounding 的 GRPO 训练中加入 group revision 与 reward shaping，用修订相对初始响应的增益重塑 advantage。
cs.CV 6.0 Registers Matter for Pixel-Space Diffusion Transformers · 💡 研究 pixel-space DiT 中 register tokens 作用，提出 dual-stream register 架构以改善高噪声特征图与生成质量。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考