05-18 · LLM 最新论文速览

今日候选池 93 篇，硬过滤 + LLM 打分后通过评估 27 篇，精选 Top-10，另列 17 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

评分 8.6 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15207 · PDF

💡 提出 TeamTR 信任域多智能体微调框架，在每次组件更新后重采样轨迹并做逐 agent 散度约束，缓解共享上下文下的 occupancy shift。

多智能体 LLM后训练 trust-region 开源代码

摘要：该文关注多智能体 LLM 在共享上下文下顺序微调时的协调失效：更新某个 agent 会改变团队上下文分布，而后续仍用缓存 rollout 评估会不断累积偏差。作者将其形式化为 compounding occupancy shift，并证明陈旧分布评估的损失随智能体数二次增长，而中间重采样可降为线性。基于此提出 TeamTR：每次组件更新后重采样轨迹，并用 trust-region 约束各 agent 的分布偏移，给出性能提升下界。实验表明其平均优于单智能体和顺序基线 7.1%，还能减少协同退化并支持即插即用替换组件。

评分细项：rel 9.2 / nov 8.3 / prac 8.7 / author 7.0

2. Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

评分 8.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.15726 · PDF

💡 提出 NudgeRL，在 RLVR 中用 Strategy Nudging 生成多样推理轨迹，并以 inter/intra-context 奖励分解加蒸馏回传基座策略。

RLVR 后训练 推理 探索

摘要：论文针对 RLVR 中"只会在已采样轨迹上变好"的探索瓶颈，提出高效的结构化探索框架 NudgeRL。其核心是 Strategy Nudging：为每次 rollout 注入轻量级策略上下文，诱导模型生成多样化推理路径，而无需昂贵的 oracle 监督。为充分利用这些探索样本，作者设计统一目标，将奖励拆分为上下文间与上下文内两部分，并通过 distillation 把发现的有效行为迁回基础策略。实验显示，NudgeRL 优于标准 GRPO，即使后者 rollout 预算扩大 8 倍也不及它，并在 5 个高难数学基准上平均超过 oracle-guided RL 基线。

评分细项：rel 9.1 / nov 8.2 / prac 8.3 / author 6.0

3. Argus: Evidence Assembly for Scalable Deep Research Agents

评分 8.1 · 方向 cs.CL · Computation and Language · arxiv 2605.16217 · PDF

💡 Argus 让 Searcher 与 Navigator 协作完成 deep research：用证据图组装信息，并以强化学习训练 Navigator 的派发、校验与综合。

多智能体 deep research 强化学习 agentic workflow

摘要：该文提出深度研究代理 Argus，将信息检索从"并行暴力搜索完整答案"改为"拼接互补证据"。系统由 Searcher 与 Navigator 协作：Searcher 采用 ReAct 式交互收集子问题证据，Navigator 维护共享证据图，判断缺失信息、调度搜索并基于完整证据图生成带来源追踪的答案。作者用强化学习训练 Navigator 的验证、派发和综合能力，而 Searcher 保持标准 ReAct 形式，因此无需重训即可支持单个或多个并行 Searcher。基于 35B-A3B MoE，Argus 在 8 个基准上单 Searcher 平均提升 5.5 分，8 个并行 Searcher 提升 12.7 分。

评分细项：rel 8.5 / nov 8.1 / prac 7.6 / author 6.5

4. RecMem: Recurrence-based Memory Consolidation for Efficient and Effective Long-Running LLM Agents

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.16045 · PDF

💡 RecMem 将交互先存入 subconscious memory，仅在语义相似事件持续 recurrence 时触发 LLM 记忆提炼与语义补全。

Agent memory 长上下文 系统优化

摘要：RecMem 重新思考长时运行 LLM agent 的记忆固化时机。现有方法通常对每次交互都调用 LLM 提取记忆，token 开销很高。RecMem 先把新交互存入"潜意识"记忆层，用轻量 embedding 编码并检索；只有当语义相近的交互持续重复出现时，才调用 LLM 提取 episodic memory 和 semantic memory，实现基于 recurrence 的选择性固化。为弥补摘要化丢失的细节，系统还加入语义精炼机制恢复细粒度事实。实验表明，RecMem 在准确率超过 3 个 SOTA 记忆系统的同时，将记忆构建 token 成本最高降低 87%。

评分细项：rel 8.5 / nov 7.5 / prac 8.5 / author 6.0

5. Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.15913 · PDF

💡 为 block attention 引入 SemanticSeg 自动分块与 block distillation，用 sink token 和 block dropout 提升长上下文泛化。

长上下文 block attention KV cache 蒸馏

摘要：论文旨在推动 block attention 在长上下文中的泛化应用，以提升 RAG 等场景的 KV cache 复用。作者指出两大障碍：难以把文本切成语义自洽的块，以及现有 block fine-tuning 效率低且易伤性能。为此，先构建包含 3 万余样本、覆盖书籍、代码、网页和对话等 16 类文本的 SemanticSeg 数据集，并训练轻量分段器实现可控粒度的自动分块。随后提出 block distillation，用冻结的 full-attention 教师指导 block-attention 学生，并结合 block sink tokens、block dropout 和 token-level loss weighti...

评分细项：rel 8.6 / nov 7.9 / prac 8.2 / author 5.0

6. Contexting as Recommendation: Evolutionary Collaborative Filtering for Context Engineering

评分 7.9 · 方向 cs.CL · Computation and Language · arxiv 2605.15721 · PDF

💡 把 context engineering 改写为推荐问题，提出 NCCE 用 Neural Collaborative Filtering 与 Context-CF Co-Evolution 做实例级上下文路由。

agentic workflow context engineering 推荐 路由

摘要：该文将 context engineering 从"寻找一个全局最优提示上下文"转为"为每个样本推荐最合适上下文"的推荐问题。作者提出 NCCE（Neural Collaborative Context Engineering）：先构建多样化 anchor contexts，再通过 Context-CF Co-Evolution 形成协同进化闭环------轻量 NCF 模型学习样本与上下文的偏好关系，指导生成更专门的上下文变体，而新评测结果又持续反哺 NCF 对潜在偏好的理解。推理时，训练好的 NCF 作为 context router，为未见样本动态分配上下文策略。理论与实验均表明，按实例匹配最优上下文可显著提升任务效果。

评分细项：rel 8.4 / nov 8.3 / prac 7.6 / author 5.0

7. BootstrapAgent: Distilling Repository Setup into Reusable Agent Knowledge

评分 7.9 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15815 · PDF

💡 用多智能体把仓库启动过程蒸馏成 .bootstrap contract，结合 Docker 验证、warm repair 与 delta repair 复用环境配置知识。

多智能体 代码Agent 仓库启动

摘要：BootstrapAgent 聚焦代码 agent 处理中陌生仓库前最耗时的"环境启动"问题。作者将仓库 bootstrapping 视为可复用的启动知识，并提出多智能体框架，把依赖修复、排障经验等探索成果沉淀为可验证、可供后续 agent 直接使用的 .bootstrap 合同。系统通过证据抽取、结构化规划、基于 Docker 的确定性验证及 trace 驱动修复，生成覆盖环境配置、诊断检查、最小验证和修复知识的启动规范；同时引入 warm repair with clean replay 与 delta repair 机制，加速调试并避免 reward hacking。三项基准上成功率达 92.9%，较基线提升超 10%，下游 ...

评分细项：rel 8.5 / nov 7.5 / prac 8.5 / author 5.0

8. ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

评分 7.8 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15224 · PDF

💡 提出 ICRL，用共享骨干联合训练 solver 与 critic，并以 distribution-calibration reweighting 和 role-wise GAE 内化自我批评。

RL 后训练 自我批评

摘要：论文关注如何让 LLM 真正"内化"自我批评，而不是一旦移除 critique 就再次出错。作者提出 ICRL，通过共享 backbone 联合训练 solver 与 critic：critic 的奖励取决于其反馈能否提升 solver 后续的无辅助表现，从而鼓励可执行、可迁移的批评。为缓解 critique 条件下与无 critique 条件下的分布偏移，ICRL 设计 distribution-calibration re-weighting ratio，只转移与 solver 自身提示分布兼容的改进；同时用 role-wise group advantage estimation 稳定双角色联合优化。基于 Qwen3-4B/8...

评分细项：rel 8.5 / nov 8.0 / prac 7.5 / author 5.0

评分 8.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.15963 · PDF

💡 面向点级几何 GUI 控制，PAGER 结合 pixel-grounded SFT、precision-aligned RL 与依赖拓扑规划执行。

GUI Agent 后训练 强化学习 SFT

摘要：本文关注精度敏感型 GUI 任务，尤其是几何作图场景：与常见"区域容错"点击不同，这类任务要求在连续画布上进行点级精确操作，微小坐标误差就可能因几何依赖关系引发连锁拓扑错误。为此，作者提出 PAGE Bench，包含 4,906 道题和 22.4 万余条带过程监督的像素级 GUI 动作；同时提出拓扑感知智能体 PAGER，将作图分解为依赖结构规划与像素级执行，并结合 pixel-grounded 监督微调和 precision-aligned 强化学习。实验表明，现有多模态模型虽可达到 88% 以上动作类型准确率，但任务成功率不足 6%；PAGER 将成功率提升至最强基线的 4.1 倍。

评分细项：rel 8.6 / nov 7.7 / prac 8.3 / author 6.5

10. Look Before You Leap: Autonomous Exploration for LLM Agents

评分 7.6 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.16143 · PDF

💡 提出 Explore-then-Act，用任务 rollout 与探索 rollout 交替训练，并以 Exploration Checkpoint Coverage 约束 agent 先探测后执行。

Agent 强化学习 探索 Agentic Workflow

摘要：论文指出，LLM 智能体在陌生环境中常因过早利用既有知识而失败，缺乏系统性的自主探索能力。作者据此提出可验证指标 Exploration Checkpoint Coverage，用于衡量智能体对关键状态、物体及可供性（affordance）的发现广度。评测发现，标准面向任务的强化学习会导致行为狭窄且重复，限制后续表现。为解决这一问题，论文设计交替训练策略，将任务执行 rollout 与探索 rollout 结合，并分别用对应的可验证奖励优化；进一步提出 Explore-then-Act 范式，先在预算内收集环境信息，再执行任务。结果表明，显式学习探索是构建可泛化、面向真实世界智能体的关键。

评分细项：rel 8.2 / nov 7.5 / prac 7.6 / author 5.0

📚 速览 · 其他通过评估的工作（17 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CL 7.6 DimMem: Dimensional Structuring for Efficient Long-Term Agent Memory · 💡 提出 DimMem 维度化长期记忆，把记忆拆成 time、location、reason 等 typed fields，支持 agent 检索与选择性召回。
cs.MA 7.5 Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems · 💡 提出 Nexa：先并行生成多 agent 响应，再用轻量 transformer 预测稀疏 DAG 通信图，执行一次顺序消息传播。
cs.AI 7.8 ScreenSearch: Uncertainty-Aware OS Exploration · 💡 针对桌面 GUI agent 部分可观测问题，结合结构化界面检索与 ambiguity-aware PUCT 图 bandit 做 OS 探索。
cs.CV 7.7 VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation · 💡 VideoSeeker 将原生 tool invocation 内化到 LVLM，结合冷启动 SFT、结果监督和基于规则的 RL，完成实例级视频检索与定位。
cs.CV 7.9 Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization · 💡 提出 Flash-GRPO 单步策略优化，用 iso-temporal grouping 与 temporal gradient rectification 降低视频扩散对齐训练开销。
cs.MA 7.2 paper.json: A Coordination Convention for LLM-Agent-Actionable Papers · 💡 提出供 LLM agent 读取的 paper.json 规范，加入 claim ID、does-not-claim 列表与复现实验命令 JSON 元数据。
cs.CV 7.5 Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation · 💡 提出 Echo-Forcing 场景记忆框架，用分层时序记忆、Scene Recall Frames 和差异感知衰减支持交互式长视频生成。
cs.MA 6.8 SMCEvolve: Principled Scientific Discovery via Sequential Monte Carlo Evolution · 💡 把 LLM 驱动程序演化重写为 Sequential Monte Carlo 采样，结合自适应重采样、混合变异与自动收敛控制减少 LLM 调用。
cs.AI 7.1 PRISM: Prompt Reliability via Iterative Simulation and Monitoring for Enterprise Conversational AI · 💡 PRISM 将提示词维护做成闭环系统：自动生成测试用例、模拟多轮对话、用 LLM-as-judge 判错并迭代修复 prompt。
cs.AI 6.6 FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast · 💡 提出 FORGE，用 Reflexion 内循环加 population broadcast 外循环进化提示记忆，无需权重更新提升分层 ReAct 决策。
cs.MA 6.4 Multi-Agent Cooperative Transportation: Optimal and Efficient Task Allocation and Path Finding · 💡 提出 CT-TAPF 与 CT-TCBS，把团队组建、任务分配和无碰撞路径规划统一求解多机器人协同搬运。
cs.CV 6.8 From Failure to Feedback: Group Revision Unlocks Hard Cases in Object-Level Grounding · 💡 在 VLM grounding 的 GRPO 中加入 group revision 与 improvement shaping，把失败初答转成可学习的优势信号。
cs.MA 6.2 Estimated Dynamic Equilibrium Model: Supply and Demand as a Sample Path of a Stochastic Process · 💡 提出 EDEM 代理市场模型，把供需视为随机过程样本路径，并用顺序抽样上尾报价解释价格泡沫漂移。
q-fin.TR 6.7 TradeMech: A Method to Multilaterally Net Trades Without Altering Counterparty Exposure · 💡 TradeMech 把双边合约网络重写为链与环上的多方合约，在不改变对手方暴露下实现可指定资产的最大多边净额。
cs.MA 6.1 From Gridworlds to Warehouses: Adapting Lightweight One-shot Multi-Agent Pathfinding for AGVs · 💡 将 MAPF 扩展为面向仓储 AGV 的 MAWPF，显式建模旋转代价、加减速与跟驰碰撞并适配 PIBT、LNS2 等算法。
cs.MA 6.0 Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback · 💡 在网络化多智能体 RLHF 中用 κ-hop 截断轨迹偏好反馈，结合分布式零阶策略梯度估计各代理局部更新。
cs.CV 6.3 Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models · 💡 提出 ML-FOP-SOAP 二阶优化器，用 Fisher-Orthogonal Projection 与分层 folding 缓解多模态梯度冲突，支持 8192 大批训练。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考