05-15 · LLM 最新论文速览

今日候选池 88 篇,硬过滤 + LLM 打分后通过评估 24 篇,精选 Top-10,另列 14 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易


🌟 精选

1. Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

评分 8.5 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.15726 · PDF

💡 在 RLVR 中引入 Strategy Nudging 生成多样化推理轨迹,并用 inter/intra-context 奖励分解与蒸馏回传基座策略。

RLVR 后训练 推理

摘要:本文关注 RLVR 中的探索瓶颈:策略只能从已采样轨迹中改进,单纯增加 rollouts 虽有效但代价高。作者提出 NudgeRL,通过"策略 nudging"在每次 rollout 中注入轻量级策略上下文,引导生成更多样的推理轨迹,而无需昂贵的 oracle 监督;并设计统一目标,将奖励分解为上下文间与上下文内两部分,同时加入蒸馏项,把发现的有效行为迁回基础策略。实验表明,NudgeRL 优于 rollout 预算高出 8 倍的标准 GRPO,并在 5 个高难数学基准上平均超过 oracle-guided RL 基线。

评分细项:rel 9.2 / nov 8.3 / prac 8.0 / author 5.6

2. Argus: Evidence Assembly for Scalable Deep Research Agents

评分 8.4 · 方向 cs.CL · Computation and Language · arxiv 2605.16217 · PDF

💡 提出 Argus,让 Searcher 用 ReAct 收集证据、Navigator 维护 evidence graph,并以 RL 训练验证与调度。

Agent Deep Research ReAct 强化学习

摘要:这篇论文把 deep research 视为"拼证据拼图"而非并行暴力搜索,提出多智能体系统 Argus。系统由 Searcher 和 Navigator 协作:Searcher 负责 ReAct 式检索与收集子问题证据,Navigator 维护共享证据图,判断缺失信息、调度 Searcher,并基于完整证据图生成带来源追踪的答案。作者用强化学习训练 Navigator 的验证、调度与综合能力,而 Searcher 保持标准 ReAct agent。基于 35B-A3B MoE,Argus 在 8 个基准上平均提升 5.5 分(单 Searcher)和 12.7 分(8 个并行 Searchers),显示其更能利用并行计算。

评分细项:rel 9.0 / nov 8.0 / prac 8.0 / author 7.0

3. BootstrapAgent: Distilling Repository Setup into Reusable Agent Knowledge

评分 8.1 · 方向 cs.CL · Computation and Language · arxiv 2605.15815 · PDF

💡 提出多智能体 BootstrapAgent,把仓库启动过程蒸馏为可验证 .bootstrap 合约,并结合 warm repair 与 delta repair 自动修复。

多智能体 代码代理 软件工程 仓库启动

Comments:19 pages, 9 figures, 6 tables

摘要:论文聚焦代码 agent 在陌生仓库中的"冷启动"难题:环境搭建往往需要大量试错,但积累的依赖修复与配置经验无法复用。作者提出 BootstrapAgent,将 repository bootstrapping 建模为可复用知识提炼问题,并生成持久、可验证、可供 agent 消费的 .bootstrap contract。框架结合证据提取、结构化规划、基于 Docker 的确定性验证和 trace 驱动修复,还提出 warm repair、clean replay 以及带 sanity check 的 delta repair,以兼顾调试效率与可复现性。实验显示,其成功率达 92.9%,比基线高 10% 以上,同时下游 token ...

评分细项:rel 8.7 / nov 7.8 / prac 8.8 / author 5.5

4. Look Before You Leap: Autonomous Exploration for LLM Agents

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.16143 · PDF

💡 提出 Explore-then-Act 训练范式,交替执行任务 rollout 与探索 rollout,并用 Exploration Checkpoint Coverage 衡量覆盖率。

LLM Agent 强化学习 agentic workflow

摘要:作者指出,LLM agents 在陌生环境中常因过早利用先验而失败,缺乏系统性自主探索能力。为此,论文提出可验证指标 Exploration Checkpoint Coverage,用于衡量 agent 对关键状态、对象和可供性交互的覆盖程度。分析发现,标准面向任务的强化学习会导致行为狭窄且重复,限制后续任务表现。作者进一步提出将任务执行 rollout 与探索 rollout 交替训练、分别用对应可验证奖励优化,并据此构建 Explore-then-Act 范式:先用交互预算收集环境知识,再执行任务。结果表明,先探索后行动对提升泛化与真实环境适应性至关重要。

评分细项:rel 8.8 / nov 7.8 / prac 7.9 / author 5.5

5. RecMem: Recurrence-based Memory Consolidation for Efficient and Effective Long-Running LLM Agents

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.16045 · PDF

💡 RecMem 将交互先存入 subconscious memory,仅在语义相似事件持续复现时触发记忆提炼,并做 semantic refinement。

LLM Agent 长上下文 记忆系统

Comments:Accepted to ACL 2026 Findings

摘要:RecMem 研究长时运行 LLM agent 的记忆构建成本问题。现有外部记忆系统通常对每次交互都调用 LLM 做记忆提取,导致 token 开销很高。作者提出基于 recurrence 的记忆巩固机制:先将新交互存入"潜意识"层,并用轻量 embedding 编码检索;只有当语义相似交互持续重复出现时,才调用 LLM 提取 episodic memory 与 semantic memory,因为这类簇通常更值得总结。为避免遗漏细节,RecMem 还加入语义细化机制以恢复被压缩掉的事实。实验表明,它可将 3 个 SOTA 记忆系统的记忆构建 token 成本最多降低 87%,同时准确率更高。

评分细项:rel 8.4 / nov 7.4 / prac 8.9 / author 6.0

6. Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation

评分 7.9 · 方向 cs.CL · Computation and Language · arxiv 2605.15913 · PDF

💡 面向长上下文块注意力,构建 SemanticSeg 自动分块数据集,并用 block distillation、sink tokens 与 block dropout 训练学生模型。

长上下文 块注意力 KV cache 蒸馏

Comments:16 pages, 2 figures

摘要:本文试图提升 block attention 的通用性,以便在 RAG 等长上下文场景中更好复用 KV cache。针对文本难以自动切分为语义自洽块、以及现有 block fine-tuning 效率低且易伤性能两大问题,作者首先构建 SemanticSeg 数据集,覆盖 16 类、3 万多条、长度 2k-32k 的文本,并训练轻量 segmenter,实现符合人类直觉且粒度可控的自动分块。其次提出 block distillation,用冻结的 full-attention 教师指导 block-attention 学生,并引入 block sink tokens、block dropout 和 token-level loss ...

评分细项:rel 8.4 / nov 7.5 / prac 8.5 / author 5.5

7. Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems

评分 7.8 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15573 · PDF

💡 提出 Nexa 混合编排:先并行生成,再用轻量 Transformer 预测稀疏 DAG,仅执行一轮顺序消息传播。

多智能体 Agentic Workflow 编排

摘要:论文研究多智能体协作中并行与串行模式的折中:前者延迟低但交互不足,后者可逐步改进但通信成本高。作者提出 Nexa,一种 response-conditioned 的可训练混合编排策略。它先让多个 agent 并行作答,再将回答嵌入共享语义空间,预测一个稀疏有向无环通信图;若图为空则保持纯并行,否则执行一次串行消息传播。该策略由轻量 Transformer 实现,不依赖外部 LLM judge、reward model 或手工测试时拓扑搜索。论文还给出基于 policy gradient 的训练方法。结果表明,Nexa 能在通信与时延受控的同时提升最终答案质量。

评分细项:rel 8.1 / nov 7.6 / prac 7.8 / author 6.0

8. Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation

评分 7.8 · 方向 cs.CV · Computer Vision · arxiv 2605.16003 · PDF

💡 为交互式长视频生成提出 Echo-Forcing,用分层时序记忆、Scene Recall Frames 与差异感知衰减管理 KV。

长上下文 视频扩散 KV cache 推理优化

摘要:本文面向交互式长视频生成,指出现有基于 autoregressive video diffusion、局部注意力与 KV caching 的训练后优化方法,难以处理 prompt 切换、旧场景遗忘和历史场景召回。核心问题在于历史 KV 状态功能纠缠:稳定背景与近期动态共用同一缓存策略。作者提出无需训练的 Echo-Forcing 场景记忆框架,包括三部分:分层时间记忆,解耦稳定锚点、压缩历史与最近窗口;Scene Recall Frames,将历史场景压缩为结构化 KV 以支持远程召回;Difference-aware Memory Decay,根据新旧场景差异自适应遗忘冲突 token。实验表明,该方法在 VBench-Long ...

评分细项:rel 8.0 / nov 8.0 / prac 8.0 / author 5.5

9. DimMem: Dimensional Structuring for Efficient Long-Term Agent Memory

评分 7.2 · 方向 cs.CL · Computation and Language · arxiv 2605.15759 · PDF

💡 提出 DimMem 维度化长期记忆,把记忆编码为 time/location/reason 等 typed units,支持按维检索与低成本上下文召回。

Agent Memory 长上下文 检索 记忆系统

摘要:DimMem 提出一种面向 LLM agent 长期记忆的轻量化框架,旨在缓解"原始对话历史成本高、扁平事实/摘要又损失结构"的两难。其核心做法是把每条记忆表示为原子化、带类型且自包含的单元,并显式记录时间、地点、原因、目的、关键词等字段,从而支持按维度检索、更新与选择性回忆,无需把完整历史放入上下文。实验在 LoCoMo-10 和 LongMemEval-S 上分别达到 81.43% 和 78.20% 准确率,并将 LoCoMo 单次查询 token 成本降低 24%。此外,经该 schema 微调后的 Qwen3-4B 提取器也优于 LightMem + GPT-4.1-mini,说明显式维度化结构是高效长期记忆的有效基础。

评分细项:rel 7.6 / nov 6.8 / prac 8.0 / author 5.0

10. FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast

评分 7.1 · 方向 cs.CL · Computation and Language · arxiv 2605.16233 · PDF

💡 提出 FORGE,用 Reflexion 式失败反思生成规则与示例记忆,并以 population broadcast 演化分层 ReAct agent。

Agent Memory ReAct Reflexion

摘要:FORGE 研究 LLM agent 能否在不做权重更新的情况下,仅靠自生成记忆持续提升决策能力。方法采用分阶段、群体式演化框架:在内循环中,基于 Reflexion 的反思 agent 将失败轨迹转化为可复用的自然语言记忆,如规则、few-shot 示例或混合形式;在外循环中,把当前最优个体的记忆广播到整个种群,并通过 graduation 机制冻结已收敛实例。该方法在网络防御 POMDP 基准 CybORG CAGE-2 上,对 4 个 LLM 家族均显著优于 zero-shot 和单流 Reflexion:平均回报较 zero-shot 提升 1.7--7.7 倍,较 Reflexion 提升 29--72%,严重失败率可降至约 ...

评分细项:rel 7.5 / nov 7.5 / prac 7.0 / author 5.0


📚 速览 · 其他通过评估的工作(14 篇)

一句话扫读,按评分从高到低;点击标题跳转 arxiv。

  1. cs.CV 7.5 Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization · 💡 提出 Flash-GRPO 单步策略优化,用 iso-temporal grouping 和 temporal gradient rectification 加速视频扩散对齐。

  2. cs.AI 7.2 ScreenSearch: Uncertainty-Aware OS Exploration · 💡 提出 ScreenSearch,用结构化界面检索去重与 ambiguity-aware PUCT 图 bandit 扩展桌面 GUI 状态探索。

  3. cs.AI 7.1 PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control · 💡 面向点级几何 GUI 控制,PAGER 用依赖结构规划加像素级执行,并结合 precision-aligned RL 降低误差传播。

  4. cs.AI 7.1 PRISM: Prompt Reliability via Iterative Simulation and Monitoring for Enterprise Conversational AI · 💡 PRISM 将提示工程做成闭环流程:自动生成测试、多轮仿真、LLM-as-judge 诊断,并迭代修复提示回归。

  5. cs.CV 7.1 VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation · 💡 针对实例级视频理解,内化 tool-calling 与主动感知能力,并用冷启动 SFT 加 RL 训练 LVLM。

  6. cs.CV 6.9 Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models · 💡 提出 ML-FOP-SOAP 二阶优化器,用 Fisher-Orthogonal Projection 与分层 folding 校正多模态梯度方差冲突。

  7. cs.MA 6.3 Multi-Agent Cooperative Transportation: Optimal and Efficient Task Allocation and Path Finding · 💡 提出 CT-TAPF 与 CT-TCBS,把团队编组、任务分配和无碰撞路径规划联合求解多机器人协作搬运。

  8. cs.CV 6.6 RaPD: Resolution-Agnostic Pixel Diffusion via Semantics-Enriched Implicit Representations · 💡 把扩散过程放入连续 Neural Image Field 潜空间,并用 Coordinate-Queried Attention Renderer 实现任意分辨率生成。

  9. cs.MA 6.1 Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback · 💡 针对网络化多智能体 RLHF,提出基于 κ-hop 邻域截断轨迹偏好的分布式零阶策略梯度算法。

  10. cs.AI 6.3 Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning · 💡 提出 BISON 双层策略:低层用模仿学习控制,高层在符号世界模型上规划以处理长时程任务。

  11. q-fin.TR 6.6 The Privacy Subsidy: Kyle's λ λ λ under Noise-Perturbed Order-Flow Observation · 💡 在线性 Kyle 模型中引入高斯隐私噪声观测,推导价格冲击系数、知情交易策略与 privacy subsidy 闭式解。

  12. cs.AI 6.0 Property-Guided LLM Program Synthesis for Planning · 💡 在 PDDL 规划中用 property-guided program synthesis 生成启发式函数,并以形式化反例反馈替代纯分数评估。

  13. cs.CV 6.2 From Failure to Feedback: Group Revision Unlocks Hard Cases in Object-Level Grounding · 💡 在 VLM grounding 的 GRPO 训练中加入 group revision 与 reward shaping,用修订相对初始响应的增益重塑 advantage。

  14. cs.CV 6.0 Registers Matter for Pixel-Space Diffusion Transformers · 💡 研究 pixel-space DiT 中 register tokens 作用,提出 dual-stream register 架构以改善高噪声特征图与生成质量。


数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考

相关推荐
数智工坊5 小时前
【DINOv2论文阅读】:无需监督的通用视觉特征提取器——机器人VLA模型的“眼睛“基石
论文阅读·人工智能·深度学习·计算机视觉·transformer
m0_617493945 小时前
PyTorch CUDA设备不可用错误解决方案
人工智能·pytorch·python
Soari5 小时前
告别玩具级 Demo!深度拆解 agents-towards-production,用硬核工程把 AI Agent 推向工业级生产线
人工智能·软件工程·llmops·架构优化·genai·aiagent·生产级部署
minhuan5 小时前
RTX 4090显存终极优化:模型分层加载、CPU Offload显存和内存动态置换实践.179
人工智能·大模型应用·rtx 4090显存优化·模型分层加载·cpu offload优化
2601_958548485 小时前
电镀整流机源头厂家:企业采购选型策略深度解析
人工智能
光锥智能5 小时前
智元WITA成为全国首例完成大模型备案的具身智能交互模型
人工智能
墨神谕5 小时前
人工智能(一)—AI的起源和发展
人工智能
科技云报道5 小时前
当攻击开始“自主决策”,安全体系如何应战?
人工智能
一切皆是因缘际会5 小时前
AI低代码开发实战:轻量化部署与多场景落地
人工智能·深度学习·低代码·机器学习·ai·架构