今日候选池 93 篇,硬过滤 + LLM 打分后通过评估 27 篇,精选 Top-10,另列 17 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination
评分 8.6 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15207 · PDF
💡 提出 TeamTR 信任域多智能体微调框架,在每次组件更新后重采样轨迹并做逐 agent 散度约束,缓解共享上下文下的 occupancy shift。
多智能体 LLM后训练 trust-region 开源代码
摘要:该文关注多智能体 LLM 在共享上下文下顺序微调时的协调失效:更新某个 agent 会改变团队上下文分布,而后续仍用缓存 rollout 评估会不断累积偏差。作者将其形式化为 compounding occupancy shift,并证明陈旧分布评估的损失随智能体数二次增长,而中间重采样可降为线性。基于此提出 TeamTR:每次组件更新后重采样轨迹,并用 trust-region 约束各 agent 的分布偏移,给出性能提升下界。实验表明其平均优于单智能体和顺序基线 7.1%,还能减少协同退化并支持即插即用替换组件。
评分细项:rel 9.2 / nov 8.3 / prac 8.7 / author 7.0
2. Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR
评分 8.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.15726 · PDF
💡 提出 NudgeRL,在 RLVR 中用 Strategy Nudging 生成多样推理轨迹,并以 inter/intra-context 奖励分解加蒸馏回传基座策略。
RLVR 后训练 推理 探索
摘要:论文针对 RLVR 中"只会在已采样轨迹上变好"的探索瓶颈,提出高效的结构化探索框架 NudgeRL。其核心是 Strategy Nudging:为每次 rollout 注入轻量级策略上下文,诱导模型生成多样化推理路径,而无需昂贵的 oracle 监督。为充分利用这些探索样本,作者设计统一目标,将奖励拆分为上下文间与上下文内两部分,并通过 distillation 把发现的有效行为迁回基础策略。实验显示,NudgeRL 优于标准 GRPO,即使后者 rollout 预算扩大 8 倍也不及它,并在 5 个高难数学基准上平均超过 oracle-guided RL 基线。
评分细项:rel 9.1 / nov 8.2 / prac 8.3 / author 6.0
3. Argus: Evidence Assembly for Scalable Deep Research Agents
评分 8.1 · 方向 cs.CL · Computation and Language · arxiv 2605.16217 · PDF
💡 Argus 让 Searcher 与 Navigator 协作完成 deep research:用证据图组装信息,并以强化学习训练 Navigator 的派发、校验与综合。
多智能体 deep research 强化学习 agentic workflow
摘要:该文提出深度研究代理 Argus,将信息检索从"并行暴力搜索完整答案"改为"拼接互补证据"。系统由 Searcher 与 Navigator 协作:Searcher 采用 ReAct 式交互收集子问题证据,Navigator 维护共享证据图,判断缺失信息、调度搜索并基于完整证据图生成带来源追踪的答案。作者用强化学习训练 Navigator 的验证、派发和综合能力,而 Searcher 保持标准 ReAct 形式,因此无需重训即可支持单个或多个并行 Searcher。基于 35B-A3B MoE,Argus 在 8 个基准上单 Searcher 平均提升 5.5 分,8 个并行 Searcher 提升 12.7 分。
评分细项:rel 8.5 / nov 8.1 / prac 7.6 / author 6.5
4. RecMem: Recurrence-based Memory Consolidation for Efficient and Effective Long-Running LLM Agents
评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.16045 · PDF
💡 RecMem 将交互先存入 subconscious memory,仅在语义相似事件持续 recurrence 时触发 LLM 记忆提炼与语义补全。
Agent memory 长上下文 系统优化
摘要:RecMem 重新思考长时运行 LLM agent 的记忆固化时机。现有方法通常对每次交互都调用 LLM 提取记忆,token 开销很高。RecMem 先把新交互存入"潜意识"记忆层,用轻量 embedding 编码并检索;只有当语义相近的交互持续重复出现时,才调用 LLM 提取 episodic memory 和 semantic memory,实现基于 recurrence 的选择性固化。为弥补摘要化丢失的细节,系统还加入语义精炼机制恢复细粒度事实。实验表明,RecMem 在准确率超过 3 个 SOTA 记忆系统的同时,将记忆构建 token 成本最高降低 87%。
评分细项:rel 8.5 / nov 7.5 / prac 8.5 / author 6.0
5. Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation
评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.15913 · PDF
💡 为 block attention 引入 SemanticSeg 自动分块与 block distillation,用 sink token 和 block dropout 提升长上下文泛化。
长上下文 block attention KV cache 蒸馏
摘要:论文旨在推动 block attention 在长上下文中的泛化应用,以提升 RAG 等场景的 KV cache 复用。作者指出两大障碍:难以把文本切成语义自洽的块,以及现有 block fine-tuning 效率低且易伤性能。为此,先构建包含 3 万余样本、覆盖书籍、代码、网页和对话等 16 类文本的 SemanticSeg 数据集,并训练轻量分段器实现可控粒度的自动分块。随后提出 block distillation,用冻结的 full-attention 教师指导 block-attention 学生,并结合 block sink tokens、block dropout 和 token-level loss weighti...
评分细项:rel 8.6 / nov 7.9 / prac 8.2 / author 5.0
6. Contexting as Recommendation: Evolutionary Collaborative Filtering for Context Engineering
评分 7.9 · 方向 cs.CL · Computation and Language · arxiv 2605.15721 · PDF
💡 把 context engineering 改写为推荐问题,提出 NCCE 用 Neural Collaborative Filtering 与 Context-CF Co-Evolution 做实例级上下文路由。
agentic workflow context engineering 推荐 路由
摘要:该文将 context engineering 从"寻找一个全局最优提示上下文"转为"为每个样本推荐最合适上下文"的推荐问题。作者提出 NCCE(Neural Collaborative Context Engineering):先构建多样化 anchor contexts,再通过 Context-CF Co-Evolution 形成协同进化闭环------轻量 NCF 模型学习样本与上下文的偏好关系,指导生成更专门的上下文变体,而新评测结果又持续反哺 NCF 对潜在偏好的理解。推理时,训练好的 NCF 作为 context router,为未见样本动态分配上下文策略。理论与实验均表明,按实例匹配最优上下文可显著提升任务效果。
评分细项:rel 8.4 / nov 8.3 / prac 7.6 / author 5.0
7. BootstrapAgent: Distilling Repository Setup into Reusable Agent Knowledge
评分 7.9 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15815 · PDF
💡 用多智能体把仓库启动过程蒸馏成 .bootstrap contract,结合 Docker 验证、warm repair 与 delta repair 复用环境配置知识。
多智能体 代码Agent 仓库启动
摘要:BootstrapAgent 聚焦代码 agent 处理中陌生仓库前最耗时的"环境启动"问题。作者将仓库 bootstrapping 视为可复用的启动知识,并提出多智能体框架,把依赖修复、排障经验等探索成果沉淀为可验证、可供后续 agent 直接使用的 .bootstrap 合同。系统通过证据抽取、结构化规划、基于 Docker 的确定性验证及 trace 驱动修复,生成覆盖环境配置、诊断检查、最小验证和修复知识的启动规范;同时引入 warm repair with clean replay 与 delta repair 机制,加速调试并避免 reward hacking。三项基准上成功率达 92.9%,较基线提升超 10%,下游 ...
评分细项:rel 8.5 / nov 7.5 / prac 8.5 / author 5.0
8. ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
评分 7.8 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15224 · PDF
💡 提出 ICRL,用共享骨干联合训练 solver 与 critic,并以 distribution-calibration reweighting 和 role-wise GAE 内化自我批评。
RL 后训练 自我批评
摘要:论文关注如何让 LLM 真正"内化"自我批评,而不是一旦移除 critique 就再次出错。作者提出 ICRL,通过共享 backbone 联合训练 solver 与 critic:critic 的奖励取决于其反馈能否提升 solver 后续的无辅助表现,从而鼓励可执行、可迁移的批评。为缓解 critique 条件下与无 critique 条件下的分布偏移,ICRL 设计 distribution-calibration re-weighting ratio,只转移与 solver 自身提示分布兼容的改进;同时用 role-wise group advantage estimation 稳定双角色联合优化。基于 Qwen3-4B/8...
评分细项:rel 8.5 / nov 8.0 / prac 7.5 / author 5.0
9. PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control
评分 8.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.15963 · PDF
💡 面向点级几何 GUI 控制,PAGER 结合 pixel-grounded SFT、precision-aligned RL 与依赖拓扑规划执行。
GUI Agent 后训练 强化学习 SFT
摘要:本文关注精度敏感型 GUI 任务,尤其是几何作图场景:与常见"区域容错"点击不同,这类任务要求在连续画布上进行点级精确操作,微小坐标误差就可能因几何依赖关系引发连锁拓扑错误。为此,作者提出 PAGE Bench,包含 4,906 道题和 22.4 万余条带过程监督的像素级 GUI 动作;同时提出拓扑感知智能体 PAGER,将作图分解为依赖结构规划与像素级执行,并结合 pixel-grounded 监督微调和 precision-aligned 强化学习。实验表明,现有多模态模型虽可达到 88% 以上动作类型准确率,但任务成功率不足 6%;PAGER 将成功率提升至最强基线的 4.1 倍。
评分细项:rel 8.6 / nov 7.7 / prac 8.3 / author 6.5
10. Look Before You Leap: Autonomous Exploration for LLM Agents
评分 7.6 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.16143 · PDF
💡 提出 Explore-then-Act,用任务 rollout 与探索 rollout 交替训练,并以 Exploration Checkpoint Coverage 约束 agent 先探测后执行。
Agent 强化学习 探索 Agentic Workflow
摘要:论文指出,LLM 智能体在陌生环境中常因过早利用既有知识而失败,缺乏系统性的自主探索能力。作者据此提出可验证指标 Exploration Checkpoint Coverage,用于衡量智能体对关键状态、物体及可供性(affordance)的发现广度。评测发现,标准面向任务的强化学习会导致行为狭窄且重复,限制后续表现。为解决这一问题,论文设计交替训练策略,将任务执行 rollout 与探索 rollout 结合,并分别用对应的可验证奖励优化;进一步提出 Explore-then-Act 范式,先在预算内收集环境信息,再执行任务。结果表明,显式学习探索是构建可泛化、面向真实世界智能体的关键。
评分细项:rel 8.2 / nov 7.5 / prac 7.6 / author 5.0
📚 速览 · 其他通过评估的工作(17 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
-
cs.CL7.6DimMem: Dimensional Structuring for Efficient Long-Term Agent Memory · 💡 提出 DimMem 维度化长期记忆,把记忆拆成 time、location、reason 等 typed fields,支持 agent 检索与选择性召回。 -
cs.MA7.5Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems · 💡 提出 Nexa:先并行生成多 agent 响应,再用轻量 transformer 预测稀疏 DAG 通信图,执行一次顺序消息传播。 -
cs.AI7.8ScreenSearch: Uncertainty-Aware OS Exploration · 💡 针对桌面 GUI agent 部分可观测问题,结合结构化界面检索与 ambiguity-aware PUCT 图 bandit 做 OS 探索。 -
cs.CV7.7VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation · 💡 VideoSeeker 将原生 tool invocation 内化到 LVLM,结合冷启动 SFT、结果监督和基于规则的 RL,完成实例级视频检索与定位。 -
cs.CV7.9Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization · 💡 提出 Flash-GRPO 单步策略优化,用 iso-temporal grouping 与 temporal gradient rectification 降低视频扩散对齐训练开销。 -
cs.MA7.2paper.json: A Coordination Convention for LLM-Agent-Actionable Papers · 💡 提出供 LLM agent 读取的 paper.json 规范,加入 claim ID、does-not-claim 列表与复现实验命令 JSON 元数据。 -
cs.CV7.5Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation · 💡 提出 Echo-Forcing 场景记忆框架,用分层时序记忆、Scene Recall Frames 和差异感知衰减支持交互式长视频生成。 -
cs.MA6.8SMCEvolve: Principled Scientific Discovery via Sequential Monte Carlo Evolution · 💡 把 LLM 驱动程序演化重写为 Sequential Monte Carlo 采样,结合自适应重采样、混合变异与自动收敛控制减少 LLM 调用。 -
cs.AI7.1PRISM: Prompt Reliability via Iterative Simulation and Monitoring for Enterprise Conversational AI · 💡 PRISM 将提示词维护做成闭环系统:自动生成测试用例、模拟多轮对话、用 LLM-as-judge 判错并迭代修复 prompt。 -
cs.AI6.6FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast · 💡 提出 FORGE,用 Reflexion 内循环加 population broadcast 外循环进化提示记忆,无需权重更新提升分层 ReAct 决策。 -
cs.MA6.4Multi-Agent Cooperative Transportation: Optimal and Efficient Task Allocation and Path Finding · 💡 提出 CT-TAPF 与 CT-TCBS,把团队组建、任务分配和无碰撞路径规划统一求解多机器人协同搬运。 -
cs.CV6.8From Failure to Feedback: Group Revision Unlocks Hard Cases in Object-Level Grounding · 💡 在 VLM grounding 的 GRPO 中加入 group revision 与 improvement shaping,把失败初答转成可学习的优势信号。 -
cs.MA6.2Estimated Dynamic Equilibrium Model: Supply and Demand as a Sample Path of a Stochastic Process · 💡 提出 EDEM 代理市场模型,把供需视为随机过程样本路径,并用顺序抽样上尾报价解释价格泡沫漂移。 -
q-fin.TR6.7TradeMech: A Method to Multilaterally Net Trades Without Altering Counterparty Exposure · 💡 TradeMech 把双边合约网络重写为链与环上的多方合约,在不改变对手方暴露下实现可指定资产的最大多边净额。 -
cs.MA6.1From Gridworlds to Warehouses: Adapting Lightweight One-shot Multi-Agent Pathfinding for AGVs · 💡 将 MAPF 扩展为面向仓储 AGV 的 MAWPF,显式建模旋转代价、加减速与跟驰碰撞并适配 PIBT、LNS2 等算法。 -
cs.MA6.0Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback · 💡 在网络化多智能体 RLHF 中用 κ-hop 截断轨迹偏好反馈,结合分布式零阶策略梯度估计各代理局部更新。 -
cs.CV6.3Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models · 💡 提出 ML-FOP-SOAP 二阶优化器,用 Fisher-Orthogonal Projection 与分层 folding 缓解多模态梯度冲突,支持 8192 大批训练。
数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考