06-15 · LLM 最新论文速览

今日候选池 89 篇，硬过滤 + LLM 打分后通过评估 7 篇。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

评分 7.5 · 方向 cs.CL · Computation and Language · arxiv 2606.14302 · PDF

💡 RePro 让 LLM agent 在 RL 训练中先前向执行再回顾生成 progress 信号，用复合奖励自监督进度感知，WebShop 成功率提升 12%。

LLM Agent 强化学习 自我反思 长视野任务

摘要：基于强化学习训练的 LLM 智能体在逐步动作预测上进行优化，但缺乏对任务进展的元认知意识，这一缺陷在长时序任务中尤为突出。初步实验表明，在线进展提示反而损害性能，而回顾式示范有助于提升，但这种能力无法仅通过结果奖励训练获得。本文提出 RePro（Retrospective Progress-Aware Training），通过"先执行再反思"的 rollout 范式训练智能体自生成进展信号：智能体先在线执行动作，再基于完整轨迹和已知结果回顾性地评估每步进展。RePro 以少量外部示范进行反思格式的热身初始化，随后通过复合奖励进行自监督训练。在 WebShop、ALFWorld 和 Sokoban 上，RePro 为 Qwen 系列模型带来最高 12% 的绝对成功率提升。

评分细项：rel 8 / nov 7 / prac 7 / author 6

2. HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14249 · PDF

💡 HarnessX 通过可组合的 harness 原语与 trace 驱动的多 agent 进化引擎 AEGIS，将运行时 scaffold 自动优化并回馈模型训练，五个基准平均+14.5%。

多Agent Agentic Workflow 自动进化

摘要：AI 智能体的性能高度依赖运行时 harness（包括 prompt、工具、记忆和控制流），但当前 harness 多为手工定制且固化不变，执行过程中产生的丰富 trace 也很少被回馈用于系统性改进。本文提出 HarnessX，一个可组合、自适应且可演化的智能体 harness 工厂。HarnessX 通过替换代数组装类型化的 harness 原语，利用 AEGIS------一个基于 trace 驱动的多智能体演化引擎------进行自适应调整，并将执行轨迹同时转化为 harness 更新和模型训练信号，形成闭环。在 ALFWorld、GAIA、WebShop、τ³-Bench 和 SWE-bench Verified 五个基准上，HarnessX 平均提升 14.5%（最高 +44.0%），表明演化运行时接口是模型扩展之外的有效互补路径。

评分细项：rel 8 / nov 7 / prac 7 / author 5

3. Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14211 · PDF

💡 RefGRPO 在 agentic RL 中加入免费校准奖励（对比 agent 自我反思与实际结果），配合动态系数调度同时提升反思校准与任务准确率。

Agentic RL GRPO 自我校准

摘要：LLM 智能体在与外部环境交互并获得执行反馈后，理应能据此准确评估自身表现，但作者发现存在持续的"反思鸿沟"(reflection gap)：即便答案正确，智能体仍倾向于错误评估自身输出，而标准 RL 因信用分配不匹配难以修复此问题。为此提出 RefGRPO，在标准 RL 算法上增加两个关键组件：一个通过对比智能体自身反思与实际结果计算的免费校准奖励（无需额外奖励模型或外部标注），以及该系数的动态调度策略。在五个 text-to-SQL 基准上，该方法同时改善了反思校准（欠自信率从 44.4% 降至 7.7%）和任务准确率（75.1%→76.5%）。校准后的反思使智能体成为自身验证器，进而支持基于反思伪奖励的自我改进及测试时选择性预测。

评分细项：rel 8 / nov 7 / prac 7 / author 5

4. Learning Coordinated Preference for Multi-Objective Multi-Agent Reinforcement Learning

评分 6.4 · 方向 cs.MA · Multiagent Systems · arxiv 2606.14693 · PDF

💡 提出 PCMA 框架，为合作多目标 MARL 中各 agent 学习差异化偏好，通过一阶改进分解实现团队级帕累托权衡协调。

多Agent 多目标强化学习 偏好协调

摘要：合作型多目标多智能体强化学习（MOMARL）需要在多个潜在冲突的目标下进行团队决策，冲突不仅存在于目标之间，也存在于具有不同观测、角色和贡献的智能体之间。本文提出 Preference Coordinated Multi-agent Policy Optimization（PCMA），通过学习协调的智能体特定偏好来实现智能体间互补的权衡。理论上，作者将合作型 MOMARL 形式化为团队最优博弈，并证明在适当条件下，偏好多样性可通过一阶改进分解诱导团队整体提升。在多个合作型 MOMA 环境及实际交通控制场景的实验中，PCMA 在性能和权衡协调性上均优于基线方法。

评分细项：rel 7 / nov 6 / prac 5 / author 5

5. Communication Policy Evolution for Proactive LLM Agents

评分 6.6 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14314 · PDF

💡 形式化 LLM agent 的通信策略（文本/UI/混合），提出 CPE 自进化框架通过 rollout + prompt 级演化提升多模态交互任务成功率。

LLM Agent 通信策略 自进化

摘要：LLM 智能体已发展为自主系统，但用户与智能体之间仍存在信息鸿沟：通信代价高昂，且用户偏好的同质性进一步限制了信息交换。本文形式化定义了"通信策略"(Communication Policy)，建立了文本与 UI 两类策略，并在多种环境、角色和模型组合下进行评估。作者构建了 User-Agent 和 Planner-Executor 两种信息不对称场景，发现文本交互有利于任务完成，而结构化 UI 能提升响应质量与角色一致性，由此提出混合方法。进一步提出 Communication Policy Evolution (CPE) 自演化框架，通过 rollout 和 prompt 级别的迭代优化通信策略，无需修改模型即可在多场景下取得最佳任务成功率。研究表明，通信行为是 LLM 智能体设计中关键但被忽视的维度。

评分细项：rel 7 / nov 6 / prac 6 / author 5

6. VISTA: View-Consistent Self-Verified Training for GUI Grounding

评分 6.5 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14579 · PDF

💡 在 GRPO 训练 GUI grounding 时，用多视图裁剪构建比较组并加 self-verified anchor 稳定坐标生成，ScreenSpot-Pro 提升约 10 点。

GRPO GUI Grounding 多视图训练 RL微调

摘要：将 Group Relative Policy Optimization (GRPO) 应用于 GUI Grounding 时，rollout 仅从单张截图采样，导致困难样本全部失败、简单样本全部成功，无法产生有效的相对优势信号。本文提出 VISTA，一种基于 GRPO 的训练框架：对同一 GUI 实例生成多个保留目标元素的裁剪视图，使模型在语义等价但几何不同的输入间进行比较。为稳定短坐标生成，VISTA 引入自验证跨视图锚点------仅在模型已产生最大奖励 rollout 时激活，以优势加权损失优化 oracle 答案，避免强化学习退化为无条件模仿。在五个 GUI Grounding 基准上，VISTA 持续提升准确率，例如在 ScreenSpot-Pro 上将 Qwen3-VL 4B/8B/30B-A3B 从 55.5/52.7/53.7 提升至 63.4/65.8/67.0，同时降低了预测翻转率。

评分细项：rel 6.5 / nov 7.0 / prac 6.0 / author 5.5

7. SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

评分 6.2 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14239 · PDF

💡 SkillAudit 通过配对轨迹审计（有/无技能执行同任务）+ 过程对齐对比评估 PACE，在无 ground-truth 条件下自动进化 agent 技能文档。

Agent技能进化 无标注反馈

摘要：Agent 技能是指导冻结 LLM 智能体执行专业工作流的结构化程序包，但部署后常因边界案例、API 变更等问题而需要持续演化。现有方法依赖验证分数、测试结果或环境奖励等特权反馈，在仅有任务描述和工作空间数据时难以适用。本文提出 SkillAudit，一种无需 ground-truth 反馈的技能演化框架。核心思路是配对轨迹审计：对同一任务分别执行有/无候选技能的运行，隔离技能对行为的影响。框架通过 Process-Aligned Contrastive Evaluation (PACE) 将轨迹差异映射为针对技能文档特定段落的诊断信号，并由结构验证器检查任务约束、回滚有害更新。编辑通过 Refine（去除噪声指导）和 Repair（替换冲突段落）两条流水线路由。在覆盖 8 个专业领域的 89 个容器化任务上，SkillAudit 达到 73.9% 平均任务奖励，显著优于无技能基线。

评分细项：rel 6 / nov 7 / prac 6 / author 6

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考