06-15 · LLM 最新论文速览

今日候选池 89 篇,硬过滤 + LLM 打分后通过评估 7 篇。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易


🌟 精选

1. Retrospective Progress-Aware Self-Refinement for LLM Agent Training

评分 7.5 · 方向 cs.CL · Computation and Language · arxiv 2606.14302 · PDF

💡 RePro 让 LLM agent 在 RL 训练中先前向执行再回顾生成 progress 信号,用复合奖励自监督进度感知,WebShop 成功率提升 12%。

LLM Agent 强化学习 自我反思 长视野任务

摘要:基于强化学习训练的 LLM 智能体在逐步动作预测上进行优化,但缺乏对任务进展的元认知意识,这一缺陷在长时序任务中尤为突出。初步实验表明,在线进展提示反而损害性能,而回顾式示范有助于提升,但这种能力无法仅通过结果奖励训练获得。本文提出 RePro(Retrospective Progress-Aware Training),通过"先执行再反思"的 rollout 范式训练智能体自生成进展信号:智能体先在线执行动作,再基于完整轨迹和已知结果回顾性地评估每步进展。RePro 以少量外部示范进行反思格式的热身初始化,随后通过复合奖励进行自监督训练。在 WebShop、ALFWorld 和 Sokoban 上,RePro 为 Qwen 系列模型带来最高 12% 的绝对成功率提升。

评分细项:rel 8 / nov 7 / prac 7 / author 6

2. HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14249 · PDF

💡 HarnessX 通过可组合的 harness 原语与 trace 驱动的多 agent 进化引擎 AEGIS,将运行时 scaffold 自动优化并回馈模型训练,五个基准平均+14.5%。

多Agent Agentic Workflow 自动进化

摘要:AI 智能体的性能高度依赖运行时 harness(包括 prompt、工具、记忆和控制流),但当前 harness 多为手工定制且固化不变,执行过程中产生的丰富 trace 也很少被回馈用于系统性改进。本文提出 HarnessX,一个可组合、自适应且可演化的智能体 harness 工厂。HarnessX 通过替换代数组装类型化的 harness 原语,利用 AEGIS------一个基于 trace 驱动的多智能体演化引擎------进行自适应调整,并将执行轨迹同时转化为 harness 更新和模型训练信号,形成闭环。在 ALFWorld、GAIA、WebShop、τ³-Bench 和 SWE-bench Verified 五个基准上,HarnessX 平均提升 14.5%(最高 +44.0%),表明演化运行时接口是模型扩展之外的有效互补路径。

评分细项:rel 8 / nov 7 / prac 7 / author 5

3. Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14211 · PDF

💡 RefGRPO 在 agentic RL 中加入免费校准奖励(对比 agent 自我反思与实际结果),配合动态系数调度同时提升反思校准与任务准确率。

Agentic RL GRPO 自我校准

摘要:LLM 智能体在与外部环境交互并获得执行反馈后,理应能据此准确评估自身表现,但作者发现存在持续的"反思鸿沟"(reflection gap):即便答案正确,智能体仍倾向于错误评估自身输出,而标准 RL 因信用分配不匹配难以修复此问题。为此提出 RefGRPO,在标准 RL 算法上增加两个关键组件:一个通过对比智能体自身反思与实际结果计算的免费校准奖励(无需额外奖励模型或外部标注),以及该系数的动态调度策略。在五个 text-to-SQL 基准上,该方法同时改善了反思校准(欠自信率从 44.4% 降至 7.7%)和任务准确率(75.1%→76.5%)。校准后的反思使智能体成为自身验证器,进而支持基于反思伪奖励的自我改进及测试时选择性预测。

评分细项:rel 8 / nov 7 / prac 7 / author 5

4. Learning Coordinated Preference for Multi-Objective Multi-Agent Reinforcement Learning

评分 6.4 · 方向 cs.MA · Multiagent Systems · arxiv 2606.14693 · PDF

💡 提出 PCMA 框架,为合作多目标 MARL 中各 agent 学习差异化偏好,通过一阶改进分解实现团队级帕累托权衡协调。

多Agent 多目标强化学习 偏好协调

摘要:合作型多目标多智能体强化学习(MOMARL)需要在多个潜在冲突的目标下进行团队决策,冲突不仅存在于目标之间,也存在于具有不同观测、角色和贡献的智能体之间。本文提出 Preference Coordinated Multi-agent Policy Optimization(PCMA),通过学习协调的智能体特定偏好来实现智能体间互补的权衡。理论上,作者将合作型 MOMARL 形式化为团队最优博弈,并证明在适当条件下,偏好多样性可通过一阶改进分解诱导团队整体提升。在多个合作型 MOMA 环境及实际交通控制场景的实验中,PCMA 在性能和权衡协调性上均优于基线方法。

评分细项:rel 7 / nov 6 / prac 5 / author 5

5. Communication Policy Evolution for Proactive LLM Agents

评分 6.6 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14314 · PDF

💡 形式化 LLM agent 的通信策略(文本/UI/混合),提出 CPE 自进化框架通过 rollout + prompt 级演化提升多模态交互任务成功率。

LLM Agent 通信策略 自进化

摘要:LLM 智能体已发展为自主系统,但用户与智能体之间仍存在信息鸿沟:通信代价高昂,且用户偏好的同质性进一步限制了信息交换。本文形式化定义了"通信策略"(Communication Policy),建立了文本与 UI 两类策略,并在多种环境、角色和模型组合下进行评估。作者构建了 User-Agent 和 Planner-Executor 两种信息不对称场景,发现文本交互有利于任务完成,而结构化 UI 能提升响应质量与角色一致性,由此提出混合方法。进一步提出 Communication Policy Evolution (CPE) 自演化框架,通过 rollout 和 prompt 级别的迭代优化通信策略,无需修改模型即可在多场景下取得最佳任务成功率。研究表明,通信行为是 LLM 智能体设计中关键但被忽视的维度。

评分细项:rel 7 / nov 6 / prac 6 / author 5

6. VISTA: View-Consistent Self-Verified Training for GUI Grounding

评分 6.5 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14579 · PDF

💡 在 GRPO 训练 GUI grounding 时,用多视图裁剪构建比较组并加 self-verified anchor 稳定坐标生成,ScreenSpot-Pro 提升约 10 点。

GRPO GUI Grounding 多视图训练 RL微调

摘要:将 Group Relative Policy Optimization (GRPO) 应用于 GUI Grounding 时,rollout 仅从单张截图采样,导致困难样本全部失败、简单样本全部成功,无法产生有效的相对优势信号。本文提出 VISTA,一种基于 GRPO 的训练框架:对同一 GUI 实例生成多个保留目标元素的裁剪视图,使模型在语义等价但几何不同的输入间进行比较。为稳定短坐标生成,VISTA 引入自验证跨视图锚点------仅在模型已产生最大奖励 rollout 时激活,以优势加权损失优化 oracle 答案,避免强化学习退化为无条件模仿。在五个 GUI Grounding 基准上,VISTA 持续提升准确率,例如在 ScreenSpot-Pro 上将 Qwen3-VL 4B/8B/30B-A3B 从 55.5/52.7/53.7 提升至 63.4/65.8/67.0,同时降低了预测翻转率。

评分细项:rel 6.5 / nov 7.0 / prac 6.0 / author 5.5

7. SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

评分 6.2 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.14239 · PDF

💡 SkillAudit 通过配对轨迹审计(有/无技能执行同任务)+ 过程对齐对比评估 PACE,在无 ground-truth 条件下自动进化 agent 技能文档。

Agent技能进化 无标注反馈

摘要:Agent 技能是指导冻结 LLM 智能体执行专业工作流的结构化程序包,但部署后常因边界案例、API 变更等问题而需要持续演化。现有方法依赖验证分数、测试结果或环境奖励等特权反馈,在仅有任务描述和工作空间数据时难以适用。本文提出 SkillAudit,一种无需 ground-truth 反馈的技能演化框架。核心思路是配对轨迹审计:对同一任务分别执行有/无候选技能的运行,隔离技能对行为的影响。框架通过 Process-Aligned Contrastive Evaluation (PACE) 将轨迹差异映射为针对技能文档特定段落的诊断信号,并由结构验证器检查任务约束、回滚有害更新。编辑通过 Refine(去除噪声指导)和 Repair(替换冲突段落)两条流水线路由。在覆盖 8 个专业领域的 89 个容器化任务上,SkillAudit 达到 73.9% 平均任务奖励,显著优于无技能基线。

评分细项:rel 6 / nov 7 / prac 6 / author 6


数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考

相关推荐
城事漫游Molly1 小时前
如何用 ChatGPT 辅助写文献综述,而不是编造文献?
人工智能·chatgpt·提示词·ai for science·文献综述
-山中问答-1 小时前
【智能体工具使用实战06】工具增强型Agent的评测体系
人工智能·智能体·工具调用·测评体系
_codemonster1 小时前
手语识别损失函数
人工智能·深度学习·机器学习
2601_959982212 小时前
数字化浪潮下的科技商贸融合发展新趋势
人工智能
MemoriKu2 小时前
Flutter 本地 AI 相册工程收口:从屏幕常亮、标签体系到照片属性后台队列
大数据·人工智能·python·flutter·elasticsearch·搜索引擎·数据库架构
带娃的IT创业者2 小时前
GitHub 热门: coleam00/Archon —— 当 AI Agent 学会自我进化
人工智能·github·开源项目·ai agent·智能体·自我进化
云烟成雨TD2 小时前
Agent Scope Java 2.x 系列【11】中间件(Middleware):核心设计
java·人工智能·agent
2401_885665192 小时前
基于OpenCV的模板匹配OCR实战:银行卡与身份证数字识别完整教程
人工智能·python·opencv·计算机视觉·ocr
装不满的克莱因瓶2 小时前
了解3D卷积原理——从空间感知到时空建模的深度学习核心算子
人工智能·pytorch·python·深度学习·机器学习·3d·ai