06-18 · LLM 最新论文速览

今日候选池 84 篇，硬过滤 + LLM 打分后通过评估 14 篇，精选 Top-10，另列 4 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models

评分 8.9 · 方向 cs.CL · Computation and Language · arxiv 2606.19257 · PDF

💡 DreamReasoner-8B 用 block-size 课程学习解决扩散语言模型大 block 训练推理退化问题，数学/代码推理接近 Qwen3-8B，开源。

扩散语言模型 CoT推理 课程学习 开源

摘要：块扩散语言模型通过并行块级去噪加速解码，但其能否可靠地扩展到长链式思维（CoT）推理仍未解决。本文提出 DreamReasoner-8B，一个开源块扩散推理模型，系统研究了训练与推理块大小对长 CoT 推理的影响。分析发现显著的性能差异：大块训练导致推理能力极差，而小块训练则能保持有效推理。为弥合这一粒度差距，作者提出块大小课程学习（block-size curriculum learning），将训练从细粒度逐步过渡到粗粒度块大小，使模型在多种推理块大小下均具备强推理能力。在数学和代码推理基准上，DreamReasoner-8B 达到与 Qwen3-8B 等主流自回归模型相当的水平。

评分细项：rel 9.5 / nov 8 / prac 8 / author 8

2. Sumi: Open Uniform Diffusion Language Model from Scratch

评分 8.4 · 方向 cs.CL · Computation and Language · arxiv 2606.19005 · PDF

💡 Sumi：首个从零预训练的 7B uniform 扩散语言模型（1.5T tokens），在知识/推理/代码任务上接近同规模 AR 模型，完全开源。

扩散语言模型 从零预训练 开源 7B

摘要：扩散模型已成为自回归模型的有力替代方案。其中，均匀扩散语言模型（UDLM）允许任意 token 在任意步骤更新，理论上支持更灵活的生成。然而，目前尚无 UDLM 在大参数规模和大数据量下从头预训练。本文介绍 Sumi（日语"墨"），一个完全开源的 7B 均匀扩散语言模型，从头在 1.5T token 上预训练。Sumi 在知识、推理和编程基准上与同等数据规模的自回归模型表现相当，但在常识基准上稍弱（可能与偏重教育类数据有关）。作者开源了模型权重、检查点及完整训练方案，为社区研究原生均匀扩散模型的扩展行为和生成特性提供了基准参考。

评分细项：rel 9 / nov 8 / prac 7 / author 7

3. RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

评分 8.5 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.19047 · PDF

💡 RODS 利用 GRPO rollout 的 reward 方差定位策略边界样本，在线合成同拓扑多轮工具调用数据以持续供给 RL 训练。

多agent RL 在线数据合成 tool-use

摘要：多轮工具调用的强化学习（RL）受限于静态数据集中高信息量样本的快速耗尽。作者观察到 GRPO 的梯度信号集中在 rollout 奖励方差最大的任务上（Popoviciu 上界的推论），即智能体能力边界附近、成功与失败大致均衡的样本贡献了不成比例的大梯度。随着训练推进，该边界持续移动，导致静态数据集中的有效样本逐渐枯竭。为此提出 RODS（Reward-driven Online Data Synthesis）：利用过程奖励方差作为零成本的边界检测器，持续识别边界样本，通过技能对齐的重采样管线合成结构复杂度匹配的新多轮样本，并维护与策略共同演化的动态回放缓冲区。仅从 400 条人工种子出发、维持约 800 条活跃样本，RODS 即可达到 17K 样本离线管线的同等性能，所需轨迹减少约 20 倍。

评分细项：rel 9 / nov 8 / prac 8 / author 6

4. GraphPO: Graph-based Policy Optimization for Reasoning Models

评分 8.2 · 方向 cs.CL · Computation and Language · arxiv 2606.18954 · PDF

💡 将 RLVR rollout 组织为 DAG 图结构，合并相似推理状态以消除冗余探索并提供细粒度优势估计。

RLVR 强化学习 推理模型 图结构优化

摘要：基于可验证奖励的强化学习（RLVR）已成为提升大型推理模型能力的标准范式，但存在两个局限：独立采样的响应包含大量重复中间推理步骤，造成冗余探索；稀疏的最终答案奖励难以定位有用步骤。树结构方法通过共享前缀和分支比较部分缓解了该问题，但不同分支到达相似推理状态时仍无法共享信息，且仅做局部比较导致优势估计方差偏高。本文提出 GraphPO（Graph-based Policy Optimization），将 rollout 表示为有向无环图：推理步骤为边，语义状态为节点。GraphPO 将语义等价的推理路径合并为等价类以共享后缀，将计算预算从冗余扩展重新分配到多样探索，并为边分配效率优势和正确性优势，提供更细粒度、更低方差的信用分配信号。

评分细项：rel 9 / nov 8 / prac 7 / author 6

5. LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

评分 8.0 · 方向 cs.MA · Multiagent Systems · arxiv 2606.18388 · PDF

💡 用 LLM agent + 树搜索自动发现 GRPO 多阶段 RL 后训练的超参调度策略，比网格搜索高 6-15%。

RL后训练 多agent 超参搜索 GRPO

摘要：RL 后训练策略依赖数据集，且呈现一个反复出现的经验规律：容量参数在各阶段单调累积，而正则化参数则随训练动态变化呈振荡模式。固定调度无法表达正则化需要追踪的非平稳探索-利用权衡。本文提出 LLMZero，利用 LLM 智能体通过树搜索探索训练轨迹，在每个检查点诊断病理并提出协调的多参数转换。在 4 个 GRPO 任务上，LLMZero 发现的策略相比基线提升 9%--140%，相比网格搜索提升 6%--15%，一致优于随机搜索和基于技能的智能体。所发现的结构性规律可跨任务迁移，解释了不同策略为何形式各异却共享相似的参数动态。

评分细项：rel 9 / nov 7.5 / prac 7 / author 6

6. Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2606.18831 · PDF

💡 以数据配方（检索/多证据综合/推理三类共14K样本）驱动GRPO，在长上下文RL中获得+7.2分提升并迁移至agent任务。

长上下文RL GRPO 数据配方 agentic

摘要：长上下文推理是大语言模型的关键能力，尤其在自主智能体需要对长轨迹进行推理时。强化学习已成为提升该能力的主流范式，但现有工作多聚焦于奖励工程，而多样化训练数据仍然匮乏。本文从数据视角出发，证明一个简单有效的数据配方配合最小化的 outcome-based GRPO 即可大幅提升长上下文推理能力。该配方覆盖检索、多证据综合和推理三类互补任务，构建了 8 个数据集共约 14K 样本。在 Qwen3-4B/8B/30B-A3B 上分别获得 +7.2/+3.2/+6.4 的平均提升，超越已有 RL 训练集。进一步在智能体任务上验证了迁移性，GAIA 提升 +4.8，BrowseComp 提升 +7.0。

评分细项：rel 8.5 / nov 7 / prac 8 / author 7

7. Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

评分 7.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.19327 · PDF

💡 用结构化 rubric 条件化教师模型，对学生自身 on-policy 轨迹做 token 级蒸馏，替代标量 RL 奖励实现细粒度信用分配。

后训练 自蒸馏 Rubric 推理LLM

摘要：推理语言模型的后训练通常依赖监督蒸馏或可验证奖励的强化学习。蒸馏需要昂贵的思维链标注且标注本身可能有噪声；强化学习则将反馈压缩为标量信号，难以指示具体改进方向。本文提出 Rubric-Conditioned Self-Distillation 框架，将结构化的细粒度评分准则（rubric）引入在策略自蒸馏：教师模型以准则为条件，对学生自身采样的轨迹提供 token 级指导，避免以单一参考答案为唯一监督目标，实现比标量奖励更精细的信用分配。方法分两阶段：先学习生成任务特定的评分准则，再训练受准则引导的推理器。在多个科学推理基准上的实验表明，该方法能有效将准则级标准转化为 token 级学习信号，提升推理质量。

评分细项：rel 8.5 / nov 7.5 / prac 7.0 / author 6.0

评分 7.7 · 方向 cs.CV · Computer Vision · arxiv 2606.19341 · PDF

💡 将长视频理解建模为 POMDP，用 turn-level 信用分配（TAURA）做 agentic RL，实现正向 test-time scaling。

agentic RL 视频理解 信用分配 SFT+RL

摘要：长视频理解的被动模型通常采用"全部观看"范式，计算开销随视频时长线性增长。本文提出 OmniAgent------首个原生全模态智能体，将视频理解建模为基于 POMDP 的迭代"观察-思考-行动"循环。它按需执行动作，选择性地将音视觉线索蒸馏为持久化文本记忆，将推理复杂度与原始视频时长解耦。训练方面引入：(1) Agentic SFT，通过 best-of-N 轨迹合成与双阶段质量控制引导主动感知；(2) Agentic RL 与 TAURA 机制，利用轮次级熵将信用分配导向关键发现轮次。OmniAgent 展现正向测试时缩放特性------推理轮数越多性能越优。在十个基准上达到开源模型 SOTA，其 7B 模型在 LVBench 上超越 10 倍大的 Qwen2.5-VL-72B（50.5% vs. 47.3%）。

评分细项：rel 8 / nov 7.5 / prac 7 / author 7

9. Skill-MAS: Evolving Meta-Skill for Automatic Multi-Agent Systems

评分 7.4 · 方向 cs.MA · Multiagent Systems · arxiv 2606.18837 · PDF

💡 提出 Skill-MAS：将多 Agent 编排能力抽象为可进化 Meta-Skill，通过多轨迹采样+选择性对比反思闭环优化，无需梯度更新即可积累经验。

多Agent系统 元技能进化 自动编排

摘要：基于大语言模型的自动多智能体系统（MAS）生成是处理复杂任务的重要前沿方向，但现有方法面临模型能力与经验留存的两难：推理时MAS依赖冻结的前沿LLM却无法积累经验，训练时MAS通过梯度更新内化经验但受限于小模型的能力天花板。本文提出Skill-MAS，一条将经验留存与参数更新解耦的第三条路径，将高层编排能力概念化为可进化的元技能（Meta-Skill）。其通过闭环优化迭代精炼：多轨迹采样获取当前元技能下的行为分布，选择性反思则对优先任务进行层次对比分析，将系统性经验蒸馏为可泛化的策略级原则。在四个复杂基准和四种LLM上的实验表明，Skill-MAS不仅显著提升性能，还保持良好的成本-性能权衡，且进化出的元技能对未见任务和不同LLM具有强鲁棒性和迁移能力。

评分细项：rel 8 / nov 7 / prac 7 / author 5

10. Enhancing Decision-Making with Large Language Models through Multi-Agent Fictitious Play

评分 6.8 · 方向 cs.MA · Multiagent Systems · arxiv 2606.19308 · PDF

💡 提出 MAFP：将多利益方决策建模为博弈，各 Agent 按虚拟博弈迭代最优响应历史经验混合策略，逼近均衡解提升决策质量。

多Agent系统 博弈论 决策

摘要：基于大语言模型的多智能体系统在分治执行复杂任务方面表现出色，但在决策任务中存在不足------此类任务要求同时从所有利益相关者的立场进行推理，各方决策相互依赖，无法孤立求解。本文将这一挑战定义为"立场纠缠"（stance entanglement），一种区别于执行复杂性的决策复杂性。为此提出多智能体虚拟博弈（MAFP）范式：将利益相关者立场表示为智能体，将决策建模为均衡求解过程。基于博弈论中虚拟博弈（fictitious play）原理，各智能体迭代地对其他智能体历史决策的经验混合进行最优响应，从而逐步暴露并修补彼此弱点，提升决策质量与鲁棒性。在竞争性策略决策任务上的评估表明，MAFP在锦标赛强度和鲁棒性两项指标上均优于单轮和多轮基线方法。

评分细项：rel 7 / nov 7 / prac 6 / author 6

📚 速览 · 其他通过评估的工作（4 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.MA 6.6 Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents · 💡 DSG 将搜索 grounding 从推理模型解耦为 MCP 兼容网关，支持多供应商路由与语义缓存，搜索成本降 91% 且准确率接近原生搜索。
cs.CL 6.9 Learning User Simulators with Turing Rewards · 💡 提出 Turing-RL：用 LLM judge 作判别式图灵奖励训练用户模拟器，使生成响应与真实用户不可区分，优于 log-prob 匹配基线。
cs.CL 6.6 SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration · 💡 提出多 agent 管线 SAGE 做黑盒 prompt 优化，结合诊断代码执行与 A/B 测试实现连续迭代增益。
cs.AI 6.2 Skill-Guided Continuation Distillation for GUI Agents · 💡 SGCD 让 GUI agent 先无引导执行到离轨状态，再用技能引导策略生成续写轨迹作为监督，迭代自我改进至 50%+ 成功率。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考