06-23~24 · LLM 论文合辑

今日候选池 193 篇，硬过滤 + LLM 打分后通过评估 18 篇，精选 Top-10，另列 8 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. `SPIRAL` SPIRAL: Learning to Search and Aggregate

评分 8.2 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.23595 · PDF

💡 SPIRAL 用 set RL 端到端联合训练并行采样 trace 与聚合 trace，把三种推理原语统一进 post-training。

RL 推理 后训练

摘要：测试阶段的推理 scaffold 可通过串行链式推理、并行采样以及多轨迹聚合三种原语扩展推理算力，但后训练阶段语言模型通常只针对单条串行推理优化。作者提出 SPIRAL（串行-并行-聚合强化学习），将三种原语统一到一个推理流程中端到端训练：模型先并行采样多条链式思维轨迹，再基于这些轨迹生成聚合回答，所有部分针对最终聚合答案的奖励共同优化。训练采用 set RL 让模型产出对聚合器整体有用的轨迹集合，再用标准 RL 学习聚合。推理任务实验表明，SPIRAL 在三种算力同时扩展时较 GRPO 实现最高 11 倍的扩展效率和 15% 的性能提升。

评分细项：rel 9 / nov 7 / prac 7 / author 8

📨 想深度做？回复 pick 1（代号 SPIRAL）或 pick 1 as MyName 自定义代号

2. `QwenAgentWorld` Qwen-AgentWorld: Language World Models for General Agents

评分 8.1 · 方向 cs.CL · Computation and Language · arxiv 2606.24597 · PDF

💡 Qwen 团队用 1000 万条交互轨迹经 CPT+SFT+混合奖励 RL 三阶段训出 35B/397B 语言世界模型，模拟 7 类 agent 环境状态转移。

agent 后训练 世界模型

摘要：本文探索基于语言模型的世界模型 (world model) 如何拓展通用智能体的边界。作者提出首个面向智能体环境模拟的语言世界模型 Qwen-AgentWorld-35B-A3B 与 397B-A17B，可通过长链式思维 (long CoT) 推理覆盖 7 个领域的环境动态。基于真实环境中 1000 万条交互轨迹，采用 CPT、SFT、RL 三阶段训练流程，其中 RL 引入混合 rubric-and-rule 奖励以提升仿真保真度。同时构建评测基准 AgentWorldBench，实验显示 Qwen-AgentWorld 显著优于现有前沿模型，并可作为解耦的环境模拟器支撑智能体规划。

评分细项：rel 8.5 / nov 7.5 / prac 7.0 / author 8.5

📨 想深度做？回复 pick 2（代号 QwenAgentWorld）或 pick 2 as MyName 自定义代号

3. `Tmax` Tmax: A simple recipe for terminal agents

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2606.23321 · PDF

💡 开源 Tmax 配方：用难度控制+人格+verifier 多样化合成 terminal 环境数据，9B 模型经 outcome-only RL 在 Terminal-Bench 2.0 拿 27%。

agent RL 开源

摘要：终端操作智能体已成为语言模型最热门的下游应用之一，但由于基准困难、数据稀缺和缺乏简单基线，基于 RL 的训练研究较少。本文提出 Tmax，目前最强的开源终端智能体 RL 训练方案。仅用 9B 参数即在 Terminal-Bench 2.0 上达到 27%，超越此前更大规模模型。其核心是基于难度控制、人物画像和验证器多样化的新型数据生成范式，可低成本批量构造终端环境用于 RL 与 SFT，所开源数据集规模为已有同类的 2.5 倍以上。训练采用仅依赖结果奖励的简洁 RL 配方，数据、模型和代码均已开源，为后续学术研究提供了强基线。

评分细项：rel 9.0 / nov 6.5 / prac 8.5 / author 7.5

📨 想深度做？回复 pick 3（代号 Tmax）或 pick 3 as MyName 自定义代号

4. `FMLMPlus` Posterior Refinement: Fast Language Generation via Any-Order Flow Maps

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2606.24773 · PDF

💡 FMLM+ 给 Flow Map 语言模型加 mask 噪声调度并引入后验一致性打分，单步生成 + 自适应 refinement，比 MDM 少 32× NFE。

扩散语言模型 推理加速

摘要：针对非自回归生成中已有方法的不足：Masked Diffusion Models (MDMs) 同时生成多 token 时存在因式分解误差导致质量下降，而 Flow Map Language Models (FMLMs) 虽支持高效少步生成却牺牲了推理时的灵活性，作者提出 FMLM+，将 masking 式噪声调度引入 FMLM。该框架在单步生成完整序列的同时，对每个 token 进行后验全局一致性打分，并据此提出 Posterior Refinement 推理策略，使模型能自适应自我纠错。实验表明，FMLM+ 在多项基准上以约 1/32 的 NFE 即可媲美离散基线，显著改善了速度与质量的平衡。

评分细项：rel 9 / nov 7 / prac 7 / author 6

📨 想深度做？回复 pick 4（代号 FMLMPlus）或 pick 4 as MyName 自定义代号

5. `SelfCompact` Self-Compacting Language Model Agents

评分 7.7 · 方向 cs.CL · Computation and Language · arxiv 2606.23525 · PDF

💡 SelfCompact 让 agent 自行通过 compaction 工具加规则判定何时压缩上下文，免微调实现长轨迹自适应压缩。

agent 长上下文 上下文压缩

摘要：长链路 agent 轨迹（思维链与工具调用）会积累陈旧内容，干扰后续生成，并最终超出上下文窗口。现有方案多采用基于 token 阈值的定时压缩，忽视轨迹结构，可能在推导或检索中途丢弃部分结果。本文提出 SelfCompact，让模型自行决定何时及如何压缩：一是供模型调用的压缩工具，二是轻量化触发准则（子任务完成或轨迹收敛时触发，推导中或陷入困境时抑制）。二者缺一不可：单独工具在开源模型中调用时机不稳，单独准则又无法执行。无需微调或外部监督，二者结合即可实现自适应压缩。在 6 个基准（竞赛数学与 agentic 检索）与 7 个模型上的实验表明，SelfCompact 以更低 token 成本媲美或超越定时摘要，数学任务相对无摘要基线提升最高 18.1 分，agentic 检索提升 5-9 分，每题成本降低 30-70%。

评分细项：rel 8.5 / nov 7.0 / prac 8.0 / author 6.0

📨 想深度做？回复 pick 5（代号 SelfCompact）或 pick 5 as MyName 自定义代号

6. `DART` DART: Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets in Hybrid Reasoning Models

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.23181 · PDF

💡 DART 无训练路由：采两个 no-think 草稿，一致则直答，不一致则用熵预测思考预算，省 15-69% 思考 token。

推理加速 动态预算

摘要：混合推理模型既可直接作答，也可消耗额外 token 进行深度思考，理想路由应按问题难度分配思考预算。现有路由器多依赖标注数据或预先固定预算，忽视模型自身的答案级信号。本文提出 DART，一种无需训练的路由框架：先采样两份廉价的 no-think 草稿，若一致则直接作答，若不一致则依据草稿熵预测思考预算。实验显示，DART 在多数设置下保持或提升"始终思考"模式的准确率，同时显著减少思考 token：奥数题准确率最高提升 9.0 分，思考 token 减少 15-69%；基于执行等价的代码推理任务准确率最高提升 22.5 分，思考 token 减少 51-63%。该信号在 0.6B-32B 各规模、不同模型族及仅 API 部署场景下均有效，无需任何标注或梯度更新。

评分细项：rel 8.5 / nov 7.0 / prac 8.0 / author 5.0

📨 想深度做？回复 pick 6（代号 DART）或 pick 6 as MyName 自定义代号

7. `RandYaRN` Randomized YaRN Improves Length Generalization for Long-Context Reasoning

评分 7.4 · 方向 cs.CL · Computation and Language · arxiv 2606.23687 · PDF

💡 Randomized YaRN 在短上下文训练时从更大位置范围采样位置编码，加长度课程，将 8K 训练泛化到 128K。

长上下文 位置编码

摘要：大语言模型通常在短序列上预训练，再通过额外训练扩展到更长上下文，但在面对极长序列时仍难以进一步泛化。本文提出 Randomized YaRN，将基于 YaRN 的位置外推、随机化位置编码与长度课程相结合：在短上下文训练阶段，从更大的位置区间中采样 YaRN 位置编码分配给 token，使模型即便在短输入上也能接触到分布外的位置表示。作者在 BABILong 与 Multi-Round Coreference Resolution (MRCR) 两个长上下文推理基准上评估，结果显示仅用 <8K 上下文训练，Randomized YaRN 在 16K 至 128K 的推理任务上持续优于标准微调，越远离训练分布增益越大，表明渐进暴露 OOD 位置分布是实现可泛化长上下文推理的有效策略。

评分细项：rel 8.0 / nov 6.5 / prac 7.5 / author 5.5

📨 想深度做？回复 pick 7（代号 RandYaRN）或 pick 7 as MyName 自定义代号

8. `SAFARI` SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.24626 · PDF

💡 为多 agent 故障归因配备读取/搜索轨迹段的工具集和持久化短期记忆，把诊断从全量装载改为主动调查，Who&When 上提升 20%。

多Agent 故障诊断 长上下文

摘要：随着自主智能体处理愈发复杂的多步、多智能体任务，其执行轨迹长度已超出最大上下文窗口的承载范围。现有故障诊断方法把完整轨迹塞入 LLM 上下文，存在注意力稀释问题，且在轨迹超长时彻底失效。本文提出 SAFARI，用工具增强的诊断循环取代线性上下文加载：为 LLM 配备专用工具箱以读取和检索轨迹片段，并辅以持久化的短期记忆 (STM) 支持跨轮推理，从而将诊断精度与上下文长度限制解耦。实验显示，SAFARI 在 1M token 预算下于 Who&When 数据集上比 SOTA 高 20%，在 25K 预算下于 TRAIL GAIA 子集上高 19%；即便目标故障位于模型原生上下文 5 倍之外，仍能保持 0.58 的精度，而传统方法在该场景完全失败。

评分细项：rel 8 / nov 7 / prac 7 / author 5

📨 想深度做？回复 pick 8（代号 SAFARI）或 pick 8 as MyName 自定义代号

9. `OTAgent` OpenThoughts-Agent: Data Recipes for Agentic Models

评分 6.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.24855 · PDF

💡 开源 agentic 模型训练数据配方 OT-Agent，100+ 消融后用 100K 样本 SFT Qwen3-32B，提升 3.9 个点。

agentic 数据配方 SFT

摘要：智能体语言模型极大拓展了 AI 应用边界，但如何构造训练数据以培育广义能力智能体仍鲜有公开研究。SWE-Smith、SERA、Nemotron-Terminal 等开源工作大多面向单一基准，难以泛化。OpenThoughts-Agent (OT-Agent) 填补这一空白，提出完全开放的智能体训练数据构建流水线。作者通过 100 余次受控消融，系统分析各环节的影响，揭示任务来源与多样性的重要性。基于该流水线构建的 10 万样本数据集对 Qwen3-32B 进行微调后，在七个智能体基准上平均准确率达 44.8%，较此前最强开源模型 Nemotron-Terminal-32B (40.9%) 提升 3.9 个百分点，且在等算力比较下于任意训练规模均优于其他开源数据。数据、流水线与模型已在 openthoughts.ai 全部开源。

评分细项：rel 7.5 / nov 6.0 / prac 7.5 / author 6.0

📨 想深度做？回复 pick 9（代号 OTAgent）或 pick 9 as MyName 自定义代号

10. `VeriEvol` VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct

评分 6.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.23543 · PDF

💡 用类型感知 Evol-Instruct 提升题目难度，并用 HTV-Agent 多源反证过滤错答，把视觉数学 SFT 数据扩到 250K 喂 GRPO。

RLVR 多模态推理 数据合成

摘要：视觉数学推理的强化学习扩展不仅需要更难的题目，还要保证奖励标签可靠。现有数据流水线在扩规模时盲信标注者，而策略侧方法又默认答案已正确。作者将扩规模视为可验证的数据构造问题，在策略更新前解耦两个维度：通过路径化进化算子提升题目难度，并通过离线假设检验式证伪确保答案可靠。由此提出 VeriEvol 框架，包含类型感知的进化模块（将低难度图文种子改写为更难且依托图像的题目）和 HTV-Agent 验证器（仅当多源反证无法推翻答案时才接受）。在五个视觉数学基准上，将进化后 SFT 数据从 10K 扩至 250K 使平均准确率从 35.42 提升至 54.73；在固定主干、SFT 初始化与 GRPO 配方下，VeriEvol 相比未进化 RL 基线累计提升 +3.88（进化提示贡献 +1.82，HTV-Agent 贡献 +2.06）。作者开源了提示、数据、模型、代码与完整验证轨迹。

评分细项：rel 7 / nov 6 / prac 7 / author 7

📨 想深度做？回复 pick 10（代号 VeriEvol）或 pick 10 as MyName 自定义代号

📚 速览 · 其他通过评估的工作（8 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CL 6.7 Scaling LLM Knowledge Boundaries via Distribution-Optimized Synthesis · 💡 KDoS 用知识密度三阶段反馈驱动合成数据生成，在 0.6B-16B 模型上找到稳定的最优知识分布以扩展知识边界。
cs.CL 6.7 SHERLOC: Structured Diagnostic Localization for Code Repair Agents · 💡 SHERLOC 用单个推理 LLM 配合仓库工具与自恢复做训练无关的故障定位，SWE-Bench Verified 上 +5.95pp 修复率并降低 36.7% 定位 token。
cs.MA 6.6 Negative Knowledge as Failure-aware Shared Memory for AutoResearch · 💡 用 curator agent 把失败 trace 转成结构化负知识库，供后续 AutoResearch agent 显式采纳或拒绝。
cs.CL 6.5 Harmonic: Hierarchical State Space Models for Efficient Long-Context Language Modeling · 💡 用三层不同时间尺度递归的层次状态空间模型替代注意力，O(L) 复杂度下 32K-64K 长文本困惑度优于 Transformer 与 Mamba。
cs.MA 6.2 Specialize Roles, Mix Deployments: Pushing the Cost-Accuracy Frontier of LLM Agent Teams · 💡 AgentCARD 用统一成本模型加 Shapley 角色诊断评估异构 LLM agent 团队，混合部署下精度提 44% 或成本降 12×。
q-fin.PM 6.1 Reinforcement Learning for Risk-Sensitive Investment Management: a Free Energy--Entropy Duality Approach · 💡 用自由能-熵对偶把风险敏感基准化资产配置转为 LQG 微分博弈，再以连续时间 q-learning actor-critic 学习鞍点策略。
cs.MA 6.0 RaMem: Contextual Reinstatement for Long-term Agentic Memory · 💡 用证据锚定+召回条件归纳+有效性感知检索四阶段框架 RaMem 把碎片化长期记忆还原为带情景条件的可验证证据，缓解 context collapse。
cs.AI 6.0 AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction · 💡 在 AOSP 上把 agent 视作一等系统角色，加入个性化服务编排、高效 agent 接口与安全信息流三类 OS 机制。

📨 想做深度博客 / 视频？直接回复本邮件

回复正文写明命令即可，桥接服务会自动下载 LaTeX 源码、在 GPU 服务器上启动 dialogue-video-workflow、并通过 Telegram 把脚本/关键帧推给你审核。

支持的命令：

pick N ------ 选第 N 篇精选，使用上面建议的代号
pick N as MyName ------ 自定义代号（PascalCase，作为目录名）
skip 或不回复 ------ 不处理（默认）

今日候选索引：

1 · SPIRAL · 2606.23595 · SPIRAL: Learning to Search and Aggregate
2 · QwenAgentWorld · 2606.24597 · Qwen-AgentWorld: Language World Models for General Agents
3 · Tmax · 2606.23321 · Tmax: A simple recipe for terminal agents
4 · FMLMPlus · 2606.24773 · Posterior Refinement: Fast Language Generation via Any-Order Flow Maps
5 · SelfCompact · 2606.23525 · Self-Compacting Language Model Agents
6 · DART · 2606.23181 · DART: Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets in H...
7 · RandYaRN · 2606.23687 · Randomized YaRN Improves Length Generalization for Long-Context Reasoning
8 · SAFARI · 2606.24626 · SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation
9 · OTAgent · 2606.24855 · OpenThoughts-Agent: Data Recipes for Agentic Models
10 · VeriEvol · 2606.23543 · VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考

06-23~24 · LLM 论文合辑

🌟 精选

1. SPIRAL SPIRAL: Learning to Search and Aggregate

2. QwenAgentWorld Qwen-AgentWorld: Language World Models for General Agents

3. Tmax Tmax: A simple recipe for terminal agents

4. FMLMPlus Posterior Refinement: Fast Language Generation via Any-Order Flow Maps

5. SelfCompact Self-Compacting Language Model Agents

6. DART DART: Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets in Hybrid Reasoning Models

7. RandYaRN Randomized YaRN Improves Length Generalization for Long-Context Reasoning

8. SAFARI SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation

9. OTAgent OpenThoughts-Agent: Data Recipes for Agentic Models

10. VeriEvol VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct