今日候选池 193 篇,硬过滤 + LLM 打分后通过评估 18 篇,精选 Top-10,另列 8 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. SPIRAL SPIRAL: Learning to Search and Aggregate
评分 8.2 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.23595 · PDF
💡 SPIRAL 用 set RL 端到端联合训练并行采样 trace 与聚合 trace,把三种推理原语统一进 post-training。
RL 推理 后训练
摘要:测试阶段的推理 scaffold 可通过串行链式推理、并行采样以及多轨迹聚合三种原语扩展推理算力,但后训练阶段语言模型通常只针对单条串行推理优化。作者提出 SPIRAL(串行-并行-聚合强化学习),将三种原语统一到一个推理流程中端到端训练:模型先并行采样多条链式思维轨迹,再基于这些轨迹生成聚合回答,所有部分针对最终聚合答案的奖励共同优化。训练采用 set RL 让模型产出对聚合器整体有用的轨迹集合,再用标准 RL 学习聚合。推理任务实验表明,SPIRAL 在三种算力同时扩展时较 GRPO 实现最高 11 倍的扩展效率和 15% 的性能提升。
评分细项:rel 9 / nov 7 / prac 7 / author 8
📨 想深度做?回复 pick 1(代号 SPIRAL) 或 pick 1 as MyName 自定义代号
2. QwenAgentWorld Qwen-AgentWorld: Language World Models for General Agents
评分 8.1 · 方向 cs.CL · Computation and Language · arxiv 2606.24597 · PDF
💡 Qwen 团队用 1000 万条交互轨迹经 CPT+SFT+混合奖励 RL 三阶段训出 35B/397B 语言世界模型,模拟 7 类 agent 环境状态转移。
agent 后训练 世界模型
摘要:本文探索基于语言模型的世界模型 (world model) 如何拓展通用智能体的边界。作者提出首个面向智能体环境模拟的语言世界模型 Qwen-AgentWorld-35B-A3B 与 397B-A17B,可通过长链式思维 (long CoT) 推理覆盖 7 个领域的环境动态。基于真实环境中 1000 万条交互轨迹,采用 CPT、SFT、RL 三阶段训练流程,其中 RL 引入混合 rubric-and-rule 奖励以提升仿真保真度。同时构建评测基准 AgentWorldBench,实验显示 Qwen-AgentWorld 显著优于现有前沿模型,并可作为解耦的环境模拟器支撑智能体规划。
评分细项:rel 8.5 / nov 7.5 / prac 7.0 / author 8.5
📨 想深度做?回复 pick 2(代号 QwenAgentWorld) 或 pick 2 as MyName 自定义代号
3. Tmax Tmax: A simple recipe for terminal agents
评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2606.23321 · PDF
💡 开源 Tmax 配方:用难度控制+人格+verifier 多样化合成 terminal 环境数据,9B 模型经 outcome-only RL 在 Terminal-Bench 2.0 拿 27%。
agent RL 开源
摘要:终端操作智能体已成为语言模型最热门的下游应用之一,但由于基准困难、数据稀缺和缺乏简单基线,基于 RL 的训练研究较少。本文提出 Tmax,目前最强的开源终端智能体 RL 训练方案。仅用 9B 参数即在 Terminal-Bench 2.0 上达到 27%,超越此前更大规模模型。其核心是基于难度控制、人物画像和验证器多样化的新型数据生成范式,可低成本批量构造终端环境用于 RL 与 SFT,所开源数据集规模为已有同类的 2.5 倍以上。训练采用仅依赖结果奖励的简洁 RL 配方,数据、模型和代码均已开源,为后续学术研究提供了强基线。
评分细项:rel 9.0 / nov 6.5 / prac 8.5 / author 7.5
📨 想深度做?回复 pick 3(代号 Tmax) 或 pick 3 as MyName 自定义代号
4. FMLMPlus Posterior Refinement: Fast Language Generation via Any-Order Flow Maps
评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2606.24773 · PDF
💡 FMLM+ 给 Flow Map 语言模型加 mask 噪声调度并引入后验一致性打分,单步生成 + 自适应 refinement,比 MDM 少 32× NFE。
扩散语言模型 推理加速
摘要:针对非自回归生成中已有方法的不足:Masked Diffusion Models (MDMs) 同时生成多 token 时存在因式分解误差导致质量下降,而 Flow Map Language Models (FMLMs) 虽支持高效少步生成却牺牲了推理时的灵活性,作者提出 FMLM+,将 masking 式噪声调度引入 FMLM。该框架在单步生成完整序列的同时,对每个 token 进行后验全局一致性打分,并据此提出 Posterior Refinement 推理策略,使模型能自适应自我纠错。实验表明,FMLM+ 在多项基准上以约 1/32 的 NFE 即可媲美离散基线,显著改善了速度与质量的平衡。
评分细项:rel 9 / nov 7 / prac 7 / author 6
📨 想深度做?回复 pick 4(代号 FMLMPlus) 或 pick 4 as MyName 自定义代号
5. SelfCompact Self-Compacting Language Model Agents
评分 7.7 · 方向 cs.CL · Computation and Language · arxiv 2606.23525 · PDF
💡 SelfCompact 让 agent 自行通过 compaction 工具加规则判定何时压缩上下文,免微调实现长轨迹自适应压缩。
agent 长上下文 上下文压缩
摘要:长链路 agent 轨迹(思维链与工具调用)会积累陈旧内容,干扰后续生成,并最终超出上下文窗口。现有方案多采用基于 token 阈值的定时压缩,忽视轨迹结构,可能在推导或检索中途丢弃部分结果。本文提出 SelfCompact,让模型自行决定何时及如何压缩:一是供模型调用的压缩工具,二是轻量化触发准则(子任务完成或轨迹收敛时触发,推导中或陷入困境时抑制)。二者缺一不可:单独工具在开源模型中调用时机不稳,单独准则又无法执行。无需微调或外部监督,二者结合即可实现自适应压缩。在 6 个基准(竞赛数学与 agentic 检索)与 7 个模型上的实验表明,SelfCompact 以更低 token 成本媲美或超越定时摘要,数学任务相对无摘要基线提升最高 18.1 分,agentic 检索提升 5-9 分,每题成本降低 30-70%。
评分细项:rel 8.5 / nov 7.0 / prac 8.0 / author 6.0
📨 想深度做?回复 pick 5(代号 SelfCompact) 或 pick 5 as MyName 自定义代号
6. DART DART: Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets in Hybrid Reasoning Models
评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.23181 · PDF
💡 DART 无训练路由:采两个 no-think 草稿,一致则直答,不一致则用熵预测思考预算,省 15-69% 思考 token。
推理加速 动态预算
摘要:混合推理模型既可直接作答,也可消耗额外 token 进行深度思考,理想路由应按问题难度分配思考预算。现有路由器多依赖标注数据或预先固定预算,忽视模型自身的答案级信号。本文提出 DART,一种无需训练的路由框架:先采样两份廉价的 no-think 草稿,若一致则直接作答,若不一致则依据草稿熵预测思考预算。实验显示,DART 在多数设置下保持或提升"始终思考"模式的准确率,同时显著减少思考 token:奥数题准确率最高提升 9.0 分,思考 token 减少 15-69%;基于执行等价的代码推理任务准确率最高提升 22.5 分,思考 token 减少 51-63%。该信号在 0.6B-32B 各规模、不同模型族及仅 API 部署场景下均有效,无需任何标注或梯度更新。
评分细项:rel 8.5 / nov 7.0 / prac 8.0 / author 5.0
📨 想深度做?回复 pick 6(代号 DART) 或 pick 6 as MyName 自定义代号
7. RandYaRN Randomized YaRN Improves Length Generalization for Long-Context Reasoning
评分 7.4 · 方向 cs.CL · Computation and Language · arxiv 2606.23687 · PDF
💡 Randomized YaRN 在短上下文训练时从更大位置范围采样位置编码,加长度课程,将 8K 训练泛化到 128K。
长上下文 位置编码
摘要:大语言模型通常在短序列上预训练,再通过额外训练扩展到更长上下文,但在面对极长序列时仍难以进一步泛化。本文提出 Randomized YaRN,将基于 YaRN 的位置外推、随机化位置编码与长度课程相结合:在短上下文训练阶段,从更大的位置区间中采样 YaRN 位置编码分配给 token,使模型即便在短输入上也能接触到分布外的位置表示。作者在 BABILong 与 Multi-Round Coreference Resolution (MRCR) 两个长上下文推理基准上评估,结果显示仅用 <8K 上下文训练,Randomized YaRN 在 16K 至 128K 的推理任务上持续优于标准微调,越远离训练分布增益越大,表明渐进暴露 OOD 位置分布是实现可泛化长上下文推理的有效策略。
评分细项:rel 8.0 / nov 6.5 / prac 7.5 / author 5.5
📨 想深度做?回复 pick 7(代号 RandYaRN) 或 pick 7 as MyName 自定义代号
8. SAFARI SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation
评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.24626 · PDF
💡 为多 agent 故障归因配备读取/搜索轨迹段的工具集和持久化短期记忆,把诊断从全量装载改为主动调查,Who&When 上提升 20%。
多Agent 故障诊断 长上下文
摘要:随着自主智能体处理愈发复杂的多步、多智能体任务,其执行轨迹长度已超出最大上下文窗口的承载范围。现有故障诊断方法把完整轨迹塞入 LLM 上下文,存在注意力稀释问题,且在轨迹超长时彻底失效。本文提出 SAFARI,用工具增强的诊断循环取代线性上下文加载:为 LLM 配备专用工具箱以读取和检索轨迹片段,并辅以持久化的短期记忆 (STM) 支持跨轮推理,从而将诊断精度与上下文长度限制解耦。实验显示,SAFARI 在 1M token 预算下于 Who&When 数据集上比 SOTA 高 20%,在 25K 预算下于 TRAIL GAIA 子集上高 19%;即便目标故障位于模型原生上下文 5 倍之外,仍能保持 0.58 的精度,而传统方法在该场景完全失败。
评分细项:rel 8 / nov 7 / prac 7 / author 5
📨 想深度做?回复 pick 8(代号 SAFARI) 或 pick 8 as MyName 自定义代号
9. OTAgent OpenThoughts-Agent: Data Recipes for Agentic Models
评分 6.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.24855 · PDF
💡 开源 agentic 模型训练数据配方 OT-Agent,100+ 消融后用 100K 样本 SFT Qwen3-32B,提升 3.9 个点。
agentic 数据配方 SFT
摘要:智能体语言模型极大拓展了 AI 应用边界,但如何构造训练数据以培育广义能力智能体仍鲜有公开研究。SWE-Smith、SERA、Nemotron-Terminal 等开源工作大多面向单一基准,难以泛化。OpenThoughts-Agent (OT-Agent) 填补这一空白,提出完全开放的智能体训练数据构建流水线。作者通过 100 余次受控消融,系统分析各环节的影响,揭示任务来源与多样性的重要性。基于该流水线构建的 10 万样本数据集对 Qwen3-32B 进行微调后,在七个智能体基准上平均准确率达 44.8%,较此前最强开源模型 Nemotron-Terminal-32B (40.9%) 提升 3.9 个百分点,且在等算力比较下于任意训练规模均优于其他开源数据。数据、流水线与模型已在 openthoughts.ai 全部开源。
评分细项:rel 7.5 / nov 6.0 / prac 7.5 / author 6.0
📨 想深度做?回复 pick 9(代号 OTAgent) 或 pick 9 as MyName 自定义代号
10. VeriEvol VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct
评分 6.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.23543 · PDF
💡 用类型感知 Evol-Instruct 提升题目难度,并用 HTV-Agent 多源反证过滤错答,把视觉数学 SFT 数据扩到 250K 喂 GRPO。
RLVR 多模态推理 数据合成
摘要:视觉数学推理的强化学习扩展不仅需要更难的题目,还要保证奖励标签可靠。现有数据流水线在扩规模时盲信标注者,而策略侧方法又默认答案已正确。作者将扩规模视为可验证的数据构造问题,在策略更新前解耦两个维度:通过路径化进化算子提升题目难度,并通过离线假设检验式证伪确保答案可靠。由此提出 VeriEvol 框架,包含类型感知的进化模块(将低难度图文种子改写为更难且依托图像的题目)和 HTV-Agent 验证器(仅当多源反证无法推翻答案时才接受)。在五个视觉数学基准上,将进化后 SFT 数据从 10K 扩至 250K 使平均准确率从 35.42 提升至 54.73;在固定主干、SFT 初始化与 GRPO 配方下,VeriEvol 相比未进化 RL 基线累计提升 +3.88(进化提示贡献 +1.82,HTV-Agent 贡献 +2.06)。作者开源了提示、数据、模型、代码与完整验证轨迹。
评分细项:rel 7 / nov 6 / prac 7 / author 7
📨 想深度做?回复 pick 10(代号 VeriEvol) 或 pick 10 as MyName 自定义代号
📚 速览 · 其他通过评估的工作(8 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
-
cs.CL6.7Scaling LLM Knowledge Boundaries via Distribution-Optimized Synthesis · 💡 KDoS 用知识密度三阶段反馈驱动合成数据生成,在 0.6B-16B 模型上找到稳定的最优知识分布以扩展知识边界。 -
cs.CL6.7SHERLOC: Structured Diagnostic Localization for Code Repair Agents · 💡 SHERLOC 用单个推理 LLM 配合仓库工具与自恢复做训练无关的故障定位,SWE-Bench Verified 上 +5.95pp 修复率并降低 36.7% 定位 token。 -
cs.MA6.6Negative Knowledge as Failure-aware Shared Memory for AutoResearch · 💡 用 curator agent 把失败 trace 转成结构化负知识库,供后续 AutoResearch agent 显式采纳或拒绝。 -
cs.CL6.5Harmonic: Hierarchical State Space Models for Efficient Long-Context Language Modeling · 💡 用三层不同时间尺度递归的层次状态空间模型替代注意力,O(L) 复杂度下 32K-64K 长文本困惑度优于 Transformer 与 Mamba。 -
cs.MA6.2Specialize Roles, Mix Deployments: Pushing the Cost-Accuracy Frontier of LLM Agent Teams · 💡 AgentCARD 用统一成本模型加 Shapley 角色诊断评估异构 LLM agent 团队,混合部署下精度提 44% 或成本降 12×。 -
q-fin.PM6.1Reinforcement Learning for Risk-Sensitive Investment Management: a Free Energy--Entropy Duality Approach · 💡 用自由能-熵对偶把风险敏感基准化资产配置转为 LQG 微分博弈,再以连续时间 q-learning actor-critic 学习鞍点策略。 -
cs.MA6.0RaMem: Contextual Reinstatement for Long-term Agentic Memory · 💡 用证据锚定+召回条件归纳+有效性感知检索四阶段框架 RaMem 把碎片化长期记忆还原为带情景条件的可验证证据,缓解 context collapse。 -
cs.AI6.0AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction · 💡 在 AOSP 上把 agent 视作一等系统角色,加入个性化服务编排、高效 agent 接口与安全信息流三类 OS 机制。
📨 想做深度博客 / 视频?直接回复本邮件
回复正文写明命令即可,桥接服务会自动下载 LaTeX 源码、在 GPU 服务器上启动 dialogue-video-workflow、并通过 Telegram 把脚本/关键帧推给你审核。
支持的命令:
pick N------ 选第 N 篇精选,使用上面建议的代号pick N as MyName------ 自定义代号(PascalCase,作为目录名)skip或不回复 ------ 不处理(默认)
今日候选索引:
1·SPIRAL·2606.23595· SPIRAL: Learning to Search and Aggregate2·QwenAgentWorld·2606.24597· Qwen-AgentWorld: Language World Models for General Agents3·Tmax·2606.23321· Tmax: A simple recipe for terminal agents4·FMLMPlus·2606.24773· Posterior Refinement: Fast Language Generation via Any-Order Flow Maps5·SelfCompact·2606.23525· Self-Compacting Language Model Agents6·DART·2606.23181· DART: Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets in H...7·RandYaRN·2606.23687· Randomized YaRN Improves Length Generalization for Long-Context Reasoning8·SAFARI·2606.24626· SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation9·OTAgent·2606.24855· OpenThoughts-Agent: Data Recipes for Agentic Models10·VeriEvol·2606.23543· VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct
数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考