06-04 · LLM 最新论文速览

今日候选池 89 篇，硬过滤 + LLM 打分后通过评估 13 篇，精选 Top-10，另列 3 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. SAID: Accelerating Diffusion-Based Language Models via Scaffold-Aware Iterative Decoding

评分 8.7 · 方向 cs.CL · Computation and Language · arxiv 2606.04974 · PDF

💡 SAID 框架先对骨架 token 集中去噪建立语义结构，再用少步完成细节 token，在 LLaDA-8B 上实现最高 9.1× 加速

扩散语言模型 推理加速 非自回归生成 开源

摘要：扩散大语言模型（DLLMs）通过双向上下文迭代去噪实现非自回归生成，但推理代价高昂。本文提出 SAID（Scaffold-Aware Iterative Decoding）框架，核心思想是将去噪计算在 token 间重新分配：先用较多步骤生成"骨架 token"以建立粗粒度语义结构，再用较少步骤补全可预测的细节 token。进一步将 SAID 适配至 block-wise 扩散解码，并提出置信度分层生成策略（CHLG），仅对低置信度 token 分配额外步骤。在 LLaDA-8B 和 LLaDA 1.5 上的数学、代码及知识基准实验表明，SAID 最高可实现 9.1 倍加速，同时保持有竞争力的生成质量。

评分细项：rel 9.5 / nov 7.5 / prac 8.5 / author 7

2. Streaming Communication in Multi-Agent Reasoning

评分 8.5 · 方向 cs.MA · Multiagent Systems · arxiv 2606.05158 · PDF

💡 StreamMA 将多 agent 推理从生成-传输改为流式管线，利用早期推理步更可靠的特性同时降低延迟并提升准确率（avg +7.3pp）。

多agent推理 流式通信 推理加速 延迟优化

摘要：多智能体推理系统通常采用"生成后传递"范式，导致端到端延迟随流水线深度线性增长。本文提出 StreamMA，一种流式多智能体推理系统，将每个推理步骤在生成后立即流式传输给下游智能体，通过流水线化相邻智能体来降低延迟。出乎意料的是，这种流水线机制还能提升效果：由于多步推理质量不均匀且早期步骤比后期更可靠，利用可靠的早期步骤而非完整推理链，可避免后期易错步骤误导下游智能体。作者首次对流式、串行和单体协议进行了联合闭式分析，推导出效果排序、加速上界和成本比。在八个推理基准（数学、科学、代码）、两个前沿 LLM（Claude Opus 4.6、GPT-5.4）及三种拓扑结构上，StreamMA 均优于基线（平均 +7.3pp，最高 +22.4pp）。此外，作者发现"步级缩放定律"：增加单智能体推理步数可同时提升效果和效率，构成与智能体数量缩放正交且可组合的新维度。

评分细项：rel 9 / nov 8 / prac 8 / author 7

3. AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

评分 8.4 · 方向 cs.MA · Multiagent Systems · arxiv 2606.04484 · PDF

💡 AgentJet 将多 agent RL 训练解耦为 swarm server/client，支持异构多模型联合训练，通过 timeline merging 压缩冗余上下文获得 1.5-10× 加速。

multi-agent RL 分布式训练框架 多模型强化学习

摘要：AgentJet 是一个面向大语言模型（LLM）智能体强化学习的分布式群体训练框架。与集中式框架将智能体rollout与模型优化紧耦合不同，AgentJet 采用解耦的多节点架构：服务端节点在GPU集群上托管可训练模型并执行优化，客户端节点则在任意设备上运行任意智能体。该设计支持四项关键能力：异构多模型强化学习、多任务混合训练、容错执行以及训练期间的实时代码热替换。为提升多模型、多轮、多智能体场景下的RL效率，AgentJet引入带时间线合并的上下文追踪模块，消除冗余上下文，实现1.5--10倍训练加速。此外，框架还提供自动化研究系统，可接收研究主题并在大规模集群上自主开展长周期RL实验，复现研究者的探索性工作流。

评分细项：rel 9.0 / nov 7.5 / prac 8.5 / author 7.0

4. SemBlock: Semantic Boundary Dynamic Blocks for Diffusion LLMs

评分 8.4 · 方向 cs.CL · Computation and Language · arxiv 2606.04964 · PDF

💡 SemBlock 用轻量语义边界预测器动态划分扩散 LLM 解码块，替代固定块大小，在 LLaDA 上超越 AdaBlock

扩散语言模型 动态解码 语义分块 开源

摘要：扩散语言模型（DLM）通过迭代去噪生成文本，分块解码（blockwise decoding）可提升其实用性，但现有方法依赖固定块大小或分隔符信号，难以对齐语义边界。本文提出 SemBlock，一种基于语义边界的动态分块解码框架。SemBlock 将动态分块构造建模为语义边界预测任务，在冻结的 LLaDA 隐藏状态上训练轻量级预测器。为提供监督信号，作者构建了 SemBound 数据集，从篇章单元、推理步骤和代码实现片段中提取边界标签，覆盖自然语言、数学和代码任务。推理时根据预测的边界概率选取每个动态块的结束位置。在 GSM8K、IFEval、MATH 和 HumanEval 上的实验表明，SemBlock 一致优于固定分块和 AdaBlock 方法。

评分细项：rel 9 / nov 7 / prac 8 / author 7

5. Scaling Self-Evolving Agents via Parametric Memory

评分 8.3 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.04536 · PDF

💡 提出 TMEM：agent 在单 episode 内通过在线 LoRA 快权重更新将经验蒸馏为参数记忆，用 RL 联合优化提取策略与任务策略。

多agent 参数记忆 LoRA在线适配 强化学习

摘要：现有记忆增强型 LLM 智能体仅在提示空间中以文本摘要或检索段落存储经验，模型参数始终冻结，导致策略无法随经验改进，且上下文丢弃的信息不可恢复。本文提出 TMEM------一种自进化参数化记忆框架，智能体在单次推理过程中不仅将历史压缩为显式记忆，还通过轻量在线更新将蒸馏监督信号吸收到快速 LoRA 权重 Δ_t 中，真正改变后续行为。作者将其形式化为带快权重滚动动态的智能体决策过程，并用 RL 直接优化提取策略，同时提出基于 SVD 的 LoRA 子空间初始化以加速在线收敛。在 LoCoMo、LongMemEval-S、多目标搜索及 CL-Bench 上，TMEM 在不同模型规模下均优于摘要和检索基线。

评分细项：rel 9 / nov 8 / prac 7 / author 7

6. GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2606.04889 · PDF

💡 GRAIL 用梯度-激活显著性为 GRPO 中每个 token 重新加权 advantage，无需 PRM 即提升数学推理准确率约 3.6%

RLVR token级信用分配 后训练

摘要：基于可验证奖励的强化学习（如 GRPO）已广泛用于提升 LLM 数学推理能力，但现有方法通常将序列级 advantage 均匀广播到所有 token，或依赖昂贵的过程奖励模型 (PRM) 进行步级监督。均匀分配假设所有 token 对最终奖励贡献相同，稀释了梯度信号。本文提出 GRAIL，一种基于梯度-激活显著性的内在 token 级 advantage 重加权方法，对最终答案局部敏感度更高的 token 赋予更大权重。在 Qwen3、R1-distilled 和 OctoThinker 系列共五个模型上的评估表明，GRAIL 一致优于 GRPO，准确率平均提升 3.60%，Pass@3 提升 3.05%，无需过程级监督即可实现细粒度推理对齐。

评分细项：rel 9 / nov 7 / prac 7.5 / author 5

7. Imbuing Large Language Models with Bidirectional Logic for Robust Chain Repair

评分 7.5 · 方向 cs.CL · Computation and Language · arxiv 2606.05030 · PDF

💡 将 CoT 推理链错误段重构为 FIM 任务，通过 PSM 序列重排+SFT 训练实现目标条件式桥接修复。

CoT修复 SFT fill-in-the-middle 推理

摘要：自回归链式思维（CoT）推理本质上是单向的：每步仅依赖前文token，导致早期的逻辑或算术错误会"滚雪球"式地污染整条推理链。本文提出 Teleological Reasoning Infilling（TRI）训练框架，为decoder-only Transformer赋予目标条件化的桥接修复能力。核心思路是将错误推理段重新建模为 fill-in-the-middle（FIM）任务：给定已验证的前缀前提 P、已验证的下游里程碑 S 和原始问题 Q，模型需生成严格连接 P 与 S 的逻辑桥 M。方法采用 Prefix-Suffix-Middle（PSM）序列重排与哨兵token，无需修改自注意力结构即可实现对 P 和 S 的双向关注。训练分两阶段：(i) 在形式化数学语料的符号验证三元组上做监督微调；(ii) 以 Lean 4/Python 符号验证器作为唯一奖励信号进行 DPO，消除 LLM 评判的迎合偏差。推理时 TRI 作为手术式修复模块嵌入双通道流程，实现对推理链的精准局部修正。

评分细项：rel 8 / nov 7 / prac 7 / author 5

8. Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

评分 7.1 · 方向 q-fin.TR · Trading and Market Microstructure · arxiv 2606.04574 · PDF

💡 用 PPO+LSTM 作为执行层叠加在分层配对筛选之上，在币安小时级加密期货配对交易中显著优于启发式基线。

量化交易 深度强化学习 配对交易 加密货币

摘要：本研究探讨深度强化学习（DRL）作为执行层能否提升高波动加密货币市场中的配对交易表现。经典配对交易策略在传统股票中有效，但面对高方差环境时常因刚性规则而遭受严重价差发散风险。为此，作者提出分层"筛选-排序"配对选择方法与"固定风险、自适应均值"执行模型，并使用带 LSTM 层的 PPO 智能体在确定性风控边界内做出执行决策。在 Binance USD-M 期货市场1小时级别数据上的样本外测试中，优化后的 RL 策略显著优于启发式基线；平稳循环分块 bootstrap 稳健性检验表明其风险调整后的超额收益在10%显著性水平下具有统计意义。该工作为量化金融文献贡献了一种将统计套利与自适应强化学习执行相结合的混合架构。

评分细项：rel 8 / nov 6 / prac 7 / author 4

9. Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data

评分 6.7 · 方向 cs.CL · Computation and Language · arxiv 2606.05122 · PDF

💡 发现 base LLM 已潜在具备预测外部 judge 打分的能力，用 160 条样本做校准 RL + masked distillation 即可激发跨 judge 泛化的自评估。

self-evaluation RL校准 LLM-as-Judge

摘要：当模型充当评判者 (LLM-as-judge) 时，一个自然的问题是：模型能否预测外部评判者对自身输出的评分？本文发现这种能力在针对性训练之前就已大量存在------仅通过少样本提示，基座模型即可在三个基准上显著高于随机地预测外部评判者的多属性质量分数。作者提出 Self-Evaluation Elicitation (SEE) 方法，通过短周期的校准耦合强化学习阶段（同时改善回答并预测评判）和掩码蒸馏阶段（锐化预测而不影响回答质量）来激发这一潜在能力。SEE 仅需 160 条样本（约为 RL 基线的 1/31），即可在三个基准上提升校准性能并保持回答质量。实验表明，被激发的自评估能力高度局部化于模型自身 token 分布中，且可迁移至未训练过的评判者，说明模型习得的是可迁移的质量概念，而非对特定评判者偏好的拟合。

评分细项：rel 7.0 / nov 7.0 / prac 6.5 / author 5.0

10. MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.04627 · PDF

💡 MIRAGE 将显式 CoT 蒸馏为连续隐式推理向量，并用生成式 world-model 对齐未来截图，4B 模型在 AndroidWorld 匹配 CoT-SFT 性能且减少 token 输出。

agentic workflow 隐式推理 推理加速 SFT

摘要：移动端智能体需要从截图和语言目标出发操控日常应用，这要求对界面可供性、多步导航和未来状态变化进行推理。然而，许多智能体将推理外化为冗长的文本思维链，导致交互变慢、监督成本升高且部署困难。本文提出 MIRAGE 框架，将显式文本推理痕迹蒸馏为连续隐空间表示，使智能体在无需解码长推理文本的情况下完成内部推理。同时引入生成式世界模型目标：将隐推理向量与未来截图对齐，促使智能体在行动前预测下一步界面状态。推理时 MIRAGE 在连续隐空间中完成推理，大幅减少 token 生成量。在 AndroidWorld 上，MIRAGE 以 3-5 倍更低的解码 token 预算匹配显式思维链微调性能，并较指令微调基线提升 10.2 分；在 AndroidControl 上，动作定位精度提升且 token 生成量减少超过 75%。

评分细项：rel 7 / nov 7 / prac 7 / author 6

📚 速览 · 其他通过评估的工作（3 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.MA 6.4 Organizational Control Layer: Governance Infrastructure at the Execution Boundary of LLM Agent Systems · 💡 提出 OCL 模型无关治理层，在 LLM agent 生成动作与执行之间插入策略拦截与升级机制，将不安全执行从 88% 降至近零。
cs.AI 6.7 SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification · 💡 构建 SCIPRM70K Chain-of-Tool 数据集并训练 Sci-PRM 过程奖励模型，在 Best-of-N 与 RL 中为科学推理提供逐步工具调用验证信号，缓解 advantage 消失。
cs.AI 6.6 AIP: A Graph Representation for Learning and Governing Agent Skills · 💡 将 agent 技能建模为有向执行图（AIP），节点为脚本/描述、边为类型化 IO，Claude Sonnet 任务通过率从 53% 升至 67%。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考