05-29 · LLM 最新论文速览

今日候选池 97 篇，硬过滤 + LLM 打分后通过评估 19 篇，精选 Top-10，另列 9 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization

评分 8.1 · 方向 cs.MA · Multiagent Systems · arxiv 2605.30227 · PDF

💡 对多 agent 系统做时间+结构双轴信用分配，用 LLM 生成代理梯度的离散块坐标下降迭代优化角色 prompt 与聚合协议。

多agent优化 信用分配 prompt优化 黑盒优化

摘要：多智能体系统（MAS）让大语言模型通过协作交互解决复杂推理任务，但由于计算图的离散不可微性质及全局监督信号的稀疏性，优化其动态过程极具挑战。现有黑盒优化器难以将轨迹级失败归因到具体局部组件，导致探索效率低、方差大。本文提出时间与结构信用分配机制，沿两个轴分解目标：(i) 时间信用------利用状态空间瓶颈识别关键轮次；(ii) 结构信用------利用稳态角色策略隔离各智能体贡献。基于分解信号，引入离散化的语言化块坐标下降算法，交替优化角色提示与聚合协议，利用 LLM 生成的"代理梯度"定向修复薄弱环节。在多个推理基准上，该方法显著降低查询复杂度并提升性能，为自改进 MAS 提供了可解释的优化路径。

评分细项：rel 9 / nov 8 / prac 7 / author 5

2. Demystifying Data Organization for Enhanced LLM Training

评分 7.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30334 · PDF

💡 提出 STR/SAW 数据排序方法，基于边界锐化、周期调度、课程连续性和局部多样性四原则优化 LLM 预训练与 SFT 数据组织（Microsoft 开源）

SFT 数据组织 训练效率 开源

摘要：大语言模型训练效率高度依赖数据筛选，但数据组织策略（即训练样本的排列顺序）对性能的影响尚未被充分研究，尤其在当前模型通常仅训练一到数个 epoch 的背景下。本文系统探索数据组织对 LLM 训练的影响，复用已有的样本级评分以避免额外计算开销，总结出四条关键准则：边界锐化、周期调度、课程连续性和局部多样性。据此提出 STR 和 SAW 两种数据排序方法。在不同模型规模和数据量下（涵盖预训练与 SFT 阶段）的大量实验验证了所提准则的有效性，表明新方法能稳定提升训练性能。

评分细项：rel 8 / nov 7 / prac 8 / author 8

3. Unlocking the Working Memory of Large Language Models for Latent Reasoning

评分 7.7 · 方向 cs.CL · Computation and Language · arxiv 2605.30343 · PDF

💡 用固定长度特殊 token 序列作为 working memory block 替代 CoT 自回归生成，单次前向完成隐式推理。

隐式推理 推理加速 工作记忆 新范式

摘要：扩展测试时计算通常依赖自回归生成中间token来提升大语言模型的推理能力，但这将内部计算与外部输出耦合在一起。受人类工作记忆启发，本文提出 Reasoning in Memory (RiM)：用固定长度的特殊token序列（记忆块）替代自回归生成的思维链，使模型在单次前向传播中完成潜在推理。训练采用两阶段课程：先让记忆块预测显式推理步骤以建立基础，再去除逐步监督、仅迭代优化最终答案。实验表明，RiM 在不同模型家族和规模上均能匹配或超越现有潜在推理方法，同时避免了自回归思维生成的开销，证明大语言模型可通过工作记忆机制实现高效潜在推理。

评分细项：rel 8 / nov 8 / prac 7 / author 6

4. Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems

评分 7.5 · 方向 cs.MA · Multiagent Systems · arxiv 2605.29790 · PDF

💡 提出Meta-Team框架，通过保存各Agent执行上下文并协调任务后通信，实现行为/协调/组织三层级的经验驱动自演化

多Agent系统 自演化 长任务

摘要：基于LLM的多智能体系统（MAS）在复杂长程任务中表现出色，但实际执行中常出现难以在设计阶段消除的失败。这促使了经验驱动的MAS演化研究，然而MAS的执行经验涉及多智能体交错的动作链和通信消息，难以定位改进方向。本文提出 Meta-Team 框架，通过协作式自演化解决该问题：保留每个智能体的执行上下文，并协调任务后通信，使智能体交换分布式证据。在此基础上进行多尺度自演化，将执行经验转化为对智能体行为、协调策略和团队组织的可复用改进。在六个长程智能体基准上，Meta-Team 持续优于单智能体系统、手工设计的MAS及已有MAS演化方法。

评分细项：rel 8 / nov 7 / prac 7 / author 6

5. Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs

评分 7.4 · 方向 cs.CL · Computation and Language · arxiv 2605.30021 · PDF

💡 REDIPO 通过 base+instruct 混合采样与边际多样性偏好对构造 DPO 数据，恢复后训练 LLM 输出多样性且不损对齐。

DPO 后训练 多样性恢复 对齐

摘要：开放式指令往往存在多个合理答案，但后训练（post-training）会将 LLM 的输出空间压缩至少数典型回复。本文提出 REDIPO，一种离线 DPO 数据构建流程，旨在恢复多样化的有效回答模式同时保留对齐收益。REDIPO 对每条 prompt 同时从 base 模型和 instruct 模型采样，利用 instruct 模型改写 base 模型回复，经安全与指令遵循质量过滤后，构建偏好对以鼓励质量相近候选中边际多样性更高的回复。在 Qwen3-4B、OLMo-3-7B 和 LLaMA-3.1-8B 上，REDIPO 将 NoveltyBench distinct_k 分别提升 134%、33% 和 44%，同时基本保持 MTBench、IFEval、Arena-Hard 性能并降低 HarmBench 攻击成功率。消融实验表明边际多样性配对选择与 base 回复改写是多样性提升的关键。

评分细项：rel 8 / nov 7 / prac 7 / author 5

6. Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30159 · PDF

💡 提出 MMPO：用 belief entropy 作为自监督信号对 LLM agent 记忆摘要策略做细粒度 RL 优化，缓解长程任务中信息丢失

agent记忆 RL 长程推理

摘要：记忆增强的 LLM 智能体通过递归摘要交互轨迹来处理长时域任务，但现有方法通常以结果导向的强化学习训练记忆策略，无法定位中间记忆质量退化的位置。递归摘要中的模糊性会逐步丢弃任务相关信息并引入语义噪声，导致信念偏移，最终破坏长时域推理。本文提出 Belief Entropy------一种自监督代理指标，用于衡量模型在当前记忆下对潜在任务状态的不确定性。基于此，提出元认知记忆策略优化（MMPO），通过显式惩罚引发高认知不确定性的摘要，为记忆提供细粒度监督信号，而非仅依赖稀疏的结果反馈。实验表明 MMPO 在多种长时域任务上持续优于现有方法，在扩展至 175 万 token 上下文时仍保持 97.1% 的性能。

评分细项：rel 8 / nov 7 / prac 7 / author 5

7. Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?

评分 7.1 · 方向 cs.CL · Computation and Language · arxiv 2605.30152 · PDF

💡 用轻量时序图学习模型替代 LLM 做 proactive agent 的触发判断，F1 平均+16.7 且延迟降低 4-83×。

agent 时序图 推理加速

摘要：主动式智能体通常将用户活动渲染为文本，每次事件都调用 LLM 判断是否触发动作。然而用户活动本质上是操作系统已维护的结构化事件流（actor, verb, object, timestamp），将其转为文本再让 LLM 恢复结构是不必要的往返。本文提出用时序图学习（TGL）模型替代 LLM 作为触发器：将活动流视为图更新，单次前向传播即输出事件触发概率与实体路由分数，仅在触发时才调用 LLM 生成用户可见文本。实验表明 TGL 在 14 个骨干模型上平均提升 F1 达 +16.7（最高 +46.0），触发 AUC 最优且阈值最稳定；推理延迟约 11-14 ms，比所有 LLM 触发配置快 4-83 倍，BF16 模型仅约 220 MiB，可部署于端侧设备。

评分细项：rel 7 / nov 7 / prac 8 / author 5

8. VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

评分 7.0 · 方向 cs.CV · Computer Vision · arxiv 2605.30351 · PDF

💡 将 Multi-Head Latent Attention (MLA) 引入视频扩散模型，用共享低秩 latent + 3D-RoPE 位置键替代逐头 KV，缓存内存降低 92.7%。

KV压缩 视频扩散 MLA 推理加速

摘要：长时序因果视频扩散模型普遍采用固定大小滑动窗口 KV cache，但逐头 KV 布局本身带来的显存与延迟开销鲜有改进。本文首次将多头潜注意力（MLA）引入视频扩散，提出 VideoMLA：用共享低秩内容潜变量和解耦的 3D-RoPE 位置键替代逐头 KV，每层缓存的逐 token KV 显存降低 92.7%。作者进一步分析了 MLA 在视频扩散中有效的原因------预训练视频注意力并非低秩，99% 能量有效秩远超实际潜维度，但 MLA 瓶颈自身决定了有效秩，训练在该预算内自适应。在 VBench 上，VideoMLA 短时序匹配基线，长时序取得最优综合分数，并在单张 B200 上实现 1.23 倍吞吐提升。

评分细项：rel 7 / nov 8 / prac 7 / author 5

9. MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection

评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30288 · PDF

💡 MIRA 为 LLM mid-training 数据选择自动发现源感知评分 rubric，再蒸馏为轻量 scorer 实现大规模过滤，在代码任务上超越基线

数据选择 mid-training 后训练

摘要：Mid-training 已成为现代 LLM 开发的重要阶段，利用大规模精选数据混合在后训练前增强模型能力。其数据选择问题具有独特性：数据在预训练目标下以接近预训练的规模优化，但面向下游能力、来源异构且格式各异。现有基于模型的方法可扩展性好但仅提供隐式质量信号，语义选择方法判断力更强但通常依赖固定评分标准。为此，作者提出 MIRA------一种基于自锚定评分标准发现的源感知过滤框架。核心思想是将评分标准构建纳入数据选择流程：先为每个数据源组自动发现应评估的维度，再将判断蒸馏为可扩展的学生打分器进行全语料过滤。在包含 21 个来源、5 个源组的代码导向 mid-training 实验中，MIRA 在九个代码基准上超越选择基线，仅用一半 token 即匹配全语料训练效果。

评分细项：rel 7 / nov 7 / prac 7 / author 6

10. Enhancing Multi-Agent Communication through Attention Steering with Context Relevance

评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30136 · PDF

💡 Agent-Radar 通过时空衰减机制动态引导多 agent 注意力聚焦相关上下文，无需训练即可缓解长对话信息稀释问题。

多agent系统 长上下文 注意力管理

摘要：基于 LLM 的多智能体系统通过协作推理在复杂任务上表现出色，但交互过程中对话历史迅速膨胀，相关信息被大量无关上下文稀释，导致性能下降。本文提出 Agent-Radar，一种无需训练的上下文管理方法，通过新颖的时间-空间衰减机制动态引导每个智能体的注意力聚焦于相关上下文。实验表明，Agent-Radar 在五个基准上超越当前最优方法，最高提升达 7.64 个绝对百分点，且随智能体数量和交互轮次增加仍保持稳健。消融实验验证了各核心组件的有效性和跨场景泛化能力。

评分细项：rel 8 / nov 6 / prac 7 / author 5

📚 速览 · 其他通过评估的工作（9 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CV 7.1 Veda: Scalable Video Diffusion via Distilled Sparse Attention · 💡 Veda 将视频 DiT 的 tile 选择建模为全注意力重建问题，蒸馏稀疏注意力实现 Waver-12B 端到端 5.1× 加速。
q-fin.PM 7.1 Financially Guided Deep Portfolio Optimization · 💡 端到端可微框架直接优化 Sharpe/Omega/CVaR/Risk Parity 组合目标，AttentionLSTM 在 2022-2023 跑赢 S&P 500 约 12pp。
cs.MA 6.9 DynaGraph: Lightweight Multi-Model Interaction Framework via Dynamic Topological Reconfiguration · 💡 DynaGraph在共享基座上时分复用PEFT适配器并通过置信度驱动的拓扑重构自愈，8B模型逼近72B推理能力
cs.CL 6.7 Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models · 💡 用冻结教师的全上下文输出蒸馏多轮学生模型，缓解渐进式信息暴露导致的 self-anchored drift。
cs.CL 6.7 A Dual-Path Architecture for Scaling Compute and Capacity in LLMs · 💡 提出 dual-path block：deep 子层共享参数循环 K 次扩展计算深度，wide 子层扩大 FFN 扩展容量，per-token gate 动态路由。
cs.MA 6.7 CONCAT: Consensus- and Confidence-Driven Ad Hoc Teaming for Efficient LLM-Based Multi-Agent Systems · 💡 无需训练，基于共识聚类与置信度选主并用ToM启发式预测协作收益，动态裁剪多Agent通信降低开销
cs.MA 6.6 LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning · 💡 LLM-ALSO让Critic LLM迭代诊断MARL训练阶段的协调失败，Generator LLM提出奖励塑形方案并经分支验证后应用
cs.MA 6.4 When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems · 💡 系统研究云端LLM+端侧SLM混合多Agent架构，在功耗、成本与性能的Pareto前沿上分析各设计选择的影响
cs.AI 6.3 Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning · 💡 DOMINO 用 prompt tuning + 对比解耦从参考样本中学习最小充分域表征，归纳式引导 LLM 合成领域数据。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考