今日候选池 97 篇,硬过滤 + LLM 打分后通过评估 19 篇,精选 Top-10,另列 9 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization
评分 8.1 · 方向 cs.MA · Multiagent Systems · arxiv 2605.30227 · PDF
💡 对多 agent 系统做时间+结构双轴信用分配,用 LLM 生成代理梯度的离散块坐标下降迭代优化角色 prompt 与聚合协议。
多agent优化 信用分配 prompt优化 黑盒优化
摘要:多智能体系统(MAS)让大语言模型通过协作交互解决复杂推理任务,但由于计算图的离散不可微性质及全局监督信号的稀疏性,优化其动态过程极具挑战。现有黑盒优化器难以将轨迹级失败归因到具体局部组件,导致探索效率低、方差大。本文提出时间与结构信用分配机制,沿两个轴分解目标:(i) 时间信用------利用状态空间瓶颈识别关键轮次;(ii) 结构信用------利用稳态角色策略隔离各智能体贡献。基于分解信号,引入离散化的语言化块坐标下降算法,交替优化角色提示与聚合协议,利用 LLM 生成的"代理梯度"定向修复薄弱环节。在多个推理基准上,该方法显著降低查询复杂度并提升性能,为自改进 MAS 提供了可解释的优化路径。
评分细项:rel 9 / nov 8 / prac 7 / author 5
2. Demystifying Data Organization for Enhanced LLM Training
评分 7.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30334 · PDF
💡 提出 STR/SAW 数据排序方法,基于边界锐化、周期调度、课程连续性和局部多样性四原则优化 LLM 预训练与 SFT 数据组织(Microsoft 开源)
SFT 数据组织 训练效率 开源
摘要:大语言模型训练效率高度依赖数据筛选,但数据组织策略(即训练样本的排列顺序)对性能的影响尚未被充分研究,尤其在当前模型通常仅训练一到数个 epoch 的背景下。本文系统探索数据组织对 LLM 训练的影响,复用已有的样本级评分以避免额外计算开销,总结出四条关键准则:边界锐化、周期调度、课程连续性和局部多样性。据此提出 STR 和 SAW 两种数据排序方法。在不同模型规模和数据量下(涵盖预训练与 SFT 阶段)的大量实验验证了所提准则的有效性,表明新方法能稳定提升训练性能。
评分细项:rel 8 / nov 7 / prac 8 / author 8
3. Unlocking the Working Memory of Large Language Models for Latent Reasoning
评分 7.7 · 方向 cs.CL · Computation and Language · arxiv 2605.30343 · PDF
💡 用固定长度特殊 token 序列作为 working memory block 替代 CoT 自回归生成,单次前向完成隐式推理。
隐式推理 推理加速 工作记忆 新范式
摘要:扩展测试时计算通常依赖自回归生成中间token来提升大语言模型的推理能力,但这将内部计算与外部输出耦合在一起。受人类工作记忆启发,本文提出 Reasoning in Memory (RiM):用固定长度的特殊token序列(记忆块)替代自回归生成的思维链,使模型在单次前向传播中完成潜在推理。训练采用两阶段课程:先让记忆块预测显式推理步骤以建立基础,再去除逐步监督、仅迭代优化最终答案。实验表明,RiM 在不同模型家族和规模上均能匹配或超越现有潜在推理方法,同时避免了自回归思维生成的开销,证明大语言模型可通过工作记忆机制实现高效潜在推理。
评分细项:rel 8 / nov 8 / prac 7 / author 6
4. Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems
评分 7.5 · 方向 cs.MA · Multiagent Systems · arxiv 2605.29790 · PDF
💡 提出Meta-Team框架,通过保存各Agent执行上下文并协调任务后通信,实现行为/协调/组织三层级的经验驱动自演化
多Agent系统 自演化 长任务
摘要:基于LLM的多智能体系统(MAS)在复杂长程任务中表现出色,但实际执行中常出现难以在设计阶段消除的失败。这促使了经验驱动的MAS演化研究,然而MAS的执行经验涉及多智能体交错的动作链和通信消息,难以定位改进方向。本文提出 Meta-Team 框架,通过协作式自演化解决该问题:保留每个智能体的执行上下文,并协调任务后通信,使智能体交换分布式证据。在此基础上进行多尺度自演化,将执行经验转化为对智能体行为、协调策略和团队组织的可复用改进。在六个长程智能体基准上,Meta-Team 持续优于单智能体系统、手工设计的MAS及已有MAS演化方法。
评分细项:rel 8 / nov 7 / prac 7 / author 6
5. Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs
评分 7.4 · 方向 cs.CL · Computation and Language · arxiv 2605.30021 · PDF
💡 REDIPO 通过 base+instruct 混合采样与边际多样性偏好对构造 DPO 数据,恢复后训练 LLM 输出多样性且不损对齐。
DPO 后训练 多样性恢复 对齐
摘要:开放式指令往往存在多个合理答案,但后训练(post-training)会将 LLM 的输出空间压缩至少数典型回复。本文提出 REDIPO,一种离线 DPO 数据构建流程,旨在恢复多样化的有效回答模式同时保留对齐收益。REDIPO 对每条 prompt 同时从 base 模型和 instruct 模型采样,利用 instruct 模型改写 base 模型回复,经安全与指令遵循质量过滤后,构建偏好对以鼓励质量相近候选中边际多样性更高的回复。在 Qwen3-4B、OLMo-3-7B 和 LLaMA-3.1-8B 上,REDIPO 将 NoveltyBench distinct_k 分别提升 134%、33% 和 44%,同时基本保持 MTBench、IFEval、Arena-Hard 性能并降低 HarmBench 攻击成功率。消融实验表明边际多样性配对选择与 base 回复改写是多样性提升的关键。
评分细项:rel 8 / nov 7 / prac 7 / author 5
6. Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents
评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30159 · PDF
💡 提出 MMPO:用 belief entropy 作为自监督信号对 LLM agent 记忆摘要策略做细粒度 RL 优化,缓解长程任务中信息丢失
agent记忆 RL 长程推理
摘要:记忆增强的 LLM 智能体通过递归摘要交互轨迹来处理长时域任务,但现有方法通常以结果导向的强化学习训练记忆策略,无法定位中间记忆质量退化的位置。递归摘要中的模糊性会逐步丢弃任务相关信息并引入语义噪声,导致信念偏移,最终破坏长时域推理。本文提出 Belief Entropy------一种自监督代理指标,用于衡量模型在当前记忆下对潜在任务状态的不确定性。基于此,提出元认知记忆策略优化(MMPO),通过显式惩罚引发高认知不确定性的摘要,为记忆提供细粒度监督信号,而非仅依赖稀疏的结果反馈。实验表明 MMPO 在多种长时域任务上持续优于现有方法,在扩展至 175 万 token 上下文时仍保持 97.1% 的性能。
评分细项:rel 8 / nov 7 / prac 7 / author 5
7. Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?
评分 7.1 · 方向 cs.CL · Computation and Language · arxiv 2605.30152 · PDF
💡 用轻量时序图学习模型替代 LLM 做 proactive agent 的触发判断,F1 平均+16.7 且延迟降低 4-83×。
agent 时序图 推理加速
摘要:主动式智能体通常将用户活动渲染为文本,每次事件都调用 LLM 判断是否触发动作。然而用户活动本质上是操作系统已维护的结构化事件流(actor, verb, object, timestamp),将其转为文本再让 LLM 恢复结构是不必要的往返。本文提出用时序图学习(TGL)模型替代 LLM 作为触发器:将活动流视为图更新,单次前向传播即输出事件触发概率与实体路由分数,仅在触发时才调用 LLM 生成用户可见文本。实验表明 TGL 在 14 个骨干模型上平均提升 F1 达 +16.7(最高 +46.0),触发 AUC 最优且阈值最稳定;推理延迟约 11-14 ms,比所有 LLM 触发配置快 4-83 倍,BF16 模型仅约 220 MiB,可部署于端侧设备。
评分细项:rel 7 / nov 7 / prac 8 / author 5
8. VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion
评分 7.0 · 方向 cs.CV · Computer Vision · arxiv 2605.30351 · PDF
💡 将 Multi-Head Latent Attention (MLA) 引入视频扩散模型,用共享低秩 latent + 3D-RoPE 位置键替代逐头 KV,缓存内存降低 92.7%。
KV压缩 视频扩散 MLA 推理加速
摘要:长时序因果视频扩散模型普遍采用固定大小滑动窗口 KV cache,但逐头 KV 布局本身带来的显存与延迟开销鲜有改进。本文首次将多头潜注意力(MLA)引入视频扩散,提出 VideoMLA:用共享低秩内容潜变量和解耦的 3D-RoPE 位置键替代逐头 KV,每层缓存的逐 token KV 显存降低 92.7%。作者进一步分析了 MLA 在视频扩散中有效的原因------预训练视频注意力并非低秩,99% 能量有效秩远超实际潜维度,但 MLA 瓶颈自身决定了有效秩,训练在该预算内自适应。在 VBench 上,VideoMLA 短时序匹配基线,长时序取得最优综合分数,并在单张 B200 上实现 1.23 倍吞吐提升。
评分细项:rel 7 / nov 8 / prac 7 / author 5
9. MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection
评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30288 · PDF
💡 MIRA 为 LLM mid-training 数据选择自动发现源感知评分 rubric,再蒸馏为轻量 scorer 实现大规模过滤,在代码任务上超越基线
数据选择 mid-training 后训练
摘要:Mid-training 已成为现代 LLM 开发的重要阶段,利用大规模精选数据混合在后训练前增强模型能力。其数据选择问题具有独特性:数据在预训练目标下以接近预训练的规模优化,但面向下游能力、来源异构且格式各异。现有基于模型的方法可扩展性好但仅提供隐式质量信号,语义选择方法判断力更强但通常依赖固定评分标准。为此,作者提出 MIRA------一种基于自锚定评分标准发现的源感知过滤框架。核心思想是将评分标准构建纳入数据选择流程:先为每个数据源组自动发现应评估的维度,再将判断蒸馏为可扩展的学生打分器进行全语料过滤。在包含 21 个来源、5 个源组的代码导向 mid-training 实验中,MIRA 在九个代码基准上超越选择基线,仅用一半 token 即匹配全语料训练效果。
评分细项:rel 7 / nov 7 / prac 7 / author 6
10. Enhancing Multi-Agent Communication through Attention Steering with Context Relevance
评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30136 · PDF
💡 Agent-Radar 通过时空衰减机制动态引导多 agent 注意力聚焦相关上下文,无需训练即可缓解长对话信息稀释问题。
多agent系统 长上下文 注意力管理
摘要:基于 LLM 的多智能体系统通过协作推理在复杂任务上表现出色,但交互过程中对话历史迅速膨胀,相关信息被大量无关上下文稀释,导致性能下降。本文提出 Agent-Radar,一种无需训练的上下文管理方法,通过新颖的时间-空间衰减机制动态引导每个智能体的注意力聚焦于相关上下文。实验表明,Agent-Radar 在五个基准上超越当前最优方法,最高提升达 7.64 个绝对百分点,且随智能体数量和交互轮次增加仍保持稳健。消融实验验证了各核心组件的有效性和跨场景泛化能力。
评分细项:rel 8 / nov 6 / prac 7 / author 5
📚 速览 · 其他通过评估的工作(9 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
-
cs.CV7.1Veda: Scalable Video Diffusion via Distilled Sparse Attention · 💡 Veda 将视频 DiT 的 tile 选择建模为全注意力重建问题,蒸馏稀疏注意力实现 Waver-12B 端到端 5.1× 加速。 -
q-fin.PM7.1Financially Guided Deep Portfolio Optimization · 💡 端到端可微框架直接优化 Sharpe/Omega/CVaR/Risk Parity 组合目标,AttentionLSTM 在 2022-2023 跑赢 S&P 500 约 12pp。 -
cs.MA6.9DynaGraph: Lightweight Multi-Model Interaction Framework via Dynamic Topological Reconfiguration · 💡 DynaGraph在共享基座上时分复用PEFT适配器并通过置信度驱动的拓扑重构自愈,8B模型逼近72B推理能力 -
cs.CL6.7Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models · 💡 用冻结教师的全上下文输出蒸馏多轮学生模型,缓解渐进式信息暴露导致的 self-anchored drift。 -
cs.CL6.7A Dual-Path Architecture for Scaling Compute and Capacity in LLMs · 💡 提出 dual-path block:deep 子层共享参数循环 K 次扩展计算深度,wide 子层扩大 FFN 扩展容量,per-token gate 动态路由。 -
cs.MA6.7CONCAT: Consensus- and Confidence-Driven Ad Hoc Teaming for Efficient LLM-Based Multi-Agent Systems · 💡 无需训练,基于共识聚类与置信度选主并用ToM启发式预测协作收益,动态裁剪多Agent通信降低开销 -
cs.MA6.6LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning · 💡 LLM-ALSO让Critic LLM迭代诊断MARL训练阶段的协调失败,Generator LLM提出奖励塑形方案并经分支验证后应用 -
cs.MA6.4When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems · 💡 系统研究云端LLM+端侧SLM混合多Agent架构,在功耗、成本与性能的Pareto前沿上分析各设计选择的影响 -
cs.AI6.3Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning · 💡 DOMINO 用 prompt tuning + 对比解耦从参考样本中学习最小充分域表征,归纳式引导 LLM 合成领域数据。
数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考