今日候选池 96 篇,硬过滤 + LLM 打分后通过评估 17 篇,精选 Top-10,另列 7 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. HASTE Why Solve It Twice? Hierarchical Accumulation of Skills for Transfer-Efficient ML Engineering
评分 8.3 · 方向 cs.MA · Multiagent Systems · arxiv 2606.30911 · PDF
💡 HASTE按global/domain/competition三层积累技能,让ML工程agent跨Kaggle比赛热启动。
多智能体系统 agentic workflow ML工程自动化
摘要:ML 工程 agents 常在新竞赛中重复摸索既有技巧,浪费计算。HASTE 以 global、domain、competition-specific 三层组织跨竞赛技能,并由 orchestrator 协调专家 agent、用 LLM 抽象促进技能上升。消融显示,在 8 个竞赛和固定 159 项技能下,分层加载奖牌率达 100%,显著优于扁平加载的 62.5%,且输出 token 减半。在 MLE-Bench Lite 22 个 Kaggle 竞赛上,HASTE 奖牌率达 77.3%;warm start 使 refinement 迭代减少 52%。
评分细项:rel 9.0 / nov 7.5 / prac 8.5 / author 5.5
2. SkillComposer Generative Skill Composition for LLM Agents
评分 8.3 · 方向 cs.CL · Computation and Language · arxiv 2606.32025 · PDF
💡 SkillComposer 用受约束自回归序列预测,为 LLM agent 联合选择技能子集、数量与执行顺序。
LLM Agent 技能组合 工作流
摘要:LLM agents 可通过技能库复用过程知识,但库规模增大后,如何选择技能组合成为瓶颈。现有全量暴露推理或基于 embedding/LLM reranker 检索的方法,难以联合决定技能子集、数量和顺序。论文形式化提出 structured skill composition,并给出 SkillComposer:将任务条件下的技能组合建模为技能序列预测,用受约束的自回归解码器一次生成可执行计划,自然捕捉技能依赖。作者基于人工维护技能库构建训练数据,用于评估该结构化组合范式。
评分细项:rel 9.0 / nov 7.5 / prac 8.0 / author 6.0
3. ACE ACE: Pluggable Adaptive Context Elasticizer across Agents
评分 8.3 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31564 · PDF
💡 ACE 用无损消息层与上下文编排层在 ReAct 等代理中动态切换 raw、abstract、drop 历史。
长上下文 Agent框架 上下文压缩
摘要:针对 agent 任务轨迹变长、固定上下文窗口难以承载历史信息的问题,本文提出可插拔模块 ACE。它为每个历史步骤同时保存原始消息与压缩摘要,并在每次决策时按当前状态动态选择 raw、abstract 或 drop,保持信息可恢复。ACE 无需训练或改架构,适配 ReAct、DeepAgent、WebThinker、MiroFlow,实验显示相比截断和摘要基线,在四类框架中均稳定提升性能。
评分细项:rel 8.8 / nov 7.5 / prac 8.5 / author 6.5
4. BrowserBC Scalable Behaviour Cloning on Browser Using via Skill Distillation
评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2606.32014 · PDF
💡 BrowserBC 将人类浏览轨迹蒸馏成自然语言技能,并用 skill graph 支持检索、复用与组合。
浏览器 Agent 行为克隆 技能蒸馏 开源
摘要:本文关注浏览器 agent 的可扩展行为克隆,认为瓶颈主要在不完整信息下的决策,而非低层操作。作者将用户浏览轨迹蒸馏为紧凑的自然语言技能,使 agent 可读取、检索、复用和组合;并用 skill graph 组织技能,避免无界累积。该工作指出,浏览器 agent 的扩展性可更多来自真实用户交互中隐含的集体技能,而非人工设计任务。
评分细项:rel 8.5 / nov 7.0 / prac 8.0 / author 7.0
5. SAGE One Reflection Is Not Enough: Self-Correcting Autonomous Research via Multi-Hypothesis Failure Attribution
评分 8.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31478 · PDF
💡 SAGE 用 MHFA 多假设失败归因把研究代理故障路由到假设、实验或实现层。
自主研究代理 agentic workflow 失败恢复
摘要:自主科研代理已能提出假设、写代码并运行实验,但在实验失败后仍易失稳。本文提出 SAGE,以多假设失败归因(MHFA)替代单次自由反思:从轨迹指标、日志和设计选择中生成多种证据支撑的因果解释,评估严重性,并路由到假设、实验设计或实现层面的修正。同时用 grounded reporting 约束结果只报告实测值。12 主题、5 领域基准上,SAGE 将含指标产出从 42% 提升到 92%,质量评分达 6.75/10,并优于 AI-Scientist-v2。
评分细项:rel 8.5 / nov 7.5 / prac 7.5 / author 6.5
6. ERA ERA: Entropy-Guided Visual Token Pruning with Rectified Attention for Efficient MLLMs
评分 8.0 · 方向 cs.CV · Computer Vision · arxiv 2606.31982 · PDF
💡 ERA 用 Dual-view Entropy Pruning、Token Recycling 和 Attention Rectification 压缩 MLLM 视觉 token。
MLLM 推理加速 Token剪枝
摘要:MLLMs 因视觉 token 序列过长而推理成本高,免训练 token 剪枝虽有效,却会扭曲注意力分布,导致 Attention Logit Collapse。本文提出 ERA:先用 Dual-view Entropy Pruning 结合视觉多样性与多头显著性选 anchor token,再用 Bias-aware Token Recycling 将被剪 token 回收到对应 anchor 并估计 logit 偏置,最后通过 Logit-preserving Attention Rectification 修正注意力。ERA 在单图、多图和视频任务中保持性能并支持激进压缩,为高效 MLLMs 提供可部署框架。
评分细项:rel 8.5 / nov 7.5 / prac 8.0 / author 6.0
7. FARS FARS: A Fully Automated Research System Deployed at Scale
评分 7.6 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31651 · PDF
💡 FARS 用阶段化多智能体共享工作区自动完成选题、实验、代码日志与论文写作。
多智能体 自动科研 Agentic Workflow
摘要:FARS 面向大规模 AI-for-AI 研究自动化,使用分阶段 agents 在共享工作区完成选题、规划、实验与写作,并保留提案、代码、日志和论文等可审计产物。首次公开部署生成 166 篇覆盖 67 个 AI/ML 细分主题的完整论文。282 份结构化评审显示,其能产出可评审、偶有较强质量的研究,但也暴露实验范围窄、方法局限和诚信风险等常见问题。
评分细项:rel 8.0 / nov 7.5 / prac 6.8 / author 6.5
8. LuckyStar Think in English, Answer in Korean: Efficient Adaptation of Multilingual Tool-Using Agents
评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31648 · PDF
💡 LuckyStar 111B 结合多语 SFT、RLVR 工具任务奖励与 4-bit 量化适配韩英企业代理。
后训练 RLVR 工具调用 量化部署
摘要:LuckyStar 111B 是 Cohere 与 LG CNS 面向韩英企业 agents 构建的 111B 混合推理模型,目标是在内存和服务约束下高效适配工具使用能力。它基于已后训练的 Command A,通过 preamble conditioning 切换简洁回答与长链工具推理,并结合多语 SFT、可验证奖励 RL、韩语一致性奖励和 4-bit quantization。实验提升数学推理、function calling 与 NL2SQL,同时保持韩英指令跟随质量。
评分细项:rel 7.5 / nov 6.5 / prac 8.0 / author 8.0
9. SigExec Signature-Based Optimal Execution for Statistical Arbitrage with Path-Dependent Trading Signals
评分 7.7 · 方向 q-fin.TR · Trading and Market Microstructure · arxiv 2606.31387 · PDF
💡 用截断 signature 线性交易速度把路径依赖统计套利执行化为二次规划。
量化交易 统计套利 最优执行
摘要:本文提出用于统计套利最优执行的 signature-based 框架,面向具有路径依赖预测信号的策略。方法将 alpha 过程与交易速度统一建模为时间增强市场路径截断 signature 的线性泛函,使信号生成与执行共享同一基底,并同时考虑临时冲击、库存风险、终端清算和近似美元中性。核心贡献是证明在线性 signature 交易速度类中,路径依赖执行问题可化为有限维凹二次规划。合成均值回复价差实验和历史股票配对回测均显示,该策略在收益/换手率和会计表现上优于经典 z-score 阈值基准。
评分细项:rel 8.5 / nov 7.5 / prac 7.0 / author 5.0
10. RSI-RLVR Which Tokens Matter? Adaptive Token Selection for RLVR with the Relative Surprisal Index
评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31575 · PDF
💡 RSI 将 token 熵与采样概率耦合成相对惊讶指标,用于 RLVR 自适应选择训练 token。
RLVR Token选择 后训练
摘要:本文研究 RLVR 训练中哪些 token 更应参与策略优化。现有观点一方面强调高熵 token,另一方面担心低概率 token 主导梯度,二者虽看似冲突却都能带来收益。作者提出 Relative Surprisal Index (RSI),用信息论方式同时刻画预测熵与已采样 token 概率,并将其与 logit 扰动下梯度范数和熵的一阶变化关系联系起来。基于 RSI,论文设计 RSI Selection (RSI-S),自适应保留稳定 RSI 区间内的 token,从而统一两类经验准则并过滤冗余或不稳定更新,提升 LLM 推理训练效果。
评分细项:rel 7.2 / nov 7.3 / prac 6.8 / author 5.5
📚 速览 · 其他通过评估的工作(7 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
-
cs.CL6.5CHERRY: Compressed Hierarchical Experts with Recurrent Representational Yield · 💡 CHERRY 结合 SGT 选择性监督、层平均压缩与 recurrent unrolling 训练低算力语言模型。 -
cs.CL6.2Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs · 💡 提出 RLMF 与 metacognitive data selection,用自评质量优化偏好排序并校准不确定性表达。 -
cs.AI6.5RAISE: LLM-based Automated Heuristic Design with Robust Adversary Instance Search · 💡 RAISE 把约束最坏实例搜索嵌入 LLM 进化式启发式设计,提升分布偏移鲁棒性。 -
cs.AI6.4Self-Study Reconsidered: The Hidden Fragility of Learning from Self-Generated QA · 💡 把自生成 QA 视为隐式数据选择策略,分析覆盖饱和、显著片段偏置与文本内指令服从。 -
cs.MA6.0DataEvolver: Self-Evolving Multi-Agent Data Construction for Text-Rich Image Generation · 💡 DataEvolver 用 Retriever、Verifier、Critic、Generator 多 agent 循环演化文生图数据构造策略。 -
cs.AI6.3Design and Implementation of Agentic Orchestrations and Orchestration of Agents · 💡 用任务特异性、可追踪性与正确性指标分类 agentic orchestration 方案。 -
cs.CV6.5World Narrative Model for Highly Controllable Video Generation: A Paradigm Shift from Pixel Sampling to Physical World Orchestration · 💡 WNM用协作 agent 将文本、视频和草图转成可编辑4D世界表示驱动视频生成。