07-01 · LLM 最新论文速览

今日候选池 96 篇，硬过滤 + LLM 打分后通过评估 17 篇，精选 Top-10，另列 7 篇速览。
关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. `HASTE` Why Solve It Twice? Hierarchical Accumulation of Skills for Transfer-Efficient ML Engineering

评分 8.3 · 方向 cs.MA · Multiagent Systems · arxiv 2606.30911 · PDF

💡 HASTE按global/domain/competition三层积累技能，让ML工程agent跨Kaggle比赛热启动。

多智能体系统 agentic workflow ML工程自动化

摘要：ML 工程 agents 常在新竞赛中重复摸索既有技巧，浪费计算。HASTE 以 global、domain、competition-specific 三层组织跨竞赛技能，并由 orchestrator 协调专家 agent、用 LLM 抽象促进技能上升。消融显示，在 8 个竞赛和固定 159 项技能下，分层加载奖牌率达 100%，显著优于扁平加载的 62.5%，且输出 token 减半。在 MLE-Bench Lite 22 个 Kaggle 竞赛上，HASTE 奖牌率达 77.3%；warm start 使 refinement 迭代减少 52%。

评分细项：rel 9.0 / nov 7.5 / prac 8.5 / author 5.5

2. `SkillComposer` Generative Skill Composition for LLM Agents

评分 8.3 · 方向 cs.CL · Computation and Language · arxiv 2606.32025 · PDF

💡 SkillComposer 用受约束自回归序列预测，为 LLM agent 联合选择技能子集、数量与执行顺序。

LLM Agent 技能组合 工作流

摘要：LLM agents 可通过技能库复用过程知识，但库规模增大后，如何选择技能组合成为瓶颈。现有全量暴露推理或基于 embedding/LLM reranker 检索的方法，难以联合决定技能子集、数量和顺序。论文形式化提出 structured skill composition，并给出 SkillComposer：将任务条件下的技能组合建模为技能序列预测，用受约束的自回归解码器一次生成可执行计划，自然捕捉技能依赖。作者基于人工维护技能库构建训练数据，用于评估该结构化组合范式。

评分细项：rel 9.0 / nov 7.5 / prac 8.0 / author 6.0

3. `ACE` ACE: Pluggable Adaptive Context Elasticizer across Agents

评分 8.3 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31564 · PDF

💡 ACE 用无损消息层与上下文编排层在 ReAct 等代理中动态切换 raw、abstract、drop 历史。

长上下文 Agent框架 上下文压缩

摘要：针对 agent 任务轨迹变长、固定上下文窗口难以承载历史信息的问题，本文提出可插拔模块 ACE。它为每个历史步骤同时保存原始消息与压缩摘要，并在每次决策时按当前状态动态选择 raw、abstract 或 drop，保持信息可恢复。ACE 无需训练或改架构，适配 ReAct、DeepAgent、WebThinker、MiroFlow，实验显示相比截断和摘要基线，在四类框架中均稳定提升性能。

评分细项：rel 8.8 / nov 7.5 / prac 8.5 / author 6.5

4. `BrowserBC` Scalable Behaviour Cloning on Browser Using via Skill Distillation

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2606.32014 · PDF

💡 BrowserBC 将人类浏览轨迹蒸馏成自然语言技能，并用 skill graph 支持检索、复用与组合。

浏览器 Agent 行为克隆 技能蒸馏 开源

摘要：本文关注浏览器 agent 的可扩展行为克隆，认为瓶颈主要在不完整信息下的决策，而非低层操作。作者将用户浏览轨迹蒸馏为紧凑的自然语言技能，使 agent 可读取、检索、复用和组合；并用 skill graph 组织技能，避免无界累积。该工作指出，浏览器 agent 的扩展性可更多来自真实用户交互中隐含的集体技能，而非人工设计任务。

评分细项：rel 8.5 / nov 7.0 / prac 8.0 / author 7.0

5. `SAGE` One Reflection Is Not Enough: Self-Correcting Autonomous Research via Multi-Hypothesis Failure Attribution

评分 8.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31478 · PDF

💡 SAGE 用 MHFA 多假设失败归因把研究代理故障路由到假设、实验或实现层。

自主研究代理 agentic workflow 失败恢复

摘要：自主科研代理已能提出假设、写代码并运行实验，但在实验失败后仍易失稳。本文提出 SAGE，以多假设失败归因（MHFA）替代单次自由反思：从轨迹指标、日志和设计选择中生成多种证据支撑的因果解释，评估严重性，并路由到假设、实验设计或实现层面的修正。同时用 grounded reporting 约束结果只报告实测值。12 主题、5 领域基准上，SAGE 将含指标产出从 42% 提升到 92%，质量评分达 6.75/10，并优于 AI-Scientist-v2。

评分细项：rel 8.5 / nov 7.5 / prac 7.5 / author 6.5

6. `ERA` ERA: Entropy-Guided Visual Token Pruning with Rectified Attention for Efficient MLLMs

评分 8.0 · 方向 cs.CV · Computer Vision · arxiv 2606.31982 · PDF

💡 ERA 用 Dual-view Entropy Pruning、Token Recycling 和 Attention Rectification 压缩 MLLM 视觉 token。

MLLM 推理加速 Token剪枝

摘要：MLLMs 因视觉 token 序列过长而推理成本高，免训练 token 剪枝虽有效，却会扭曲注意力分布，导致 Attention Logit Collapse。本文提出 ERA：先用 Dual-view Entropy Pruning 结合视觉多样性与多头显著性选 anchor token，再用 Bias-aware Token Recycling 将被剪 token 回收到对应 anchor 并估计 logit 偏置，最后通过 Logit-preserving Attention Rectification 修正注意力。ERA 在单图、多图和视频任务中保持性能并支持激进压缩，为高效 MLLMs 提供可部署框架。

评分细项：rel 8.5 / nov 7.5 / prac 8.0 / author 6.0

7. `FARS` FARS: A Fully Automated Research System Deployed at Scale

评分 7.6 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31651 · PDF

💡 FARS 用阶段化多智能体共享工作区自动完成选题、实验、代码日志与论文写作。

多智能体 自动科研 Agentic Workflow

摘要：FARS 面向大规模 AI-for-AI 研究自动化，使用分阶段 agents 在共享工作区完成选题、规划、实验与写作，并保留提案、代码、日志和论文等可审计产物。首次公开部署生成 166 篇覆盖 67 个 AI/ML 细分主题的完整论文。282 份结构化评审显示，其能产出可评审、偶有较强质量的研究，但也暴露实验范围窄、方法局限和诚信风险等常见问题。

评分细项：rel 8.0 / nov 7.5 / prac 6.8 / author 6.5

8. `LuckyStar` Think in English, Answer in Korean: Efficient Adaptation of Multilingual Tool-Using Agents

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31648 · PDF

💡 LuckyStar 111B 结合多语 SFT、RLVR 工具任务奖励与 4-bit 量化适配韩英企业代理。

后训练 RLVR 工具调用 量化部署

摘要：LuckyStar 111B 是 Cohere 与 LG CNS 面向韩英企业 agents 构建的 111B 混合推理模型，目标是在内存和服务约束下高效适配工具使用能力。它基于已后训练的 Command A，通过 preamble conditioning 切换简洁回答与长链工具推理，并结合多语 SFT、可验证奖励 RL、韩语一致性奖励和 4-bit quantization。实验提升数学推理、function calling 与 NL2SQL，同时保持韩英指令跟随质量。

评分细项：rel 7.5 / nov 6.5 / prac 8.0 / author 8.0

9. `SigExec` Signature-Based Optimal Execution for Statistical Arbitrage with Path-Dependent Trading Signals

评分 7.7 · 方向 q-fin.TR · Trading and Market Microstructure · arxiv 2606.31387 · PDF

💡 用截断 signature 线性交易速度把路径依赖统计套利执行化为二次规划。

量化交易 统计套利 最优执行

摘要：本文提出用于统计套利最优执行的 signature-based 框架，面向具有路径依赖预测信号的策略。方法将 alpha 过程与交易速度统一建模为时间增强市场路径截断 signature 的线性泛函，使信号生成与执行共享同一基底，并同时考虑临时冲击、库存风险、终端清算和近似美元中性。核心贡献是证明在线性 signature 交易速度类中，路径依赖执行问题可化为有限维凹二次规划。合成均值回复价差实验和历史股票配对回测均显示，该策略在收益/换手率和会计表现上优于经典 z-score 阈值基准。

评分细项：rel 8.5 / nov 7.5 / prac 7.0 / author 5.0

10. `RSI-RLVR` Which Tokens Matter? Adaptive Token Selection for RLVR with the Relative Surprisal Index

评分 7.0 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.31575 · PDF

💡 RSI 将 token 熵与采样概率耦合成相对惊讶指标，用于 RLVR 自适应选择训练 token。

RLVR Token选择 后训练

摘要：本文研究 RLVR 训练中哪些 token 更应参与策略优化。现有观点一方面强调高熵 token，另一方面担心低概率 token 主导梯度，二者虽看似冲突却都能带来收益。作者提出 Relative Surprisal Index (RSI)，用信息论方式同时刻画预测熵与已采样 token 概率，并将其与 logit 扰动下梯度范数和熵的一阶变化关系联系起来。基于 RSI，论文设计 RSI Selection (RSI-S)，自适应保留稳定 RSI 区间内的 token，从而统一两类经验准则并过滤冗余或不稳定更新，提升 LLM 推理训练效果。

评分细项：rel 7.2 / nov 7.3 / prac 6.8 / author 5.5

📚 速览 · 其他通过评估的工作（7 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CL 6.5 CHERRY: Compressed Hierarchical Experts with Recurrent Representational Yield · 💡 CHERRY 结合 SGT 选择性监督、层平均压缩与 recurrent unrolling 训练低算力语言模型。
cs.CL 6.2 Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs · 💡 提出 RLMF 与 metacognitive data selection，用自评质量优化偏好排序并校准不确定性表达。
cs.AI 6.5 RAISE: LLM-based Automated Heuristic Design with Robust Adversary Instance Search · 💡 RAISE 把约束最坏实例搜索嵌入 LLM 进化式启发式设计，提升分布偏移鲁棒性。
cs.AI 6.4 Self-Study Reconsidered: The Hidden Fragility of Learning from Self-Generated QA · 💡 把自生成 QA 视为隐式数据选择策略，分析覆盖饱和、显著片段偏置与文本内指令服从。
cs.MA 6.0 DataEvolver: Self-Evolving Multi-Agent Data Construction for Text-Rich Image Generation · 💡 DataEvolver 用 Retriever、Verifier、Critic、Generator 多 agent 循环演化文生图数据构造策略。
cs.AI 6.3 Design and Implementation of Agentic Orchestrations and Orchestration of Agents · 💡 用任务特异性、可追踪性与正确性指标分类 agentic orchestration 方案。
cs.CV 6.5 World Narrative Model for Highly Controllable Video Generation: A Paradigm Shift from Pixel Sampling to Physical World Orchestration · 💡 WNM用协作 agent 将文本、视频和草图转成可编辑4D世界表示驱动视频生成。

07-01 · LLM 最新论文速览

🌟 精选

1. HASTE Why Solve It Twice? Hierarchical Accumulation of Skills for Transfer-Efficient ML Engineering

2. SkillComposer Generative Skill Composition for LLM Agents

3. ACE ACE: Pluggable Adaptive Context Elasticizer across Agents

4. BrowserBC Scalable Behaviour Cloning on Browser Using via Skill Distillation

5. SAGE One Reflection Is Not Enough: Self-Correcting Autonomous Research via Multi-Hypothesis Failure Attribution

6. ERA ERA: Entropy-Guided Visual Token Pruning with Rectified Attention for Efficient MLLMs

7. FARS FARS: A Fully Automated Research System Deployed at Scale

8. LuckyStar Think in English, Answer in Korean: Efficient Adaptation of Multilingual Tool-Using Agents

9. SigExec Signature-Based Optimal Execution for Statistical Arbitrage with Path-Dependent Trading Signals

10. RSI-RLVR Which Tokens Matter? Adaptive Token Selection for RLVR with the Relative Surprisal Index