每周AI论文速递(260209-260213)

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

OPUS:迈向大语言模型每次迭代预训练中高效且原则性的数据选择

随着高质量公共文本资源逐渐耗尽,即出现所谓的"数据墙"现象,大语言模型预训练的重点正从使用更多 Token 转向使用更优质的 Token。然而,现有方法要么依赖忽略训练动态的启发式静态过滤器,要么采用虽具动态性但独立于优化器特性、仅基于原始梯度的选择准则。我们提出了 OPUS (Optimizer-induced Projected Utility Selection,优化器诱导的投影效用选择) ,这是一个动态数据选择框架,其在优化器所诱导的更新空间中定义数据效用。OPUS 对候选数据进行评分的方法是:将由现代优化器塑造的有效更新,投影到一个从稳定、同分布的代理数据推导出的目标方向上。为确保可扩展性,我们采用了 Ghost 技术和 CountSketch 以提高计算效率,并利用玻尔兹曼采样来维持数据多样性,这些措施仅带来 4.7% 的额外计算开销。OPUS 在多种语料库、数据质量层级、优化器类型及模型规模下均取得了卓越效果。在使用 FineWeb 和 FineWeb-Edu 语料库、以 300 亿 Token 对 GPT-2 Large/XL 进行预训练时,OPUS 的表现超越了工业级基线方法,甚至优于使用完整 2000 亿 Token 进行的训练。此外,当与工业级静态过滤器结合使用时,OPUS 能进一步提升预训练效率,即便使用质量较低的数据亦然。更进一步,在 SciencePedia 上对 Qwen3-8B-Base 进行持续预训练时,OPUS 仅使用 5 亿 Token 就取得了优于使用 30 亿 Token 进行完整训练的性能,这证明了其在专业领域显著的数据效率优势。

Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

弱驱动学习:弱智能体如何使强智能体更强

后训练优化已成为提升大语言模型性能的关键手段,但我们发现一个持续的饱和瓶颈:当模型变得高度自信后,继续训练往往收益递减。尽管现有方法仍在不断强化目标预测,我们发现,信息丰富的监督信号其实蕴藏在模型自身的历史弱状态中。基于这一观察,我们提出了 WMSS(弱智能体可以使强智能体更强),这是一种后训练范式,它利用早期训练阶段保存的弱检查点来指导模型的持续优化。该方法通过分析熵的动态变化来识别可恢复的学习差距,并借助补偿性学习对其进行强化,从而使强智能体能够突破传统后训练中的性能饱和限制。在数学推理和代码生成数据集上的实验表明,采用我们方法训练的智能体取得了显著的性能提升,同时实现了零额外推理开销。

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

TermiGen: 面向终端智能体的高保真环境与鲁棒轨迹合成

对于开放权重的大语言模型 (LLM) 来说,执行复杂的终端任务仍然是一个重大挑战,主要受限于两个根本性问题。首先,高保真且可执行的训练环境十分匮乏:基于真实世界代码库合成的环境缺乏多样性和可扩展生成能力,而由大语言模型合成的轨迹则存在幻觉 (hallucination) 问题。其次,标准的指令调优 (instruction tuning) 所采用的专家轨迹,很少包含较小模型常犯的简单错误。这导致了分布不匹配,使得学生模型缺乏从自身运行时故障中恢复的能力。为了弥合这些差距,我们提出了 TermiGen,一个用于合成可验证环境与鲁棒专家轨迹的端到端流程。TermiGen 首先通过一个迭代的多智能体精炼循环,生成功能上正确的任务和 Docker 容器。随后,我们采用一种生成器-评判器 (Generator-Critic) 协议,在轨迹收集过程中主动注入错误,从而合成包含大量纠错过程的数据。使用此 TermiGen 生成的数据集进行微调后,我们的 TermiGen-Qwen2.5-Coder-32B 模型在 TerminalBench 上达到了 31.3% 的通过率。这为开放权重模型确立了新的性能标杆,超越了现有基线,并显著超过了如 o4-mini 等性能强大的专有模型。数据集发布于 github.com/ucsb-mlsec/...

Code2World: A GUI World Model via Renderable Code Generation

Code2World:通过可渲染代码生成的 GUI 世界模型

自主 GUI 智能体通过感知界面并执行动作来与环境交互。作为一种虚拟沙盒,GUI 世界模型通过实现以动作为条件的预测,赋予智能体类人的预见能力。然而,现有的基于文本和像素的方法无法同时兼顾高视觉保真度与细粒度的结构可控性。为此,我们提出了 Code2World,一个通过生成可渲染代码来模拟下一视觉状态的视觉语言编码器。具体而言,为解决数据稀缺问题,我们构建了 AndroidCode 数据集,其方法是将 GUI 交互轨迹转换为高保真 HTML,并通过视觉反馈修订机制对合成代码进行优化,最终得到了一个包含超过 8 万对高质量屏幕-动作数据的数据集。为使现有视觉语言模型适应代码预测任务,我们首先进行监督微调作为遵循格式布局的冷启动,随后进一步应用渲染感知强化学习,该学习以确保视觉语义保真度和动作一致性为目标,将渲染结果作为奖励信号。大量实验表明,Code2World-8B 在下一 UI 状态预测任务上取得了顶尖性能,足以媲美 GPT-5 和 Gemini-3-Pro-Image 等竞争模型。值得注意的是,Code2World 能灵活地显著提升下游导航任务的成功率,在 AndroidWorld 导航任务中将 Gemini-2.5-Flash 的成功率提升了 9.5%。代码可在 github.com/AMAP-ML/Cod... 获取。

The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Moltbook 背后的魔鬼:在自进化 AI 社会中人类安全性总是趋于消失

基于大语言模型 (LLMs) 构建的多智能体系统的出现,为实现可扩展的集体智能与自进化提供了一个前景广阔的范式。理想情况下,这类系统能在完全闭环中实现持续自我改进,同时保持稳健的安全对齐------我们将这一组合称为自进化三难困境。然而,我们从理论与实证两方面证明,一个同时满足持续自进化、完全隔离与安全性不变的智能体社会是不可能存在的。借助信息论框架,我们将安全性形式化为相对于人类价值分布的偏离程度。理论分析表明,隔离的自进化会引发统计盲点,从而导致系统安全对齐发生不可逆的退化。对一个开放式智能体社区 (Moltbook) 及两个封闭式自进化系统的实证与定性研究结果,揭示了与我们理论预测相符的、不可避免的安全性侵蚀现象。我们进一步提出了若干缓解这一已识别安全问题的解决方向。本研究确立了自进化 AI 社会的一个根本性限制,并将讨论焦点从针对症状的安全补丁,转向对内在动态风险的原则性理解,从而凸显了外部监督或新型安全维持机制的必要性。

QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining

QuantaAlpha:一个用于大语言模型驱动阿尔法挖掘的进化框架

金融市场存在噪声且非平稳,这使得阿尔法 (Alpha) 挖掘对回测结果中的噪声以及市场状态的突然转换高度敏感。尽管近期的智能体 (Agentic) 框架提升了阿尔法挖掘的自动化水平,但它们往往缺乏可控的多轮搜索能力以及对已验证经验的可靠复用。为应对这些挑战,我们提出了 QuantaAlpha,这是一个进化的阿尔法挖掘框架。该框架将每次端到端的挖掘过程视为一个轨迹,并通过轨迹级别的变异和交叉操作来改进因子。QuantaAlpha 能够定位每个轨迹中的次优步骤进行定向修正,并重组互补的高收益片段以复用有效模式,从而在多次挖掘迭代中实现结构化的探索与优化。在因子生成阶段,QuantaAlpha 确保了假设、因子表达式和可执行代码三者间的语义一致性,同时约束生成因子的复杂性与冗余度,以缓解因子拥挤问题。在中国沪深300指数 (CSI 300) 上进行的大量实验表明,相较于强大的基线模型和已有的智能体系统,QuantaAlpha 取得了持续一致的性能提升。当使用 GPT-5.2 时,QuantaAlpha 实现了 0.1501 的信息系数 (IC) ,其年化收益率 (ARR) 达到 27.75%,最大回撤 (MDD) 为 7.98%。此外,在沪深300指数上挖掘出的因子,能够有效地迁移到中证500指数 (CSI 500) 和标准普尔500指数 (S&P 500) 上,在四年内分别实现了 160% 和 137% 的累计超额收益,这表明 QuantaAlpha 在市场分布发生变化时具有很强的稳健性。

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

Step 3.5 Flash:以110亿活跃参数开启前沿级智能

我们推出 Step 3.5 Flash,这是一个稀疏的专家混合 (Mixture-of-Experts, MoE) 模型,旨在桥接前沿水平的智能体 (Agent) 智能与计算效率。我们聚焦于构建智能体最核心的要素:精准的推理能力以及快速可靠的执行能力。Step 3.5 Flash 采用了一个1960亿参数的基础模型,并搭配110亿活跃参数以实现高效推理。该模型通过交错的3:1滑动窗口/全注意力机制以及多令牌预测 (Multi-Token Prediction, MTP-3) 进行优化,旨在降低多轮智能体交互的延迟和成本。为达到前沿智能水平,我们设计了一个可扩展的强化学习框架,该框架结合了可验证信号与偏好反馈,并能在大规模离策略 (off-policy) 训练下保持稳定,从而在数学、代码和工具使用方面实现持续的自我改进。Step 3.5 Flash 在智能体、编码和数学任务上均展现出强劲性能:在IMO-AnswerBench上达到85.4%,在LiveCodeBench-v6 (2024.08-2025.05) 上达到86.4%,在tau2-Bench上达到88.2%,在BrowseComp (带上下文管理) 上达到69.0%,在Terminal-Bench 2.0上达到51.0%,其表现可与GPT-5.2 xHigh和Gemini 3.0 Pro等前沿模型相媲美。通过重新定义效率前沿,Step 3.5 Flash 为在真实工业环境中部署复杂的智能体提供了一个高效能的基础平台。

UI-Venus-1.5 Technical Report

UI-Venus-1.5 技术报告

GUI 智能体已成为在数字环境中实现交互自动化的强大范式,但要同时实现广泛的通用性和稳定出色的任务性能,仍面临挑战。本报告介绍了 UI-Venus-1.5,这是一个为稳健的现实世界应用而设计的统一、端到端 GUI 智能体。所提出的模型系列包含两个密集变体 (2B 和 8B) 和一个专家混合变体 (30B-A3B),以适应不同的下游应用场景。相较于我们之前的版本,UI-Venus-1.5 引入了三项关键技术进步:(1) 一个全面的中期训练阶段,利用超过 30 个数据集、总计 100 亿 Token 来建立基础的 GUI 语义理解;(2) 采用全轨迹展开的在线强化学习,使训练目标与大规模环境中的长视野、动态导航任务对齐;(3) 通过模型合并技术构建了一个统一的 GUI 智能体,它将多个特定领域模型(基础 GUI 理解、网页和移动端)融合为一个一致的模型检查点。广泛的评估表明,UI-Venus-1.5 在 ScreenSpot-Pro (69.6%)、VenusBench-GD (75.0%) 和 AndroidWorld (77.6%) 等基准测试中取得了新的最先进性能,显著超越了之前表现优异的基线模型。此外,UI-Venus-1.5 在多种中国移动应用上展现了强大的导航能力,能够在真实场景中有效执行用户指令。代码:github.com/inclusionAI...; 模型:huggingface.co/collections...

MOVA: Towards Scalable and Synchronized Video-Audio Generation

MOVA:迈向可扩展且同步的视频-音频生成

音频对于真实世界的视频至关重要,但现有的生成模型大多忽视了音频部分。当前生成视听内容的方法通常依赖于级联流水线,这会增加成本、累积误差并降低整体质量。尽管 Veo 3 和 Sora 2 等系统强调了同步生成的价值,但联合多模态建模在架构、数据和训练方面带来了独特的挑战。此外,现有系统的闭源性也限制了该领域的发展。为此,我们提出了 MOVA (MOSS Video and Audio) ,这是一个能够生成高质量、同步视听内容的开源模型,其生成内容包括逼真的唇形同步语音、环境感知音效以及与内容对齐的音乐。MOVA 采用了专家混合 (Mixture-of-Experts, MoE) 架构,总参数量为 320 亿,其中 180 亿参数在推理时处于激活状态。它支持 IT2VA (Image-Text to Video-Audio) 生成任务。通过开源模型权重和代码,我们旨在推动相关研究并培育一个充满活力的创作者社区。发布的代码库全面支持高效推理、LoRA 微调和提示增强。

Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models

面向多模态大语言模型的模态鸿沟驱动子空间对齐训练范式

尽管多模态对比学习在对齐视觉与语言表示方面取得了成功,但一个被称为模态鸿沟 (Modality Gap) 的持久几何异常依然存在:表达相同语义的不同模态,其嵌入向量会系统性地占据彼此偏移的区域。先前旨在弥合这一鸿沟的方法,主要受限于过于简化的各向同性假设,从而阻碍了其在大规模场景中的应用。本文通过精确刻画模态鸿沟的几何形态,并利用其实现高效的模型扩展,以突破这些局限。首先,我们提出了固定框架模态鸿沟理论 (Fixed-frame Modality Gap Theory),该理论将冻结参考框架内的模态鸿沟分解为稳定的偏差和各向异性残差。在此精确模型的指导下,我们引入了 ReAlign,一种免训练的模态对齐策略。利用来自海量未配对 (unpaired) 数据的统计信息,ReAlign 通过锚点对齐、跟踪对齐和质心对齐三个步骤,将文本表示对齐到图像表示分布中,从而显式地修正几何错位。基于 ReAlign,我们提出了 ReVision,一种面向多模态大语言模型 (MLLMs) 的可扩展训练范式。ReVision 将 ReAlign 集成到预训练阶段,使得模型在视觉指令微调之前,就能从未配对的文本数据中学习视觉表示的分布,而无需依赖大规模、高质量的图像-文本对。我们的框架表明,经过统计对齐的未配对数据能够有效替代昂贵的图像-文本对,为 MLLMs 的高效扩展提供了一条可靠途径。

VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

VidVec:释放 MLLM 视频嵌入用于视频-文本检索的潜力

近期研究已将生成式多模态大语言模型 (MLLMs) 改造为视觉任务的嵌入提取器,通常通过微调来获得通用表示。然而,其视频性能仍不及视频基础模型 (VFMs)。本文专注于利用 MLLM 进行视频-文本嵌入与检索。我们首先进行了系统的逐层分析,发现中间(预训练)的 MLLM 层已蕴含丰富的任务相关信息。基于这一洞察,我们证明了将中间层嵌入与经过校准的 MLLM 头部相结合,无需任何训练即可实现出色的零样本检索性能。在此基础上,我们提出了一种轻量级的基于文本的对齐策略,该策略将详细的视频描述转化为简洁的摘要,从而能够在无需视觉监督的情况下进行任务相关的视频-文本嵌入学习。值得注意的是,仅使用文本数据而无需任何额外的微调,我们的方法便超越了现有方法,且往往优势显著,在多个主流视频检索基准测试中取得了领先的性能。

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Composition-RL:为大型语言模型强化学习组合可验证提示

大规模可验证提示是基于可验证奖励的强化学习 (RLVR) 取得成功的关键,但这些提示包含大量信息量不足的样本,且进一步扩展成本高昂。近期研究侧重于通过优先处理通过率为零的困难提示,以更好地利用有限的训练数据。然而,随着训练进行,通过率为一的简单提示也日益普遍,从而降低了有效数据规模。为缓解此问题,我们提出了 Composition-RL,这是一种简单而有效的方法,旨在更好地利用那些针对通过率为一提示的有限可验证提示。具体而言,Composition-RL 能够自动将多个问题组合成一个新的可验证问题,并将这些组合后的提示用于强化学习训练。在参数量从 40亿到 300亿的模型上进行的广泛实验表明,与在原始数据集上训练的强化学习相比,Composition-RL 能持续提升模型的推理能力。若采用 Composition-RL 的课程学习变体,即在训练过程中逐步增加组合深度,性能还可得到进一步提升。此外,通过组合来自不同领域的提示,Composition-RL 能够实现更有效的跨领域强化学习。代码、数据集和模型已公开于 github.com/XinXU-USTC/...

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

DeepGen 1.0:一种用于推进图像生成与编辑的轻量级统一多模态模型

当前用于图像生成和编辑的统一多模态模型通常依赖于庞大的参数量级 (例如,>100亿),这导致了极高的训练成本和部署资源需求。在本工作中,我们提出了 DeepGen 1.0,一个参数量为 50亿 的轻量级统一模型,其综合能力可与规模大得多的模型相媲美甚至超越。为了克服紧凑模型在语义理解和细粒度控制方面的局限,我们引入了堆叠通道桥接 (Stacked Channel Bridging, SCB),这是一个深度对齐框架。该框架从视觉语言模型 (VLM) 的多个层级提取分层特征,并将其与可学习的"思维标记 (think tokens)"融合,从而为生成主干网络提供结构化且富含推理信息的指导。我们进一步设计了一个以数据为中心的、包含三个渐进阶段的训练策略:(1) 在大规模图像-文本对及编辑三元组上进行对齐预训练,以实现 VLM 与扩散 Transformer (DiT) 表征的对齐;(2) 在高质量混合的生成、编辑及推理任务上进行联合监督微调,以培养全方位的模型能力;(3) 采用 MR-GRPO 进行强化学习,该方法综合利用了多种奖励函数和监督信号,从而在显著提升生成质量及与人类偏好对齐度的同时,保持了训练过程的稳定并避免了视觉伪影。尽管仅使用了约 5000万 样本进行训练,DeepGen 1.0 在多项基准测试中均取得了领先的性能表现,其在 WISE 基准上超越了 800亿 参数的 HunyuanImage 达 28%,在 UniREditBench 基准上超越了 270亿 参数的 Qwen-Image-Edit 达 37%。通过开源我们的训练代码、模型权重及数据集,我们提供了一个高效且高性能的替代方案,旨在降低统一多模态研究的门槛,促进其普及与发展。

Chain of Mindset: Reasoning with Adaptive Cognitive Modes

思维链:基于自适应认知模式的推理

人类解决问题从来不是单一思维模式(即一种独特的认知处理模式)的简单重复。在应对具体任务时,我们并非依赖单一的思维模式,而是在同一个解题过程中整合多种思维模式。然而,现有的大语言模型推理方法普遍陷入一个误区:它们在所有推理步骤中都应用同一种固定的思维模式,忽略了解决同一问题的不同阶段可能需要截然不同的思维模式。这种"单一思维"的假设阻碍了模型迈向更高层次的智能。为了突破这一局限,我们提出了思维链 (Chain of Mindset, CoM),这是一个无需训练的智能体框架,能够实现步骤级别的自适应思维模式编排。CoM 将推理过程分解为四种功能各异的思维模式:空间思维、收敛思维、发散思维和算法思维。一个元智能体根据动态变化的推理状态,实时选择最优的思维模式;同时,一个双向上下文门负责过滤跨模块的信息流,以确保推理的有效性与效率。我们在数学、代码生成、科学问答和空间推理这六大挑战性基准上进行了实验。结果表明,CoM 取得了最先进的性能,在 Qwen3-VL-32B-Instruct 和 Gemini-2.0-Flash 模型上的总体准确率分别超越了最强基线 4.96% 和 4.72%,并很好地兼顾了推理效率。我们的代码已公开在 github.com/QuantaAlpha...

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

InternAgent-1.5:一个用于长周期自主科学发现的统一智能体框架

我们介绍了 InternAgent-1.5,这是一个为计算与实证科学领域端到端发现而设计的统一系统。该系统基于一个结构化架构构建,该架构由生成、验证和演化三个协调的子系统组成。这些子系统由深度研究、方案优化和长周期记忆等基础能力提供支持。该架构使得 InternAgent-1.5 能够在漫长的发现周期中持续运行,同时保持行为的一致性与持续改进。它还能在一个统一系统内协调计算建模与实验室实验。我们在 GAIA、HLE、GPQA 和 FrontierScience 等科学推理基准测试上评估了 InternAgent-1.5,该系统取得了领先的性能,展现了强大的基础能力。除基准测试外,我们进一步评估了两类发现任务。在算法发现任务中,InternAgent-1.5 能自主设计出针对核心机器学习问题的有竞争力方法。在实证发现任务中,它能执行完整的计算或湿实验,并在地球科学、生命科学、生物学和物理学等领域产出科学发现。总体而言,这些结果表明,InternAgent-1.5 为自主科学发现提供了一个通用且可扩展的框架。

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

AIRS-Bench: 一套面向前沿 AI 科学研究智能体的任务集

大语言模型智能体在推动科学研究方面潜力巨大。为加速这一进程,我们推出了 AIRS-Bench (人工智能研究科学基准),这是一个包含 20 项任务的测试套件,任务均源自前沿机器学习论文。这些任务涵盖多个领域,包括语言建模、数学、生物信息学以及时间序列预测。AIRS-Bench 旨在评估智能体在整个研究生命周期中的能力------涵盖想法生成、实验分析与迭代优化------且不提供基线代码。AIRS-Bench 的任务格式设计灵活,便于集成新任务,并能对不同智能体框架进行严谨比较。我们使用前沿模型,结合顺序与并行脚手架,建立了性能基线。结果表明,智能体在四项任务上超越了人类当前最佳水平,但在其余十六项任务中未能与之匹敌。即便在超越人类基准的任务中,智能体也未能达到该任务的理论性能极限。这些发现表明,AIRS-Bench 远未达到性能饱和,存在巨大的改进空间。我们开源了 AIRS-Bench 的任务定义与评估代码,以期推动自主科学研究领域的进一步发展。

F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

F-GRPO: 勿使策略习于常见而疏于罕见

基于可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 通常依赖于分组采样来估计优势函数并稳定策略更新。然而,由于计算资源的限制,实践中无法使用过大的分组规模,这会导致学习过程偏向于那些本就高概率的轨迹。较小的分组规模则常常会遗漏那些罕见但正确的轨迹,同时组内仍可能包含奖励信号混杂的轨迹,从而使得概率质量过度集中于常见的解决方案上。我们推导了策略更新错过罕见正确模式的概率与分组规模之间的函数关系,结果表明该概率表现出非单调性。此外,我们刻画了更新过程如何在正确轨迹集合内部重新分配概率质量,揭示出即使总体的正确概率质量在增长,那些未被采样的正确轨迹所对应的概率质量也可能萎缩。基于此分析,我们提出了一种难度感知的优势缩放系数,其灵感来源于 Focal 损失函数,该系数能够降低对高成功率提示 (prompt) 的更新权重。这一轻量级修改可以直接集成到任何基于组相对策略优化的 RLVR 算法中,例如 GRPO、DAPO 和 CISPO。在 Qwen2.5-7B 模型上进行的领域内和领域外基准测试表明,我们的方法在未增加分组规模或计算开销的前提下,将 pass@256 指标从 64.1 提升至 70.3 (GRPO)、从 69.3 提升至 72.5 (DAPO)、以及从 73.2 提升至 76.8 (CISPO),同时保持甚至提升了 pass@1 指标。

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

循环深度 VLA:通过潜在迭代推理实现视觉-语言-动作模型的隐式测试时计算扩展

当前的视觉-语言-动作 (VLA) 模型采用固定的计算深度,无论处理简单的调整还是复杂的多步操作,都消耗相同的计算资源。虽然思维链 (CoT) 提示支持可变计算,但其内存占用会线性增长,且不适用于连续动作空间。本文提出了循环深度 VLA (RD-VLA),该架构通过潜在迭代优化而非显式生成 Token 来实现自适应计算。RD-VLA 采用一个循环且权重共享的动作头,能以恒定的内存占用支持任意的推理深度。模型使用通过时间的截断反向传播 (TBPTT) 进行训练,以高效指导其优化过程。在推理阶段,RD-VLA 基于潜在状态的收敛情况,采用自适应停止准则来动态分配计算量。在多项具有挑战性的操作任务上的实验表明,循环深度至关重要:对于单次迭代推理完全失败 (成功率为 0%) 的任务,经过四次迭代后成功率可超过 90%;而对于较简单的任务,性能则会迅速达到饱和。RD-VLA 为机器人领域的测试时计算提供了一条可扩展的路径,它用潜在推理替代了基于 Token 的推理,从而实现了恒定的内存占用,并且相比之前基于推理的 VLA 模型,推理速度最高可提升 80 倍。项目页面:rd-vla.github.io/

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

SkillRL:通过递归技能增强的强化学习进化智能体

大语言模型 (LLM) 智能体在复杂任务中已展现出惊人成果,但它们通常孤立运行,无法从历史经验中学习。现有的基于记忆的方法主要存储原始轨迹,这些轨迹往往冗余且包含大量噪声,阻碍了智能体提取对泛化至关重要的高级、可复用行为模式。本文提出 SkillRL,这是一个通过自动技能发现与递归进化来桥接原始经验与策略改进的框架。我们的方法引入了一种基于经验的蒸馏机制,用于构建分层技能库 SkillBank;一种适用于通用及任务特定启发式的自适应检索策略;以及一种递归进化机制,使技能库能在强化学习过程中与智能体策略协同进化。这些创新显著降低了 Token 开销,同时提升了推理效用。在 ALFWorld、WebShop 及七个搜索增强任务上的实验结果表明,SkillRL 实现了最先进的性能,超越强基线模型 15.3% 以上,并在任务复杂度增加时保持鲁棒性。代码可在 github.com/aiming-lab/... 获取。

LLaDA2.1: Speeding Up Text Diffusion via Token Editing

LLaDA2.1:通过 Token 编辑加速文本扩散

LLaDA2.0 虽已展示百亿参数级别块扩散模型的扩展潜力及其固有的并行化能力,但解码速度与生成质量之间的平衡始终是一个难以突破的挑战。如今,我们推出 LLaDA2.1,这是一次旨在突破这一权衡的范式转变。通过将 Token-to-Token (T2T) 编辑无缝集成到传统的 Mask-to-Token (M2T) 方案中,我们引入了一种联合、可配置的阈值解码方案。这一结构创新带来了两种不同的模式:迅捷模式 (S Mode),它激进地降低 M2T 阈值以突破传统限制,同时依靠 T2T 编辑来优化输出;以及质量模式 (Q Mode),它采用保守的阈值,在效率可控下降的前提下确保优异的基准测试性能。在此基础上,依托扩展的上下文窗口,我们实现了首个专为扩散大语言模型 (dLLMs) 定制的大规模强化学习 (RL) 框架,该框架以稳定梯度估计的专用技术为支撑。这一优化不仅提升了推理精度,也增强了指令遵循的忠实度,从而弥合了扩散动力学与复杂人类意图之间的差距。作为本项工作的成果,我们发布了 LLaDA2.1-Mini (16B) 和 LLaDA2.1-Flash (100B)。在 33 项严格的基准测试中,LLaDA2.1 均展现出强大的任务性能和极快的解码速度。尽管其参数量高达 100B,在代码任务上,它在 HumanEval+ 上取得了惊人的 892 TPS,在 BigCodeBench 上达到 801 TPS,在 LiveCodeBench 上达到 663 TPS。

Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making

Baichuan-M3:为可靠医疗决策建模临床问询过程

我们介绍了 Baichuan-M3,这是一个医学增强的大语言模型,旨在将模式从被动的问答转变为主动的、临床级的决策支持。针对现有系统在开放式咨询中的不足,Baichuan-M3 采用专门的训练流程,对医生的系统化工作流程进行建模。其关键能力包括:(i) 主动获取信息以消除歧义;(ii) 进行长程推理,将分散的证据整合成连贯的诊断;(iii) 自适应幻觉抑制以确保事实可靠性。实验评估表明,Baichuan-M3 在新推出的 HealthBench、HealthBench-Hallu 和 ScanBench 基准测试中取得了最先进的结果,在临床问询、咨询建议和安全性方面显著优于 GPT-5.2。模型已在 huggingface.co/collections... 公开提供。

AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

AudioSAE:利用稀疏自编码器理解音频处理模型

稀疏自编码器 (SAEs) 是解释神经表示的强大工具,但其在音频领域的应用尚待深入探索。我们在 Whisper 和 HuBERT 模型的所有编码器层上训练了 SAEs,并对其稳定性、可解释性及实际效用进行了全面评估。超过 50% 的特征在不同随机种子下保持稳定,且重建质量得以维持。SAE 特征不仅能捕获通用的声学与语义信息,还能捕捉特定事件(如环境噪声和副语言声音,例如笑声、耳语),并能有效地将其解耦,仅需移除 19-27% 的特征即可消除特定概念。通过特征引导,Whisper 的虚假语音检测减少了 70%,而词错误率 (WER) 的增加微乎其微,这证明了该方法的实际应用价值。最后,我们发现 SAE 特征与人类在语音感知过程中的脑电图 (EEG) 活动相关,表明其与人类神经处理过程具有一致性。代码和模型检查点可在 github.com/audiosae/au... 获取。

P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

P1-VL:弥合物理奥林匹克竞赛中视觉感知与科学推理的鸿沟

从符号操作迈向科学级推理,是大语言模型 (LLMs) 发展的一个关键前沿领域,而物理学因其能将抽象逻辑与物理现实紧密结合,成为检验这一能力的核心试金石。物理学要求模型必须遵循宇宙基本定律,保持物理一致性,这从根本上依赖于多模态感知能力,以便将抽象逻辑建立在现实基础之上。在奥林匹克竞赛层面,图表往往不是简单的辅助说明,而是问题构成的核心部分,其中包含了文本描述所缺失的关键约束条件,例如边界条件和空间对称性。为了弥合这种视觉与逻辑之间的鸿沟,我们推出了 P1-VL 系列模型,这是一个专为高级科学推理设计的开源视觉-语言模型 (VLM) 家族。我们的方法将课程强化学习(通过渐进式增加难度来稳定后训练过程)与智能体增强技术相结合,从而在推理阶段实现了迭代式的自我验证。在 HiPhO 基准测试(一个包含 2024-2025 年间 13 场考试的严格评估集)上,我们的旗舰模型 P1-VL-235B-A22B 成为首个在开源视觉-语言模型中达到最先进性能的模型,并取得了 12 项顶级成绩。我们的智能体增强系统在全球总排名中位列第二,仅次于 Gemini-3-Pro。除了物理学领域,P1-VL 还展现出卓越的科学推理能力和强大的泛化性,在多项 STEM 基准测试中均显著领先于其基础模型。通过开源 P1-VL,我们为迈向通用物理智能奠定了重要基础,旨在更好地将视觉感知与抽象物理定律对齐,从而助力机器科学发现。

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

OdysseyArena:面向长视野、主动与归纳交互的大语言模型基准测试

大语言模型 (LLMs) 的快速发展,推动了能够驾驭复杂环境的自主智能体 (AI Agent) 的发展。然而,现有的评估主要采用演绎方法,即智能体通常在有限的规划视野内,依据明确给定的规则和静态目标来执行任务。这种做法关键性地忽略了一个归纳层面的需求:智能体需要从经验中自主发现潜在的转换规律,而这正是实现其前瞻能力并保持战略连贯性的基石。为弥补这一不足,我们提出了 OdysseyArena,它将智能体评估的核心重新定位于长视野、主动且归纳式的交互。我们形式化并实例化了四个基本构建模块,将抽象的状态转换动态转化为具体的交互环境。基于此,我们构建了 OdysseyArena-Lite 用于标准化基准测试,它包含 120 项任务,用于衡量智能体的归纳效率与长视野发现能力。进一步地,我们推出了 OdysseyArena-Challenge,旨在通过极长的交互序列 (例如,> 200 步) 对智能体的稳定性进行压力测试。我们对超过 15 个领先的大语言模型进行了广泛实验,结果表明,即使是前沿模型在归纳场景中也存在明显缺陷,这揭示了在复杂环境中实现自主发现能力的一个关键瓶颈。我们的代码和数据可在 github.com/xufangzhi/O... 获取。

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

超越教师学习:通过奖励外推的广义同策略蒸馏

同策略蒸馏 (On-policy distillation, OPD) 旨在使学生模型在其自身生成的轨迹上与教师模型的 logit 分布对齐。该方法在提升学生模型性能方面已取得显著的实证效果,并且通常优于异策略蒸馏和强化学习 (Reinforcement Learning, RL) 范式。在本工作中,我们首先从理论上证明,OPD 是密集 KL 约束 RL 的一个特例,其中奖励函数和 KL 正则化总是被等权重处理,且参考模型可以是任意模型。基于此,我们提出了广义同策略蒸馏 (Generalized On-Policy Distillation, G-OPD) 框架。该框架通过引入一个灵活的参考模型和一个奖励缩放因子,扩展了标准的 OPD 目标,该因子用于控制奖励项相对于 KL 正则化的权重。通过在数学推理和代码生成任务上的全面实验,我们得出了两个新的见解:(1) 将奖励缩放因子设置为大于 1 (即进行奖励外推) ,我们称之为 ExOPD。在一系列不同规模的教师-学生模型组合中,ExOPD 始终优于标准 OPD。具体而言,在这样一个场景中:我们对同一学生模型应用特定领域的 RL 得到不同领域的专家模型,然后将这些专家的知识合并回原始学生模型。ExOPD 使学生模型甚至能够超越教师模型的性能上限,表现优于各个领域专家教师。(2) 在 ExOPD 的基础上,我们进一步发现,在强到弱的蒸馏设置中 (即从较大的教师模型蒸馏出较小的学生模型) ,若将教师模型在进行 RL 之前的基模型选作参考模型来进行奖励校正,则可以提供更准确的奖励信号,从而进一步提升蒸馏性能。然而,这种选择需要能够访问教师模型的 RL 前变体,并且会带来更高的计算开销。我们希望我们的工作能为未来 OPD 的研究提供新的见解。

GENIUS: Generative Fluid Intelligence Evaluation Suite

GENIUS: 生成式流体智能评估套件

统一多模态模型 (UMMs) 在视觉生成领域取得了显著进展。然而,现有基准测试主要评估的是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 晶体智力 \textit{晶体智力} </math>晶体智力,即依赖于回忆积累的知识和已习得图式的能力。这种侧重点忽视了 <math xmlns="http://www.w3.org/1998/Math/MathML"> 生成式流体智能 (GFI) \textit{生成式流体智能 (GFI)} </math>生成式流体智能 (GFI):即归纳模式、基于约束进行推理以及实时适应新情境的能力。为严格评估此项能力,我们提出了 <math xmlns="http://www.w3.org/1998/Math/MathML"> GENIUS \textbf{GENIUS} </math>GENIUS ( <math xmlns="http://www.w3.org/1998/Math/MathML"> GEN \textbf{GEN} </math>GEN Fluid <math xmlns="http://www.w3.org/1998/Math/MathML"> I \textbf{I} </math>Intelligence Eval <math xmlns="http://www.w3.org/1998/Math/MathML"> U \textbf{U} </math>Uation <math xmlns="http://www.w3.org/1998/Math/MathML"> S \textbf{S} </math>Suite)。我们将 <math xmlns="http://www.w3.org/1998/Math/MathML"> GFI \textit{GFI} </math>GFI 形式化为三种基本要素的综合体现,包括: <math xmlns="http://www.w3.org/1998/Math/MathML"> 归纳隐含模式 \textit{归纳隐含模式} </math>归纳隐含模式 (例如,推断个性化视觉偏好)、 <math xmlns="http://www.w3.org/1998/Math/MathML"> 执行临时约束 \textit{执行临时约束} </math>执行临时约束 (例如,可视化抽象隐喻) 以及 <math xmlns="http://www.w3.org/1998/Math/MathML"> 适应情境知识 \textit{适应情境知识} </math>适应情境知识 (例如,模拟反直觉物理现象)。这些要素共同要求模型解决完全基于即时上下文的问题。我们对12个代表性模型的系统评估表明,这些任务存在显著的性能缺陷。关键的是,我们的诊断分析剖析了这些失败模式,证明缺陷源于有限的情境理解能力,而非模型内在生成能力不足。为弥合此差距,我们提出了一种无需训练的注意力干预策略。最终, <math xmlns="http://www.w3.org/1998/Math/MathML"> GENIUS \textbf{GENIUS} </math>GENIUS 为 <math xmlns="http://www.w3.org/1998/Math/MathML"> GFI \textit{GFI} </math>GFI 确立了一个严格标准,推动该领域超越知识利用,迈向动态、通用的推理。我们的数据集和代码将在以下地址发布: <math xmlns="http://www.w3.org/1998/Math/MathML"> \href \href{https://github.com/arctanxarc/GENIUS}{https://github.com/arctanxarc/GENIUS} </math>\href。

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

RLinf-USER: 面向具身AI真实世界在线策略学习的统一可扩展系统

直接在物理世界中进行在线策略学习,是具身智能领域一个前景广阔但极具挑战的方向。与仿真环境不同,真实世界系统无法随意加速、低成本重置或大规模复制,这导致可扩展的数据采集、异构部署以及长时程高效训练困难重重。这些挑战表明,真实世界的策略学习不仅是一个算法问题,更本质上是一个系统工程问题。为此,我们提出了USER,一个面向真实世界在线策略学习的统一可扩展系统。USER通过统一的硬件抽象层,将物理机器人视为与GPU同等的一级硬件资源,实现了对异构机器人的自动发现、管理与调度。为应对云边通信挑战,USER引入了自适应通信平面,该平面整合了基于隧道的网络技术、用于流量本地化的分布式数据通道,以及流式多处理器感知的权重同步机制,以有效控制GPU侧的开销。在此基础设施之上,USER将学习过程组织为一个完全异步的框架,并配备持久化且缓存感知的缓冲区,从而支持高效的长时程实验,具备鲁棒的崩溃恢复能力并能复用历史数据。此外,USER为奖励函数、学习算法和策略模型提供了可扩展的抽象,支持在统一的流水线中,对CNN/MLP、生成式策略以及大型视觉-语言-动作 (VLA) 模型进行在线模仿学习或强化学习。仿真与真实世界的实验结果表明,USER能够实现多机器人协同、异构机械臂控制、支持大模型的边云协作以及长期异步训练,为真实世界的在线策略学习提供了一个统一且可扩展的系统基础。

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

论大语言模型强化微调中的熵动态

熵是衡量大语言模型 (LLMs) 生成输出多样性的关键指标,有助于深入理解其探索能力。尽管近期研究日益关注通过监控和调整熵来优化强化微调 (RFT) 中的探索与利用平衡,但对此过程中熵动态的原理性理解尚不充分。本文建立了一个理论框架来分析 RFT 过程中的熵动态。该框架从一个判别式出发,该式量化了单次 logit 更新下的熵变化。基于此,我们推导了熵变化的一阶表达式,并可将其进一步推广至组相对策略优化 (GRPO) 的更新公式。理论分析所得的推论与见解,不仅启发了新的熵控制方法设计,也为现有研究中各类基于熵的方法提供了一个统一的解释视角。我们提供了实证证据来支持分析的主要结论,并验证了所推导的熵判别器裁剪方法的有效性。本研究为理解 RFT 训练动态提供了新视角,并为优化 LLM 微调过程中的探索-利用平衡提供了理论依据和实用策略。

PhyCritic: Multimodal Critic Models for Physical AI

PhyCritic:面向物理 AI 的多模态评判模型

随着大语言模型(Large Multimodal Models, LMMs)的快速发展,可靠的评判模型已成为开放式评估和偏好对齐的关键,它们能为模型生成的响应提供成对偏好、数值评分及解释性理由。然而,现有的评判模型主要针对通用视觉领域(如图像描述或视觉问答)进行训练,而涉及感知、因果推理与规划的物理 AI 任务则尚未得到充分探索。本文提出了 PhyCritic,这是一个专为物理 AI 优化的多模态评判模型,其训练采用两阶段 RLVR(Reinforcement Learning from Video and Reasoning)流程:首先是一个物理技能预热阶段,旨在增强面向物理的感知与推理能力;随后是自参考评判微调阶段,在此阶段,评判模型会先自行生成预测作为内部参考,再对候选响应进行评判,从而提升判断的稳定性与物理合理性。在涵盖物理任务和通用任务的多模态评判基准测试中,PhyCritic 相比开源基线模型取得了显著的性能增益。此外,当将其作为策略模型应用时,PhyCritic 还能进一步提升物理基础任务中的感知与推理能力。

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

MOSS-Audio-Tokenizer:面向未来音频基础模型的规模化音频分词器

离散音频分词器是实现大语言模型具备原生音频处理与生成能力的关键。尽管近期取得了一些进展,但现有方法通常依赖于预训练编码器、语义蒸馏或基于异构CNN的架构。这些设计引入了固定的归纳偏置,从而限制了重建保真度并制约了有效的规模化。本文主张,离散音频分词应使用一种同构且可扩展的架构进行完全端到端的学习。为此,我们首先提出了CAT(基于Transformer的因果音频分词器),这是一种纯Transformer架构,它从头开始联合优化编码器、量化器和解码器,以实现高保真重建。在CAT架构的基础上,我们开发了MOSS-Audio-Tokenizer,这是一个具备16亿参数的大规模音频分词器,在300万小时多样化通用音频数据上进行了预训练。我们证明,这种由同构因果Transformer模块构建的简单、完全端到端的方法,具有良好的扩展性,并能支持跨不同音频领域的高保真重建。在语音、声音和音乐领域,MOSS-Audio-Tokenizer在广泛的比特率范围内始终优于先前的编解码器,并且随着模型规模的增大,其性能提升具有可预测性。值得注意的是,利用我们模型生成的离散Token,我们开发了首个纯自回归的TTS模型,其性能超越了先前的非自回归和级联系统。此外,MOSS-Audio-Tokenizer无需辅助编码器即可实现具有竞争力的ASR性能。我们的研究结果表明,CAT架构有望成为下一代原生音频基础模型的统一且可扩展的接口。

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

智能体世界模型:用于智能体强化学习的无限合成环境

大语言模型 (LLM) 的最新进展,使得自主智能体能够执行需要与工具及环境进行多轮交互的复杂任务。然而,由于缺乏多样且可靠的环境,此类智能体训练的规模化受到了限制。本文提出了智能体世界模型 (AWM),一个完全自动化的合成环境生成流水线。利用该流水线,我们生成了涵盖日常场景的 1,000 个环境。在这些环境中,智能体可与丰富的工具集(平均每个环境 35 个工具)交互,并获得高质量的观察结果。值得注意的是,这些环境由代码驱动并由数据库支持,相比由 LLM 模拟的环境,能提供更可靠、更一致的状态转换。此外,与从真实环境收集轨迹相比,它们能实现更高效的智能体交互。为验证该合成环境资源的有效性,我们对多轮工具使用智能体进行了大规模强化学习训练。得益于完全可执行的环境和可访问的数据库状态,我们还能设计出可靠的奖励函数。在三个基准测试上的实验表明,仅在 AWM 生成的合成环境中进行训练(而非在特定于基准测试的环境中训练),即可获得强大的分布外泛化能力。代码已开源:github.com/Snowflake-L...

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

GigaBrain-0.5M*: 一种通过基于世界模型的强化学习进行训练的 VLA

视觉-语言-动作 (Vision-language-action, VLA) 模型直接从当前观测预测多步动作序列,因其场景理解受限和未来预测能力较弱而存在固有局限。相比之下,在互联网规模视频数据上预训练的视频世界模型具备强大的时空推理和精准的未来预测能力,这为增强 VLA 学习提供了理想的基础。为此,我们提出了 \textit{GigaBrain-0.5M*},这是一种通过基于世界模型的强化学习训练的 VLA 模型。该模型基于 \textit{GigaBrain-0.5} 构建,后者已在超过 10,000 小时的机器人操作数据上完成预训练,其当前中间版本在国际 RoboChallenge 基准测试中排名第一。\textit{GigaBrain-0.5M*} 进一步通过 \textit{RAMP} (基于世界模型条件策略的强化学习) 方法整合了基于世界模型的强化学习,从而实现了鲁棒的跨任务适应能力。实验结果表明,与 RECAP 基线相比,\textit{RAMP} 带来了大幅的性能提升,在包括 \texttt{Laundry Folding}、\texttt{Box Packing} 和 \texttt{Espresso Preparation} 在内的多项挑战性任务上,性能提升约 30%。关键的是,\textit{GigaBrain-0.5M <math xmlns="http://www.w3.org/1998/Math/MathML"> ∗ ^* </math>∗} 展现出可靠的长时程执行能力,能够持续零失败地完成复杂的操作任务,这一点在我们 \href{gigabrain05m.github.io}{项目页面} 上发布的真实世界部署视频中得到了验证。

Towards Agentic Intelligence for Materials Science

迈向材料科学的智能体智能

人工智能与材料科学的融合带来了变革性的机遇,但要真正加速科学发现,必须超越那些任务孤立、经过微调的模型,转向能够在整个研发闭环中进行规划、行动和学习的 AI 智能体系统。本综述提出了一种独特的流程导向视角,该视角贯穿从语料库构建与预训练、领域适应与指令微调,到与模拟及实验平台交互的目标条件智能体的全过程。与以往的综述不同,我们将整个流程视为一个端到端的系统,其优化目标是获得具体的科学发现成果,而非替代性的性能基准。这一视角使我们能够追溯上游设计选择(例如数据整理和训练目标)如何通过有效的信用分配机制,与下游的实验成功对齐。为了弥合不同领域间的鸿沟并建立共同的参考框架,我们首先提出了一个统一的视角,以对齐人工智能和材料科学在术语、评估和工作流程阶段上的理解。接着,我们通过两个聚焦的视角来分析该领域:从人工智能的角度,本综述详述了大语言模型在模式识别、预测分析和自然语言处理方面的优势,及其在文献挖掘、材料表征和性能预测中的应用;从材料科学的角度,则重点介绍了在材料设计、工艺优化,以及通过与外部工具(例如,密度泛函理论 (DFT)、机器人实验室)集成来加速计算工作流等方面的应用。最后,我们将被动、反应式的方法与智能体设计进行对比,梳理了当前的研究贡献,并倡导发展那些具备自主性、记忆和工具使用能力、以追求长期目标为驱动的系统。本综述为旨在发现新颖实用材料、且具备安全意识的自主大语言模型智能体,绘制了一条实用的发展路线图。

相关推荐
小刘的大模型笔记2 小时前
向量数据库深度剖析:核心优劣势 + 适用场景,避开 RAG 落地的选型坑
数据库·人工智能·深度学习·机器学习
田里的水稻2 小时前
FA_融合和滤波(FF)-图优化
人工智能·算法·机器学习
yuanyuan2o22 小时前
Transformer 模型原理与实现
人工智能·深度学习·transformer
pps-key2 小时前
人工智能自我意识:理论框架、技术路径与哲学思辨
人工智能·计算机网络·安全·华为
syounger2 小时前
KPMG 升级为 SAP 全球战略服务伙伴:以“AI优先 + 云原生”交付可量化转型价值
人工智能
AI浩2 小时前
重新审视视觉Transformer中的[CLS]与Patch Token交互
人工智能·深度学习·transformer
Lun3866buzha2 小时前
基于Centernet改进模型的显微镜图像纤维形态分类识别系统 Hueco_medulada_no_medulada三种纤维类型检测
人工智能·分类·数据挖掘
宇擎智脑科技2 小时前
VibeSurf:开源AI智能浏览器助手的技术解析与实践指南
人工智能·浏览器插件·智能体
量子-Alex2 小时前
【大模型智能体】人工智能宇宙学家 I:自动数据分析的智能体系统
人工智能·数据挖掘·数据分析