s1: Simple test- time scaling
测试时间缩放是一种创新的语言建模方法,通过额外的计算资源提升模型性能。近期,OpenAI 的 o1 模型展示了这一技术潜力,但其具体实现细节尚未公开,引发了学术界的广泛关注和复现工作。 本研究旨在探索实现高效推理的最佳实践方案。首先,我们构建了一个高质量数据集 s1K,包含 1,000 个典型问题样本,每个样本都配备完整的推理轨迹。这些数据经过严格筛选,确保在难度、多样性和质量方面达到最优平衡。 在此基础上,我们提出了一种新型预算管理机制------预算强制算法。该方法通过动态调整计算资源,在模型生成过程中实现自动优化:当检测到模型输出接近完成时,系统会智能选择是继续推理还是终止过程,从而有效提升结果质量。 实验结果表明,采用这一改进方案后,模型在数学推理任务中的表现显著提升,在 MATH 和 AIME24 数据集上较 o1- preview 基线最高提升了 27%。进一步的扩展测试显示,通过优化预算管理策略,模型性能还可继续提升:AIME24 测试中准确率从 50% 提升至 57%。 该研究全部成果已开源发布,包括完整代码、数据集和实验配置,助力学术界共同推进相关研究工作。访问 github.com/simplescali... 即可获取全部资料。 本研究的成功表明,在保持计算效率的同时实现性能提升是完全可行的,为未来语言模型优化提供了新的思路和方法论参考。
Reward-Guided Speculative Decoding for Efficient LLM Reasoning
我们提出了一种名为Reward-Guided Speculative Decoding(RSD)的新颖框架,旨在提升大语言模型(LLMs)推理过程的效率。与现有方法强制执行严格无偏不同,RSD通过协同结合轻量级草稿模型和更强大的目标模型,并施加受控偏差以优先生成高奖励输出。RSD采用过程奖励机制评估中间解码步骤,并动态决定是否启动目标模型,从而在计算成本与输出质量之间实现优化平衡。理论上我们证明,基于阈值的混合方法能在资源利用率与性能之间达到最优平衡。
在包括高水平竞赛任务在内的多项具有挑战性的推理基准测试中进行的广泛评估表明,相较于仅使用目标模型解码,RSD实现了显著的效率提升(最多减少4.4倍浮点运算次数FLOPs),同时平均准确率优于并行解码法(最多提升+3.5)。这些结果凸显了RSD作为在资源密集型场景下部署LLMs的一种稳健且成本效益高的方法。
MatAnyone: Stable Video Matting with Consistent Memory Propagation
仅依赖输入帧的无辅助人类视频抠图方法,常常难以应对复杂或模糊的背景。为了解决这一问题,我们提出了MatAnyone,一个专为目标分配视频抠图设计的鲁棒框架。具体来说,基于记忆范式,我们引入了一种通过区域自适应记忆融合实现的一致性记忆传播模块,该模块自适应地整合前一帧的记忆。这确保了关键区域的语义稳定性,同时保留了目标边缘上的细粒度细节。为了实现稳健的训练,我们提供了一个更大、质量更高且多样化的视频抠图数据集。此外,我们还引入了一种新颖的训练策略,能够有效利用大规模分割数据,从而提升抠图的稳定性。借助这一全新的网络设计、数据集及训练策略,MatAnyone在各种实际场景中实现了鲁棒且准确的视频抠图结果,超越了现有方法。
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
OmniHuman-1: 对单阶段条件人类动画模型的扩展进行再思考
近年来,端到端的人类动画生成技术(如语音驱动的虚拟人类对话生成)取得了显著进展。然而,现有的方法仍难以像大型通用视频生成模型那样进行扩展,在实际应用中的潜力受到限制。本文中,我们提出了OmniHuman,一种基于扩散Transformer (Diffusion Transformer) 的框架,通过在训练阶段混合运动相关条件来实现数据的扩展。为此,我们引入了针对这些混合条件的两项训练原则,以及相应的模型架构和推理策略。这些设计使OmniHuman能够充分利用数据驱动的运动生成能力,最终实现了高度逼真的人类视频生成。
更重要的是,OmniHuman支持多种肖像内容(包括面部特写、全身肖像、半身及全身),不仅能够处理对话场景,还能应对歌唱场景,有效处理人与物的交互,并且能处理复杂的身体姿势,同时兼容不同图像风格。与现有的端到端语音驱动方法相比,OmniHuman不仅能生成更具现实感的视频,还提供了更大的输入灵活性。它还支持多种驱动模式(包括语音驱动、视频驱动以及组合驱动信号)。视频样本可在OmniHuman项目页面上找到:omnihuman-lab.github.io。
The Differences Between Direct Alignment Algorithms are a Blur
直接对齐算法(Direct Alignment Algorithms,DAAs)通过采用直接策略优化方法,取代强化学习(Reinforcement Learning, RL)和奖励建模(Reward Modeling, RM),从而简化了语言模型的对齐流程。这些算法可以根据其排序损失函数(pairwise与pointwise)、所使用的奖励类型(例如策略与参考策略的可能性比率或赔率比率),以及是否需要监督微调阶段(Supervised Fine-Tuning, SFT)进行分类(two-stage与one-stage)。研究发现,单阶段方法的表现劣于双阶段方法。为解决此问题,我们在单阶段的ORPO和ASFT中加入了明确的SFT阶段,并引入了beta参数以调控偏好优化的程度。这些改进使ORPO在Alpaca Eval 2中的性能提升了+3.46,ASFT则提升了+8.27,与双阶段方法如DPO相当。进一步分析表明,关键因素在于所采用的方法是pairwise还是pointwise目标,而非具体的隐式奖励或损失函数。这些结果强调了细致评估的重要性,以防止对性能提升或对齐算法整体优越性的过早断言。
Process Reinforcement through Implicit Rewards
密集的过程奖励已被证明在大型语言模型(LLMs)推理时间扩展中,比稀疏的结果级别奖励更有效,特别是在需要复杂多步推理的任务中。虽然密集奖励也为LLMs的强化学习(RL)提供了有吸引力的选择,因为它们细致入微的奖励有可能解决结果奖励的一些固有问题,如训练效率和信用分配,但这种潜力仍然大部分未实现。这主要归因于在线训练过程奖励模型(PRMs)所面临的挑战,其中收集高质量的过程标签成本高昂到难以承受,使它们特别容易遭受奖励欺骗问题的影响。
为了解决这些挑战,我们提出 PRIME (通过隐式奖励进行过程强化),它利用仅策略滚动和结果标签通过隐式过程奖励实现在线 PRM 更新。PRIME 与各种优势函数结合良好,并放弃了现有方法所需的专用奖励模型训练阶段,从而显著降低了开发成本。我们通过在竞赛级数学和编程任务中的展示证明了 PRIME 的有效性。
从 Qwen2.5-Math-7B-Base 开始,PRIME 在几个关键推理基准上比 SFT 模型平均提高了 15.1%。值得注意的是,我们的最终模型 Eurus-2-7B-PRIME 在七个推理基准上超过了 Qwen2.5-Math-7B-Instruct,仅使用了其训练数据的 10%。
Preference Leakage: A Contamination Problem in LLM-as-a-judge
大型语言模型 (LLMs) 作为评估工具以及基于 LLM 的数据合成,已成为模型开发中两种基本的 LLM 驱动数据标注方法。尽管这两种方法结合使用显著提升了模型训练和评估效率,但这种新兴的模型开发范式可能带来的污染问题却鲜受关注。在本研究中,我们揭示了偏好泄露 (Preference Leakage),这是由合成数据生成器与基于 LLM 的评估器之间的关联性所引发的 LLM 作为裁判时的污染问题。
为了探究此问题,我们首先定义了数据生成器 LLM 和评估器 LLM 之间的三种常见关联性:同为同一模型、存在继承关系以及属于同一模型家族。通过广泛实验,我们在多个 LLM 基线和基准测试中实证确认了因偏好泄露导致的裁判对相关学生模型的偏见。
进一步分析表明,偏好泄露是一个普遍存在的问题,相较于先前在 LLM 作为裁判场景中识别出的偏见,它更难被检测到。所有这些发现均表明,偏好泄露是在 LLM 作为裁判领域内一个广泛存在且具挑战性的问题。
我们已将所有代码和数据发布于:
github.com/David-Li040...
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding
将视觉特征与语言嵌入对齐是视觉-语言模型(VLMs)中的关键挑战。此类模型的性能取决于一个优秀的连接器,该连接器能够将视觉编码器生成的视觉特征映射到大型语言模型(LLM)共享的嵌入空间中,同时保留语义相似性。现有的连接器,如多层感知机(MLPs),常常产生分布外或噪声输入,导致模态之间的错位。在此工作中,我们提出了一种新颖的视觉-文本对齐方法,AlignVLM,它将视觉特征映射到LLM文本嵌入的加权平均值。我们的方法利用了LLM编码的语言先验知识,以确保视觉特征被映射到LLM能够有效解释的空间区域。对于文档理解任务,AlignVLM特别有效,其中扫描的文档图像必须准确地映射到其文本内容。我们广泛的实验表明,与先前的对齐方法相比,AlignVLM实现了最先进的性能。我们进一步分析展示了改进的视觉-文本特征对齐和对噪声的鲁棒性。
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Models
SafeRAG: 检索增强生成中大型语言模型的安全性基准测试
检索增强生成(Retrieval-Augmented Generation, RAG)的索引-检索-生成范式通过将外部知识整合到大型语言模型(LLMs)中,在解决知识密集型任务方面展现出了显著的成功。然而,这种范式也带来了安全风险,因为攻击者可以通过注入恶意知识来执行攻击任务。
本文中,我们引入了一个名为SafeRAG的基准测试框架,旨在全面评估RAG的安全性。首先,我们将攻击任务分类为四类:银噪声(Silver Noise)、跨上下文冲突(Cross-Contextual Conflict)、软广告(Soft Advertising)和白盒拒绝服务(White-Box Denial-of-Service)。其次,我们主要通过手动构造了针对每个任务的RAG安全评估数据集(即SafeRAG数据集)。
随后,我们利用这些数据集模拟并再现了RAG可能遇到的各种攻击场景。实验结果表明,在14个具有代表性的RAG组件上,该范式对所有攻击类型都表现出高度易受攻击的特点。值得注意的是,即使是那些看似最简单的攻击任务,也能轻松绕过现有的检索器、过滤器或高级LLMs,从而显著降低了RAG的性能。
本研究旨在为提升RAG系统的安全性提供基准参考。相关代码和数据集可从以下链接获取:github.com/IAAR-Shangh...。
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
VideoJAM:用于增强视频模型运动生成的联合外观-运动表示
尽管最近取得了巨大进展,生成式视频模型仍然难以捕捉现实世界的运动、动力学和物理现象。我们展示了这一限制源于传统的像素重建目标,这使模型偏向于以外观保真为代价的外观一致性。为了应对这一挑战,我们引入了VideoJAM框架,通过鼓励模型学习联合外观-运动表示来为视频生成器注入有效运动先验。
VideoJAM由两个互补单元组成。在训练过程中,我们将目标扩展为从单一学习表示中预测生成的像素及其对应运动。在推理阶段,我们引入Inner-Guidance机制,该机制通过利用模型自身演变的运动预测作为动态引导信号来引导生成趋向于连贯的运动。
值得注意的是,我们的框架可以在无需对训练数据进行修改或对模型进行扩展的情况下应用于任何视频模型。VideoJAM在运动连贯性方面实现了最先进性能,超越了极具竞争力的专有模型,同时提升了生成视频的感知视觉质量。
这些发现强调了外观和运动可以是互补的,并且当它们被有效地整合时,能够提升视频生成的视觉质量和连贯性。
项目网站:hila-chefer.github.io/videojam-pa...
Inverse Bridge Matching Distillation
学习扩散桥模型相对容易,但要使其快速且实用则是一门艺术。扩散桥模型(Diffusion Bridge Models, DBMs)是扩散模型在图像到图像翻译应用中的有前途扩展。然而,与许多现代扩散和流动模型一样,DBMs面临推理速度慢的问题。为了解决这一问题,我们提出了一种基于逆桥匹配公式的新蒸馏技术,并推导出可行的目标以实际解决它。
与之前开发的DBM蒸馏技术不同,所提出的方法可以蒸馏条件型(Conditional)和无条件型(Unconditional)的DBMs,在单步生成器中蒸馏模型,并且仅使用噪声图像进行训练。我们在广泛设置下评估我们的方法,包括超级分辨率、JPEG恢复、素描到图像和其他任务,结果表明我们的蒸馏技术使我们能够将DBMs的推理加速4倍到100倍,甚至在特定设置下提供比教师模型更好的生成质量。
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
SmolLM2:当小变大------小型语言模型的数据为中心训练
尽管大型语言模型在人工智能的众多应用领域中取得了重大突破,但其庞大的计算规模导致了高昂的资源消耗,并使其难以在资源受限的环境中有效部署。本文详细阐述了SmolLM2的研发历程,这是一个先进的"小型"(17亿参数)语言模型(LM)。为了实现卓越性能,我们采用了一种多阶段训练流程,在约1.1万亿个令牌的数据集上对SmolLM2进行了系统的训练优化。这一流程巧妙地将网络文本与专门的数学、代码以及遵循指令的数据相结合。
此外,针对现有数据集在特定阶段存在的明显不足(如规模过小或质量欠佳),我们开发并引入了新的专用数据集------FineMath、Stack-Edu和SmolTalk。为了确保设计决策的科学性,我们不仅实施了小型规模的消融实验,还建立了一套系统化的手动精炼流程。该流程依据前一阶段的表现评估结果,动态调整各阶段的数据集混合比例,从而实现训练过程的持续优化。
通过实验证明,SmolLM2在性能上显著超越了包括Qwen2.5-1.5B和Llama3.2-1B在内的近期小型语言模型。为了进一步推动语言模型开发领域的研究进展以及促进小型语言模型的实际应用,我们公开发布了SmolLM2模型及其相关数据集。这一开放举措旨在为学术界和工业界的研究人员提供宝贵的资源支持,共同探索语言模型发展的无限可能。
Demystifying Long Chain-of-Thought Reasoning in LLMs
增加推理计算资源增强了大型语言模型 (LLMs) 的推理能力,长链式推理过程 (CoTs) 实现了回溯和错误修正等策略。强化学习 (RL) 已经成为开发这些能力的关键方法,然而,长 CoT 出现的条件尚不明确,且 RL 训练需要谨慎的设计选择。在此研究中,我们系统性地探究了长 CoT 推理的机制,识别出促进模型生成长链式推理轨迹的关键因素。通过广泛的监督微调 (SFT) 和强化学习实验,我们得出了以下四项主要发现:(1) 虽然 SFT 并非绝对必要,但它简化了训练并提升了效率;(2) 推理能力往往随着训练计算量的增加而出现,但其发展并非必然,从而使得奖励塑造对于稳定 CoT 长度增长至关重要;(3) 构建可验证奖励信号的扩展对于 RL 至关重要。我们发现借助带有过滤机制的嘈杂网络提取解决方案展现出巨大潜力,特别是在处理 STEM 推理等出分布 (OOD) 任务时;(4) 基础模型中本就具备核心能力如错误修正,但通过 RL 有效激励这些技能以应对复杂任务需要大量计算投入,测量它们的出现则需采用细致入微的方法。这些见解为优化训练策略以增强 LLMs 中的长 CoT 推理提供了实用指导。我们的代码可在此获取:https://github. com/eddycmu/demystify-long-cot。
LIMO: Less is More for Reasoning
我们提出了一项重要发现,这一发现改变了人们对大型语言模型中复杂推理能力产生的认识。尽管普遍认为复杂的推理任务需要大量训练数据(>100,000个示例),但我们的研究证明,仅需少量的示例即可有效激发复杂的数学推理能力。通过全面的实验,我们提出的模型LIMO在数学推理方面展现了前所未有的性能。仅使用817个精选训练样本,LIMO在AIME竞赛中达到了57.1%的准确率,在MATH测试中则为94.8%,相较于之前基于SFT(Stable Fine-Tuning)的模型6.5%和59.2%的准确率有了显著提升,而所用的训练数据量仅为之前方法的1%。
此外,LIMO展现了卓越的分布外泛化能力,在10个多样化基准测试中实现了40.5%的绝对改进,超越了那些使用多100倍数据训练的模型,这一成果挑战了SFT导致记忆而非泛化的观点。基于这些研究成果,我们提出了"少即是多"推理假说(LIMO假说):在预训练过程中已全面编码领域知识的基础模型中,通过少量但精心编排的认知过程演示,即可涌现出复杂的推理能力。该假说认为,复杂推理能力的激发阈值由两个关键因素决定:(1) 模型在预训练阶段编码的知识基础的完整性;以及 (2) 后训练示例的有效性,作为"认知模板",向模型展示如何利用其知识库来解决复杂的推理任务。
为了促进研究可复制性和未来在数据高效推理领域的探索,我们发布了LIMO作为一个综合开源套件,地址为github.com/ GAIR-NLP/L...。
TwinMarket: A Scalable Behavioral and Social Simulation for Financial Markets
TwinMarket: 一个适用于金融市场的可扩展行为与社会模拟器
长期以来,社会科学的核心研究一直是社会现象的涌现。传统的建模方法,如基于规则的智能体基础模型(ABMs),在捕捉人类行为的多样性和复杂性方面,特别是行为经济学中强调的非理性因素时,一直力不从心。
最近,大型语言模型(LLM)智能体作为社会科学和角色扮演应用中模拟人类行为的工具得到了广泛认可。研究表明,LLMs能够解释认知偏差、情绪波动以及其他非理性影响,从而实现更真实的社会经济动态模拟。
在本研究中,我们介绍了TwinMarket,这是一个利用LLMs来模拟社会经济系统的新型多智能体框架。具体而言,我们探讨了个体行为如何通过交互和反馈机制产生集体动态和涌现现象。通过在一个模拟股票市场环境中的实验,我们展示了个体行动如何引发群体行为,并导致金融泡沫、衰退等涌现结果。
我们的方法为个人决策与集体社会经济模式之间的复杂相互作用提供了宝贵的见解。
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
我们提出了一种新方法,用于系统地绘制稀疏自编码器在大语言模型连续层中发现的特征,扩展了早期研究跨层特征链接的工作。通过采用一种无需数据的余弦相似度方法,我们追踪特定特征如何在每个阶段持续、转换或首次出现。此方法生成详细流动图表,展示特征演化过程,实现精细可解释性和对模型计算机制的深入见解。至关重要的是,我们展示了这些跨层特征图如何通过放大或抑制选定特征直接控制模型行为,从而实现文本生成中针对性的主题控制。综上所述,我们的研究发现凸显了基于因果关系的跨层可解释性框架的实用性,该框架不仅阐明了特征在正向传递中的发展过程,还提供了透明操作大语言模型的新途径。
Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
使用AlphaGeometry2在解决奥数几何题中取得金牌水平的表现
我们介绍了AlphaGeometry2,这是Trinh等人(2024年)提出的AlphaGeometry的重大改进版本。现在,它已超越普通金牌得主,在解决奥数几何问题方面表现出色。为实现这一目标,我们首先扩展了原始的AlphaGeometry语言,以应对涉及物体运动、以及包含角度线性方程、比例和距离的问题。这些改进,连同其他新增功能,显著提升了AlphaGeometry语言在2000年至2024年国际数学奥林匹克(IMO)几何问题上的覆盖率,从66%提升至88%。AlphaGeometry2的搜索过程也通过采用Gemini架构进行更好的语言建模,并结合一种新型的知识共享机制(将多个搜索树相结合)得到了极大改善。同时,对符号引擎和合成数据生成的进一步增强,使AlphaGeometry2在最近25年所有几何问题上的整体解决率显著提升至84%,而之前为54%。AlphaGeometry2也是在2024年IMO中达到银牌标准的系统的一部分dpmd.ai/imo-silver。最后但同样重要的是,我们报告了将AlphaGeometry2作为全自动系统一部分取得的进展,该系统能可靠地直接从自然语言输入解决几何问题。
ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
ConceptAttention: 扩散 Transformer 学习高度可解释的特征
多模态扩散transformers(DiTs)的丰富表示是否具有增强可解释性的独特特性?我们提出了 ConceptAttention,一种新颖的方法,它利用 DiT 注意力层的表现力生成高质量的关注图,从而精确定位图像中的文本概念。无需额外训练,ConceptAttention 重新利用了 DiT 注意力层的参数以生成高度上下文化的概念嵌入,并发现了一个重要结论:在 DiT 注意力层输出空间中执行线性投影,相比常见的交叉注意力机制,能够生成显著更清晰的关注图。值得注意的是,ConceptAttention 在零样本图像分割基准上达到了前沿性能,在 ImageNet-Segmentation 数据集和 PascalVOC 的单类子集中超越了其他 11 种零样本可解释性方法的表现。我们的研究提供了首个证据,表明像 Flux 这样的多模态 DiT 模型的表示能够高度迁移至分割等视觉任务,甚至优于像 CLIP 这样的多模态基础模型。
DynVFX: Augmenting Real Videos with Dynamic Content
我们提出了一种方法,能够利用全新生成的动态内容对真实世界的视频进行增强。给定一个输入视频和一段简短的用户文本指令来描述所需的内容,我们的方法可以合成动态物体或复杂的场景效果,这些对象或效果会随着时间推移自然地与现有场景发生交互。新增内容的位置、外观和运动会被无缝整合到原始画面中,并考虑到相机的运动、遮挡以及其他场景中的动态物体之间的相互作用,从而生成一个连贯且真实的输出视频。我们通过零样本无需训练的框架实现了这一点,该框架利用了一个预训练的文本到视频扩散Transformer来合成新内容,并借助一个预训练的视觉语言模型来构想增强后的场景。具体来说,我们引入了一种基于推理的新方法,它能够操作注意力机制内的特征,从而实现新增内容的精确定位和无缝整合,同时保持原始场景的完整性。我们的方法是全自动化的,仅需用户提供简单的指令即可。我们在应用于真实世界视频的各种编辑中展示了其有效性,涵盖了多种物体和涉及相机与物体运动的不同场景。