Kuwain 1.5B: An Arabic SLM via Language Injection
Kuwain 1.5B:通过语言注入(Language Injection)构建的阿拉伯语小型语言模型(Small Language Model)
增强现有模型的新知识能力是 AI 开发的核心课题。本文提出了一种大语言模型 (LLM) 的新语言集成方法,成功将未知目标语言融入现有 LLM 且保持其既有知识完整性。通过向以英语训练为主的小型开源模型注入阿拉伯语,我们训练出参数量为 1.5B 的 Kuwain 模型。该方法使阿拉伯语性能在各基准测试中平均提升 8%,同时仅需最少量的原始模型数据即可维持既有知识。这为英阿双语综合模型训练提供了更经济的替代方案。实验结果证明,无需大规模重训练或消耗大量资源,即可实现高效的定向语言模型扩展。
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
基于可验证奖励的强化学习 (RLVR) 近期在提升大语言模型推理能力方面取得显著成效,尤其在数学和编程任务中。普遍认为 RLVR 能使大语言模型持续自我改进,从而获得超越基础模型的新型推理能力。但本研究通过测量大 \textit{k} 值下的 pass@\textit{k} 指标,批判性地重新检验了这一假设,以探索不同模型家族和基准测试中的推理能力边界。出乎意料的是,强化学习实际上并未催生根本性的新推理模式。虽然 RL 训练模型在较小 <math xmlns="http://www.w3.org/1998/Math/MathML"> k k </math>k 值 (如 <math xmlns="http://www.w3.org/1998/Math/MathML"> k k </math>k=1) 下优于基础模型,但在大 <math xmlns="http://www.w3.org/1998/Math/MathML"> k k </math>k 值下,基础模型的 pass@ <math xmlns="http://www.w3.org/1998/Math/MathML"> k k </math>k 分数可达到甚至超过 RL 训练模型。RL 训练模型生成的推理路径已包含在基础模型的采样分布中,这表明 RL 训练模型展现的多数推理能力已由基础模型具备。进一步分析表明,RL 训练通过使模型输出分布偏向高奖励路径来提升性能,从而更高效地生成正确答案,但其推理能力边界比基础模型更窄。在视觉推理任务中同样观察到类似现象。此外,我们发现蒸馏能真正为模型引入新知识,这与 RLVR 存在本质差异。这些发现揭示了 RLVR 在提升大语言模型推理能力方面的关键局限,促使我们从根本上重新思考强化学习对推理型大语言模型的影响,以及开发新范式的必要性。项目页面:limit-of-RLVR.github.io
TTRL: Test-Time Reinforcement Learning
本文针对大语言模型(LLMs)的推理任务,研究了在无显式标注数据上进行强化学习(RL)的方法。该问题的核心挑战在于缺乏真实标注信息情况下的推理阶段奖励估计。尽管这一设定具有挑战性,我们发现测试时缩放(TTS)中的常规方法(如多数投票)能够产生非常有效的奖励信号,足以驱动RL训练。本研究提出测试时强化学习(TTRL),这是一种利用无标注数据通过RL训练优化LLMs的新方法。TTRL通过利用预训练模型中的先验知识,实现了语言模型的自主优化。实验结果表明,TTRL在多种任务和模型上均能持续提升性能。特别地,在仅使用无标注测试数据的情况下,TTRL使Qwen-2.5-Math-7B在AIME 2024上的pass@1性能提升了约159%。此外,虽然TTRL仅采用Maj@N作为监督指标,但其性能不仅稳定超越初始模型上限,还逼近了使用带真实标注测试数据直接训练的模型水平。实验数据证实了TTRL在不同任务中的通用有效性,展现了该方法在更广泛任务领域中的应用前景。GitHub: github.com/PRIME-RL/TT...
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
尽管机器学习研究发展迅速,但相应的代码实现往往缺失,导致研究人员复现结果和延续前人工作时效率低下且耗时费力。与此同时,最新的大语言模型 (LLM) 在科学文献理解和高质量代码生成方面表现优异。基于此,我们提出 PaperCoder------一个多智能体 LLM 框架,可将机器学习论文转化为可运行的代码仓库。PaperCoder 的工作流程分为三个阶段:规划阶段构建高层级开发路线图,设计带架构图的系统方案,识别文件依赖关系并生成配置文件;分析阶段重点解析实现细节;生成阶段则产出模块化且具备依赖管理能力的代码。每个阶段均由一组专门设计的协作智能体实现。我们通过模型评估和人工评估(特别邀请原论文作者参与)对 PaperCoder 进行测试,并以作者开源仓库(如有)作为基准真值。实验结果表明,PaperCoder 能够生成高质量且忠实于原论文的代码实现。此外,在最新发布的 PaperBench 基准测试中,该系统表现优异,显著超越了现有强基线模型。
Learning to Reason under Off-Policy Guidance
大规模推理模型 (LRMs) 的最新研究表明,通过基于简单规则的奖励进行强化学习 (RL),可以产生多步推理和自我反思等复杂行为。然而,现有的零样本强化学习 (zero-shot RL) 方法本质上是同策略 (on-policy) 的,将学习限制在模型自身的输出范围内,无法获得超出其初始能力的推理能力。我们提出了 LUFFY (Learning to reason Under oFF-policY guidance),一个通过异策略 (off-policy) 推理轨迹增强零样本强化学习的框架。LUFFY 在训练过程中通过结合异策略示范和同策略展开,动态平衡模仿和探索。值得注意的是,我们提出了通过正则化重要性采样进行策略调整,以避免混合策略训练期间的浅层和刻板的模仿。实验结果显示,LUFFY 在六个数学基准测试中平均获得了超过 +7.0 的提升,在分布外 (out-of-distribution) 任务中获得了超过 +6.2 的优势。它还显著超越了基于模仿的监督式微调 (SFT),特别是在泛化能力方面。分析表明,LUFFY 不仅能有效模仿,还能超越示范进行探索,为训练具有异策略指导的可泛化推理模型提供了一条可扩展的路径。
Step1X-Edit: A Practical Framework for General Image Editing
近年来,图像编辑模型发展迅猛且成果显著。随着 GPT-4o 和 Gemini2 Flash 等前沿多模态模型的发布,业界涌现出极具潜力的图像编辑能力。这些模型展现出优异的适应性,能够满足绝大多数用户驱动的编辑需求,推动了图像处理技术的重大突破。然而,当前开源算法与这些闭源模型之间仍存在显著性能差距。为此,本文提出了一种前沿图像编辑模型 Step1X-Edit,其性能可媲美 GPT-4o 和 Gemini2 Flash 等闭源模型。具体实现上,我们采用多模态大语言模型处理参考图像和用户编辑指令,通过提取潜在嵌入特征并与扩散图像解码器融合,最终生成目标图像。在模型训练方面,我们构建了高质量的数据生成流水线。为评估模型性能,我们开发了 GEdit-Bench 基准测试,该基准深度植根于真实用户指令场景。实验结果表明,Step1X-Edit 在 GEdit-Bench 上显著超越现有开源基线模型,性能接近领先的商业模型,为图像编辑领域做出了重要贡献。
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
VisuLogic------评估多模态大语言模型视觉推理能力的基准
视觉推理是人类智能的核心能力,也是高级多模态模型的关键特性。然而当前针对多模态大语言模型(MLLMs)的推理评估往往依赖文本描述,允许基于语言的推理捷径,难以真实反映其视觉中心的推理能力。为此,我们提出VisuLogic基准:包含六大类别(如数量变化、空间关系、属性比较)共1,000个人工验证问题。这些多样化问题能够多维度评估MLLMs的视觉推理能力。我们对主流MLLMs进行基准测试并分析结果,识别出常见错误模式。大多数模型准确率不足30%(仅略高于25%的随机基线),远低于人类51.4%的表现,凸显出视觉推理能力的重大缺陷。此外,我们还提供了补充训练数据集和强化学习基线方案,以推动该领域发展。
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
我们推出Eagle 2.5系列前沿视觉语言模型(Vision-Language Models, VLMs),专注于长上下文多模态学习。该研究攻克了长视频理解和高分辨率图像解析的难题,提出适用于这两类任务的通用框架。该训练框架整合了自动降级采样(Automatic Degrade Sampling)和图像区域保留(Image Area Preservation)两项核心技术,有效保持上下文完整性与视觉细节。同时,针对长上下文数据训练流程进行了多项效率优化。我们还发布了Eagle-Video-110K数据集,该数据集同时包含故事级和片段级标注,有力支撑长视频理解任务。Eagle 2.5在长上下文多模态基准测试中展现出显著性能提升,有效解决了现有VLM的局限性。特别指出,我们的最佳模型Eagle 2.5-8B在512帧输入下,Video-MME指标达到72.4%,性能媲美GPT-4o等顶级商业模型以及Qwen2.5-VL-72B、InternVL2.5-78B等大规模开源模型。
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
随着大语言模型 (LLMs) 的语言能力不断提升,全面可靠的多语言评估对于推动公平的技术进步至关重要。本文通过分析2021至2024年间来自148个国家的2000余项多语言(非英语)基准测试,系统梳理了多语言评估实践的过去、现状与未来趋势。研究发现,尽管投入了数千万美元的资金,英语在这些基准测试中的占比仍然显著偏高。此外,大多数基准测试采用原始语言内容而非翻译数据,且主要来自资源丰富的国家(如中国、印度、德国、英国和美国)。通过对比基准测试结果与人类评估数据,我们发现:STEM相关任务与人类评价具有较强相关性(0.70-0.85),而问答等传统NLP任务(如XQuAD)的相关性则较弱(0.11-0.30)。更重要的是,直接将英语基准测试翻译为其他语言效果有限------本地化设计的基准测试与当地人类评估结果的一致性(0.68)显著高于翻译版本(0.47),这凸显了构建文化语言适配的本地化基准测试的重要性。基于全面分析,我们总结了当前多语言评估实践的六大局限,提出了相应的基准测试设计原则,并指明了该领域的五个重点研究方向。最后,我们呼吁全球合作开发以实际应用为导向、符合人类评估标准的多语言基准测试。
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
主题驱动文本到图像 (T2I) 生成技术旨在生成符合给定文本描述的图像,同时保持参考主题图像的视觉特征。尽管其应用场景广泛 (包括图像生成的个性化增强、视频渲染中的角色一致性表现等),该领域的发展仍受限于缺乏可靠的自动化评估方法。现有方法通常存在以下局限:仅评估单一维度 (文本对齐性或主题保持性)、与人类评判标准存在偏差,或依赖高成本的 API 评估服务。为此,我们提出 RefVNLI------一种高效评估指标,可通过单次推理同时衡量文本对齐性和主题保持性。该指标基于视频推理基准和图像扰动数据构建的大规模数据集训练,在多个测试基准和主题类别 (如《动物》《物体》) 上的表现均优于或持平现有基线,其中文本对齐性最高提升 6.4 个百分点,主题一致性最高提升 8.5 个百分点。对于长尾概念,RefVNLI 同样表现优异,其评估结果与人类偏好的吻合度超过 87%。
Describe Anything: Detailed Localized Image and Video Captioning
为图像和视频中的特定区域生成精细准确的描述,始终是视觉语言模型面临的核心挑战。我们提出描述万物模型(DAM),该模型专为精细化局部描述(DLC)设计,通过两项关键创新同时保留了局部细节和全局上下文:(1) 焦点提示(focal prompt)确保目标区域的高分辨率编码;(2) 局部视觉主干(localized vision backbone)实现精确定位与全局上下文的融合。针对高质量DLC数据稀缺的问题,我们开发了基于半监督学习(SSL)的数据处理流程DLC-SDP,该流程从现有分割数据集出发,利用SSL扩展至未标注的网络图像。我们还提出了DLC-Bench基准测试,无需参考描述即可评估DLC性能。DAM在7个基准测试上刷新了最优结果,涵盖关键词级、短语级以及多语句精细化局部图像与视频描述任务。