GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
随着语言模型能力日益增强,用户不仅期望其提供准确的响应,还希望它们能在多样化的场景中表现出符合不同人类偏好的行为。为此,强化学习 (RL) 训练框架已开始整合多个奖励信号,每个奖励对应一种特定偏好,以引导模型产生这些期望行为。然而,近期研究默认在多奖励设置下直接采用组相对策略优化 (GRPO),而未深入探究其适用性。本文证明,直接应用GRPO对不同rollout奖励组合进行归一化,会导致这些组合的优势值坍缩为相同数值,从而降低训练信号的分辨率,导致收敛结果次优,甚至在部分情况下引发早期训练失败。为此,我们提出了组奖励解耦归一化策略优化 (GDPO)。这一新策略优化方法通过解耦各奖励的归一化过程,解决了上述问题,能更真实地保留奖励间的相对差异,从而实现更精确的多奖励优化,并大幅提升训练稳定性。我们在工具调用、数学推理和代码推理三个任务上对比了GDPO与GRPO,评估了包括正确性指标(准确率、错误率)和约束遵循指标(格式、长度)。在所有实验设置下,GDPO均一致优于GRPO,证明了其在多奖励强化学习优化中的有效性和泛化能力。
NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
NeoVerse: 利用真实世界单目视频增强 4D 世界模型
本文提出 NeoVerse,一个多功能 4D 世界模型,能够执行 4D 重建、新视角轨迹视频生成以及丰富的下游任务。我们首先指出,当前 4D 世界建模方法普遍存在可扩展性局限,其根源在于依赖昂贵且专用的多视图 4D 数据,或训练预处理流程繁琐。相比之下,NeoVerse 基于一个核心设计理念,使得整个流程能够轻松扩展至多样化的真实世界单目视频。具体而言,NeoVerse 具备免姿态前馈 4D 重建、在线单目退化模式模拟以及其他协调一致的技术。这些设计使 NeoVerse 具备了多功能性以及对多种领域的泛化能力。同时,NeoVerse 在标准重建与生成基准测试中取得了最先进的性能。项目页面详见 neoverse-4d.github.io。
Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization
Youtu-Agent: 通过自动化生成与混合策略优化提升智能体生产力
现有的大语言模型 (LLM) 智能体框架面临两大挑战:配置成本高昂与能力固化。构建高质量智能体通常需要在工具集成和提示工程上投入大量人工,而已部署的智能体若不进行代价高昂的微调,则难以适应动态环境。为解决这些问题,我们提出了 Youtu-Agent ,这是一个专为 LLM 智能体自动化生成与持续进化设计的模块化框架。Youtu-Agent 具备结构化配置系统,实现了执行环境、工具包与上下文管理的解耦,从而支持灵活复用与自动化组装。我们引入了两种生成范式:面向标准任务的 工作流 模式,以及面向复杂、非规范化需求的 元智能体 模式,后者能够自动生成工具代码、提示词及配置。此外,Youtu-Agent 构建了一套混合策略优化系统:(1) 智能体实践 模块,使智能体能够通过上下文内优化积累经验、提升性能,且无需更新模型参数;(2) 智能体强化学习 模块,可与分布式训练框架集成,支持以端到端、大规模的方式对任意 Youtu-Agent 进行可扩展且稳定的强化学习。实验表明,使用开源权重模型时,Youtu-Agent 在 WebWalkerQA (71.47%) 和 GAIA (72.8%) 基准上取得了领先性能。我们的自动化生成流程工具合成成功率超过 81%,而实践模块在 AIME 2024 和 2025 上分别将性能提升了 2.7% 和 5.4%。此外,我们的智能体强化学习训练在 7B 参数规模的 LLM 上实现了 40% 的加速,同时性能持续稳定提升,在数学及通用/多跳问答基准测试中,编码/推理与搜索能力分别最高提升了 35% 和 21%。
InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields
InfiniDepth: 基于神经隐式场的任意分辨率细粒度深度估计
现有的深度估计方法本质上受限于在离散的图像网格上预测深度。这种表示形式限制了其向任意输出分辨率的扩展能力,并影响了几何细节的还原。本文提出了 InfiniDepth,该方法将深度表示为神经隐式场。通过一个简单而有效的局部隐式解码器,我们可以在连续的二维坐标处查询深度值,从而实现任意分辨率下的细粒度深度估计。为了更全面地评估本方法的性能,我们从五款不同的游戏中构建了一个高质量的 4K 合成基准数据集,该数据集涵盖了具有丰富几何与外观细节的多样化场景。大量实验表明,无论是在合成数据还是真实世界数据的基准测试上,InfiniDepth 在相对深度估计和度量深度估计任务中均达到了最先进的性能,尤其在精细细节区域的表现尤为突出。此外,该方法也能显著提升大视角变化下新视图合成任务的效果,所生成的结果质量更高,且空洞和伪影更少。
LTX-2: Efficient Joint Audio-Visual Foundation Model
当前的文本到视频扩散模型虽能生成高质量的视频序列,但通常是无声的,缺乏音频所能提供的语义、情感及氛围线索。为此,我们提出了 LTX-2,这是一个开源的基础模型,能够以统一的方式生成高质量且时间同步的视听内容。LTX-2 采用非对称双流 Transformer 架构,其中视频流包含 140 亿参数,音频流包含 50 亿参数。两个流通过双向视听交叉注意力层进行耦合,该层包含时间位置嵌入以及用于共享时间步条件化的跨模态 AdaLN。此架构不仅实现了统一视听模型的高效训练与推理,还为视频生成分配了比音频生成更多的模型容量。
我们采用了多语言文本编码器,以支持对更广泛提示词的理解,并引入了一种模态感知的无分类器引导机制,从而提升了视听对齐效果与可控性。除了生成语音,LTX-2 还能生成丰富、连贯的音频轨道,这些音频能够贴合每个场景的角色、环境、风格与情感,并包含自然的背景音和拟音效果。在我们的评估中,该模型在开源系统中实现了最先进的视听质量与提示跟随性,同时仅需专有模型一小部分的计算成本和推理时间,便能达到与之相当的效果。所有模型权重和代码均已开源发布。
Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting
监督微调 (Supervised Fine-Tuning, SFT) 是领域适应的标准范式,但它常常以灾难性遗忘为代价。与此形成鲜明对比的是,基于策略的强化学习 (Reinforcement Learning, RL) 能有效保留模型的通用能力。我们探究了这种差异,并发现了一个根本性的分布不匹配问题:RL 与模型的内在信念保持一致,而 SFT 则迫使模型拟合外部监督信号。这种不匹配通常表现为一种"自信冲突" (Confident Conflicts) 的 Token,其特征是预测概率低但熵值也低。在这种情况下,模型对其自身预测高度自信,却被迫学习与之相悖的真实标签,从而引发破坏性的梯度更新。为解决此问题,我们提出了熵自适应微调 (Entropy-Adaptive Fine-Tuning, EAFT)。与仅依赖预测概率的方法不同,EAFT 利用 Token 级别的熵作为门控机制,以区分认知不确定性和知识冲突。这使得模型能够从不确定的样本中学习,同时抑制来自冲突数据的梯度。我们在数学、医学和 AI 智能体领域,对 Qwen 和 GLM 系列模型 (参数规模从 4B 到 32B) 进行了广泛实验,结果证实了我们的假设。EAFT 在始终达到与标准 SFT 相当的下游任务性能的同时,显著缓解了通用能力的衰退。
K-EXAONE Technical Report
本技术报告介绍了 K-EXAONE,这是一个由 LG AI Research 开发的大规模多语言大语言模型。K-EXAONE 基于专家混合 (Mixture-of-Experts, MoE) 架构构建,总参数量为 236B,推理时激活参数量为 23B。它支持 256K Token 的上下文窗口,并涵盖六种语言:韩语、英语、西班牙语、德语、日语和越南语。我们在一个涵盖推理、智能体能力、通用能力、韩语能力及多语言能力的综合基准测试套件上对 K-EXAONE 进行了评估。在这些评估中,K-EXAONE 展现出了与同类规模的开源模型相当的性能。K-EXAONE 旨在通过推进人工智能技术来创造更美好的生活,其定位是一个强大的闭源 AI 基础模型,适用于广泛的工业与科研应用。
Evolving Programmatic Skill Networks
我们研究在开放域具身环境中持续的技能获取问题,智能体需要构建、优化并重用其不断增长的可执行技能库。我们提出了程序化技能网络(PSN),该框架中的技能是可执行的符号程序,它们构成一个组合网络,并通过经验不断演化。PSN 定义了三个由大语言模型实例化的核心机制:(1) 用于对技能组合进行结构化故障定位的 REFLECT,(2) 具备成熟度感知更新门控的渐进式优化,该机制能稳定可靠技能,同时为不确定技能保持可塑性,以及 (3) 在回滚验证下的规范结构重构,以维持网络紧凑性。我们进一步指出,PSN 的学习动态在结构上与神经网络训练存在相似性。在 MineDojo 和 Crafter 环境上的实验表明,该方法在开放域任务分布上具有强大的技能重用能力、快速适应能力和优异的泛化性能。\footnote{我们计划开源代码。
Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits
大语言模型 (LLMs) 能够生成流畅且复杂的输出,但常常无法识别自身的错误和幻觉。现有方法通常依赖于外部评判器、多样本一致性或基于文本的自我批判,这些方法要么会产生额外的计算开销,要么与真实正确性的关联较弱。我们探讨一个问题:大语言模型能否通过检查推理过程中的内部状态来预测自身的失败?我们提出了 Gnosis,一种轻量级的自我感知机制,它使参数冻结的 LLMs 能够通过解码其隐藏状态和注意力模式的信号,进行内在的自我验证。Gnosis 被动地观察内部轨迹,将其压缩为固定资源占用的描述符,并以极低的推理开销预测正确性,仅增加约 500 万个参数,且其运行与序列长度无关。在数学推理、开放域问答和学术知识基准测试中,在参数规模从 17 亿到 200 亿不等的多个冻结骨干模型上,Gnosis 在准确性和校准度方面均持续优于性能强劲的内部基线模型和规模庞大的外部评判器。此外,它能够零样本泛化到部分(不完整)的生成结果,从而实现对失败生成路径的早期检测,并进行计算感知的控制。这些结果表明,可靠的正确性线索本就存在于生成过程之中,无需外部监督即可高效提取。
NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation
我们提出了 NextFlow,这是一个统一的仅解码器自回归 Transformer 模型,在 6 万亿交织的文本-图像离散 Token 上训练而成。通过在统一的自回归架构内利用统一的视觉表示,NextFlow 原生具备了多模态理解与生成能力,实现了图像编辑、交织内容生成以及视频生成等功能。鉴于不同模态的本质差异------文本具有严格的顺序性,而图像则具有内在的层次性------我们为文本保留了下一 Token 预测,但对视觉生成采用了下一尺度预测。这有别于传统的光栅扫描方法,使得生成 1024x1024 分辨率图像仅需 5 秒,比同类自回归 (AR) 模型快数个数量级。我们通过一套稳健的训练方案解决了多尺度生成的不稳定性问题。此外,我们还引入了一种用于强化学习的前缀调优 (prefix-tuning) 策略。实验表明,NextFlow 在统一模型中取得了最先进的性能,并且在视觉质量上可与专门的扩散 (diffusion) 基线模型相匹敌。
MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization
MOSS Transcribe Diarize: 带说话人角色分离的精准转录
带说话人角色和时间戳的转录 (Speaker-Attributed, Time-Stamped Transcription, SATS) 旨在转录语音内容,并精确确定每位说话人的发言时间点,这对于会议转录尤其有价值。现有的 SATS 系统很少采用端到端方案,并且普遍存在上下文窗口有限、长距离说话人记忆能力弱以及无法输出时间戳等局限。为了克服这些不足,我们提出了 MOSS Transcribe Diarize,这是一个统一的多模态大语言模型,能够以端到端的方式联合完成带说话人角色和时间戳的转录。该模型在大量真实场景数据上进行训练,并配备了可处理长达 90 分钟音频输入的 128k 上下文窗口,因此具有良好的可扩展性和强大的泛化能力。在全面的评估中,它在多个公开及内部基准测试上的表现均优于当前最先进的商业系统。
Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation
Avatar Forcing:面向自然对话的实时交互式头部数字人生成
说话头生成技术旨在从静态肖像中创建逼真的数字人 (Avatar) ,以用于虚拟交流与内容创作。然而,现有模型尚无法营造出真正交互式交流的体验,其生成的响应往往是单向的,缺乏情感参与感。我们为实现真正交互式的数字人,识别出两个关键挑战:一是在因果约束条件下实时生成运动;二是在无需额外标注数据的情况下,学习富有表现力且鲜活自然的反应。为应对这些挑战,我们提出了 Avatar Forcing,这是一个用于交互式头部数字人生成的新框架,它通过扩散驱动 (Diffusion Forcing) 对实时用户-数字人交互进行建模。该设计使得数字人能够以低延迟处理实时多模态输入(包括用户的音频和动作),从而对语音、点头、笑声等言语与非言语线索做出即时反应。此外,我们引入了一种直接偏好优化方法,该方法利用通过丢弃用户条件构建的合成负样本,实现了对富有表现力交互的无标签学习。实验结果表明,我们的框架能够实现低延迟(约500毫秒)的实时交互,相比基线模型获得了6.8倍的加速,并生成了反应灵敏且富有表现力的数字人运动,在超过80%的评估中优于基线模型。
Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
抑制幻觉:通过反事实视频生成增强 MLLMs 的视频理解能力
多模态大语言模型 (Multimodal Large Language Models, MLLMs) 在视频理解方面取得了显著进展。然而,它们存在一个关键缺陷:过度依赖语言先验,这可能导致视觉上无根据的幻觉,尤其是在处理违背常识的反事实视频时。这一局限源于文本与视频之间固有的数据不平衡,而由于收集和标注反事实数据成本高昂,该问题难以解决。为此,我们提出了 DualityForge,一个新颖的反事实数据合成框架。该框架利用可控的、基于扩散模型的视频编辑技术,将真实世界视频转化为反事实场景。通过将结构化的上下文信息嵌入视频编辑和问答生成过程,该框架能自动生成高质量的问答对以及用于对比训练的原始视频与编辑后视频配对。基于此,我们构建了 DualityVidQA,一个旨在减少 MLLM 幻觉的大规模视频数据集。此外,为充分利用配对数据的对比特性,我们提出了 Duality 归一化优势训练 (Duality-Normalized Advantage Training, DNA-Train)。这是一个两阶段的 SFT-RL 训练机制,其中强化学习阶段应用了成对的 <math xmlns="http://www.w3.org/1998/Math/MathML"> ℓ 1 \ell_1 </math>ℓ1 优势归一化,从而实现更稳定、高效的策略优化。在 DualityVidQA-Test 上的实验表明,我们的方法能显著降低模型在反事实视频上的幻觉,相比 Qwen2.5-VL-7B 基线获得了 24.0% 的相对提升。此外,我们的方法在幻觉评测和通用基准测试上均取得了显著进步,显示出强大的泛化能力。我们将开源数据集和代码。
Recursive Language Models
我们从推理时扩展的角度,研究如何让大语言模型 (LLMs) 能够处理任意长度的提示。我们提出了递归语言模型 (RLMs),这是一种通用的推理策略。它将长提示视为外部环境的一部分,使大语言模型能够以编程方式对提示片段进行检查、分解,并递归地调用自身进行处理。我们发现,在四个不同的长上下文任务中,RLMs 能够成功处理长度超出模型原始上下文窗口两个数量级的输入。并且,即使是对于较短的提示,其输出质量也显著优于基础大语言模型和常见的长上下文扩展框架,同时每次查询的成本与之相当(甚至更低)。
DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer
DreamID-V:通过扩散 Transformer 弥合图像到视频鸿沟以实现高保真人脸交换
视频人脸交换 (VFS) 旨在将源身份无缝注入目标视频,同时精确保持原始的姿态、表情、光照、背景及动态信息。现有方法在维持时序一致性的同时,往往难以兼顾身份相似度与属性保留。为应对这一挑战,我们提出了一个综合性框架,旨在将图像人脸交换 (IFS) 的优势无缝迁移至视频领域。我们首先引入了一种新颖的数据流水线 SyncID-Pipe,它预训练了一个身份锚定视频合成器,并将其与 IFS 模型相结合,构建用于显式监督的双向 ID 四元组。基于此配对数据,我们提出了首个基于扩散 Transformer 的框架 DreamID-V,其核心是一个模态感知条件模块,用于区分性地注入多模态条件。同时,我们提出了一种合成到真实的课程学习机制以及一种身份一致性强化学习策略,以提升在复杂场景下的视觉真实感与身份一致性。针对现有基准测试有限的问题,我们引入了 IDBench-V,这是一个涵盖多样化场景的综合基准测试集。大量实验表明,DreamID-V 性能优于现有最先进方法,并展现出出色的通用性,能够无缝适配各类与人脸交换相关的任务。