Kling-Omni Technical Report
我们提出了 Kling-Omni,一个通用的生成式框架,旨在直接从多模态视觉语言输入合成高保真视频。基于端到端的设计理念,Kling-Omni 打破了多样化视频生成、编辑和智能推理任务之间的功能壁垒,将其整合为一个统一的整体系统。与割裂的流水线方法不同,Kling-Omni 支持多种用户输入,包括文本指令、参考图像和视频上下文,并将其转化为统一的多模态表示,从而实现电影级画质和高度智能的视频内容创作。为了支撑这些能力,我们构建了一个全面的数据系统,作为多模态视频创作的基础。该框架还通过高效的大规模预训练策略和优化的推理基础设施得到进一步强化。全面的评估表明,Kling-Omni 在上下文生成、基于推理的编辑以及多模态指令遵循方面展现出卓越的性能。Kling-Omni 不仅仅是一个内容创作工具,我们相信它是迈向能够感知、推理、生成并与动态复杂世界交互的多模态世界模拟器的关键进展。
Step-GUI Technical Report
多模态大语言模型 (Multimodal Large Language Model) 的最新进展为图形用户界面 (GUI) 自动化带来了前所未有的机遇。然而,一个核心挑战依然存在:如何在保证标注可靠性的前提下,高效获取高质量的训练数据?我们提出了一种由校准步骤奖励系统 (Calibrated Step Reward System) 驱动的自演进训练流水线。该流水线通过轨迹级校准,将模型生成的操作序列转化为可靠的训练信号,从而以降低 10 至 100 倍的成本实现了超过 90% 的标注准确率。基于此流水线,我们推出了 Step-GUI 模型系列 (4B/8B 参数)。该系列模型在保持强大通用能力的同时,实现了业界领先的 GUI 性能 (8B 模型: AndroidWorld 80.2%, OSWorld 48.5%, ScreenShot-Pro 62.6%)。随着 GUI 智能体能力的增强,实际部署要求能在异构设备间提供标准化接口,并保护用户隐私。为此,我们提出了 GUI-MCP,这是首个专为 GUI 自动化设计的模型上下文协议 (Model Context Protocol)。它采用分层架构,结合了底层的原子操作与将高层任务委派给本地专家模型的能力,从而实现了高隐私保护执行------敏感数据全程保留在设备本地。最后,为了评估智能体处理真实日常使用场景的能力,我们引入了 AndroidDaily 基准测试。该测试基于真实的移动设备使用模式构建,涵盖了高频日常场景,包含 3146 个静态动作和 235 个端到端任务 (8B 模型: 静态动作准确率 89.91%, 端到端任务成功率 52.50%)。我们的工作推动了实用型 GUI 智能体的发展,并展现了其在日常数字交互中进行实际部署的巨大潜力。
MMGR: Multi-Modal Generative Reasoning
视频基础模型 (Video foundation models) 能够生成视觉逼真且时序连贯的内容,但其作为世界模拟器 (world simulators) 的可靠性,取决于它们是否捕捉到了物理、逻辑和空间约束。现有指标,如弗雷歇视频距离 (Frechet Video Distance, FVD),侧重于感知质量,却忽略了推理错误 (reasoning failures),包括对因果关系、物理定律和全局一致性的违背。我们提出了 MMGR (多模态生成式推理评估与基准,Multi-Modal Generative Reasoning Evaluation and Benchmark),这是一个基于五种推理能力的系统性评估框架:物理推理、逻辑推理、3D 空间推理、2D 空间推理和时序推理。MMGR 在三个领域评估生成式推理 (Generative Reasoning):抽象推理 (Abstract Reasoning,包括 ARC-AGI 和数独)、具身导航 (Embodied Navigation,包括真实世界的 3D 导航与定位) 以及物理常识 (Physical Commonsense,包括运动和组合交互)。MMGR 采用细粒度指标,要求视频和图像生成具备整体正确性。我们对领先的视频模型 (Veo-3, Sora-2, Wan-2.2) 和图像模型 (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image) 进行了基准测试,结果揭示了跨领域的显著性能差距。模型在物理常识任务上取得了中等成功,但在抽象推理上表现不佳 (在 ARC-AGI 上的准确率低于 10%),并且在具身环境中的长时程空间规划方面存在困难。我们的分析指出了当前模型的关键局限,包括过度依赖感知数据、全局状态一致性较弱,以及优化目标更倾向于奖励视觉合理性而非因果正确性。MMGR 提供了一个统一的诊断基准,并为开发具备推理意识的生成式世界模型指明了一条路径。
EgoX: Egocentric Video Generation from a Single Exocentric Video
第一人称视角感知使人类能够直接从自身视角体验和理解世界。将第三人称视角视频转换为第一人称视角视频,为沉浸式理解开辟了新途径。然而,由于相机姿态变化剧烈且视图重叠区域极小,该任务仍极具挑战性。它要求模型在忠实保留可见内容的同时,以几何一致的方式合成不可见区域。为此,我们提出了 EgoX,一个从单段第三人称输入视频生成第一人称视频的新框架。EgoX 通过轻量化的低秩适配 (LoRA) 技术,利用大规模视频扩散模型的预训练时空知识,并引入了一种统一的调节策略。该策略通过沿宽度和通道维度拼接的方式,融合了第三人称与第一人称视角先验。此外,我们提出了一种几何引导的自注意力机制,能够选择性地关注空间相关区域,从而确保了几何一致性并实现了高视觉保真度。我们的方法能够生成连贯且逼真的第一人称视角视频,并在未见过的及真实场景视频上表现出了良好的可扩展性与鲁棒性。
Memory in the Age of AI Agents
记忆已成为基于基础模型的智能体的一项核心能力,并且这一地位将持续保持。随着智能体记忆研究的迅速扩展并吸引前所未有的关注,该领域也日益呈现出碎片化趋势。现有关于智能体记忆的研究,其动机、实现方式和评估协议往往存在显著差异,而定义松散的记忆术语的激增进一步加剧了概念上的模糊性。诸如长/短期记忆之类的传统分类法已被证明不足以涵盖当代智能体记忆系统的多样性。本文旨在勾勒当前智能体记忆研究的最新全景。我们首先明确界定智能体记忆的范畴,并将其与大语言模型记忆、检索增强生成 (RAG) 以及上下文工程等相关概念区分开来。接着,我们通过形式、功能和动态这三个统一的视角来审视智能体记忆。从形式视角,我们识别出智能体记忆的三种主要实现方式:Token 级记忆、参数化记忆和潜在记忆。从功能视角,我们提出了一个更细粒度的分类法,区分事实性记忆、经验性记忆和工作记忆。从动态视角,我们分析了记忆如何随时间形成、演化与检索。为支持实际开发,我们汇编了关于记忆基准测试和开源框架的全面总结。在整合现有成果之外,我们还阐述了对新兴研究前沿的前瞻性看法,包括记忆自动化、强化学习集成、多模态记忆、多智能体记忆以及可信度问题。我们希望本综述不仅能作为现有研究的参考,更能为将记忆重新思考为未来智能体智能设计中的一等原语提供概念基础。
QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
QwenLong-L1.5: 面向长上下文推理与记忆管理的后训练方案
我们推出 QwenLong-L1.5,这是一个通过系统性后训练创新实现卓越长上下文推理能力的模型。QwenLong-L1.5 的关键技术突破如下:(1) 长上下文数据合成流水线:我们开发了一套系统性的合成框架,用于生成需要基于全局分散证据进行多跳关联的挑战性推理任务。通过将文档解构为原子事实及其底层关系,并以编程方式构建可验证的推理问题,我们的方法能够大规模生成高质量训练数据,从而实现了从简单检索任务到真正长程推理能力的实质性跨越。(2) 面向长上下文训练的稳定强化学习:为克服长上下文强化学习 (RL) 中的核心不稳定性,我们引入了结合任务特定优势估计的任务平衡采样以缓解奖励偏差,并提出了自适应熵控制策略优化 (AEPO),动态调节探索与利用之间的权衡。(3) 面向超长上下文的记忆增强架构:我们认识到,即使扩展的上下文窗口也无法容纳任意长的序列。为此,我们开发了一个包含多阶段融合强化学习训练的记忆管理框架,该框架将单次推理与基于记忆的迭代处理无缝集成,以处理超过 4M Token 的任务。基于 Qwen3-30B-A3B-Thinking 模型,QwenLong-L1.5 在长上下文推理基准测试中取得了与 GPT-5 和 Gemini-2.5-Pro 相当的性能,平均超越其基线 9.90 分。在超长任务 (1M~4M Token) 上,QwenLong-L1.5 的记忆智能体框架相比智能体基线实现了 9.48 分的性能提升。此外,所获得的长上下文推理能力也带来了在科学推理、记忆工具使用以及扩展对话等通用领域性能的增强。
Towards Scalable Pre-training of Visual Tokenizers for Generation
视觉分词器 (例如,VAEs) 的潜在空间质量对现代生成模型至关重要。然而,标准的基于重建的训练范式所产生的潜在空间偏向于编码低级信息,这导致了一个基础性缺陷:更高的像素级精度并不能带来更高质量的生成结果。这意味着,将大量计算资源投入到视觉分词器预训练中,难以有效转化为生成性能的提升。我们将此界定为"预训练缩放问题",并指出必须做出转变:一个潜在空间要想对生成任务有效,就必须能简洁地表征高级语义。为此,我们提出了 VTP,一个统一的视觉分词器预训练框架,率先对图像-文本对比损失、自监督损失和重建损失进行联合优化。我们的大规模研究得出了两个主要结论:(1) 理解是生成的关键驱动力;(2) VTP 展现出优越得多的缩放特性,其生成性能能随预训练投入的计算量、参数量和数据集大小而有效提升。经过大规模预训练后,我们的分词器取得了具有竞争力的性能指标 (在 ImageNet 上达到 78.2 的零样本精度和 0.36 的 rFID) ,并且在生成任务上的收敛速度比先进的蒸馏方法快 4.1 倍。更重要的是,它具备良好的可扩展性:在不改变标准 DiT 训练配置的情况下,仅通过在预训练 VTP 时投入更多 FLOPS,就能为下游生成任务带来 65.8% 的 FID 提升;相比之下,传统自编码器仅使用其 1/10 的计算量时,性能便已早早陷入停滞。我们的预训练模型发布于 github.com/MiniMax-AI/...
ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding
ReFusion: 一种具有并行自回归解码能力的扩散大语言模型
自回归模型 (Autoregressive Models, ARMs) 受限于其缓慢的顺序推理速度。掩码扩散模型 (Masked Diffusion Models, MDMs) 虽提供了并行的替代方案,但也面临两个关键缺陷:一是因无法使用键值 (Key-Value, KV) 缓存而导致的高计算开销,二是在学习难以处理的 Token 组合空间上的依赖关系时,会导致生成内容不连贯。为克服这些限制,我们提出了 ReFusion,这是一种新颖的掩码扩散模型。它通过将并行解码从 Token 级别提升至更高的槽位 (slot) 级别(每个槽位是一个固定长度的连续子序列),从而实现了卓越的性能与效率。其核心是一个迭代的"规划与填充"解码过程:首先,一个基于扩散的规划步骤识别出一组弱依赖的槽位;随后,一个自回归填充步骤并行解码这些选定的槽位。这种基于槽位的设计具有双重优势:它通过一个统一的因果框架实现了完整的 KV 缓存重用,同时将学习复杂度从巨大的 Token 组合空间降低到了可管理的槽位级排列空间。在七个多样化基准上的广泛实验表明,ReFusion 不仅以 34% 的性能提升和平均超过 18 倍的加速比显著超越了先前的 MDMs,而且在保持平均 2.33 倍加速比优势的同时,弥合了与强大 ARMs 之间的性能差距。
Adaptation of Agentic AI
最先进的智能体 AI (Agentic AI) 系统构建于基础模型之上,这些模型能够通过适配来进行规划、推理,并与外部工具交互,以执行日益复杂和专门化的任务。随着此类系统能力和应用范围的增长,适配已成为提升其性能、可靠性和泛化能力的核心机制。本文旨在将这一快速发展的研究领域统一为一个系统性框架,该框架同时涵盖智能体适配与工具适配。我们进一步将智能体适配分解为工具执行信号触发型 和智能体输出信号触发型 ,将工具适配分解为智能体无关型 和智能体监督型。我们论证了该框架有助于厘清智能体 AI 中各种适配策略的设计空间,明确揭示其权衡取舍,并为系统设计过程中策略的选择或切换提供实践指导。随后,我们回顾了各类别中的代表性方法,分析了其优势与局限,并着重指出了关键的开放性挑战与未来机遇。总而言之,本文旨在为致力于构建更强大、高效、可靠的智能体 AI 系统的研究人员与从业者,提供一个坚实的理论基石和清晰的实践路线图。
LongVie 2: Multimodal Controllable Ultra-Long Video World Model
在预训练视频生成系统基础上构建视频世界模型,是迈向通用时空智能的关键且富有挑战性的一步。一个理想的世界模型应具备三个核心特性:可控性、长期视觉质量与时间一致性。为此,我们采用了一种渐进式策略:首先提升可控性,进而扩展到长期、高质量的视频生成。本文提出了 LongVie 2,这是一个端到端的自回归框架,其训练包含三个阶段:(1) 多模态引导,通过融合密集与稀疏的控制信号,提供隐式的世界层面监督以增强可控性;(2) 输入帧的退化感知训练,旨在缩小训练与长期推理之间的差异,从而维持高视觉质量;(3) 历史上下文引导,通过对齐相邻视频片段间的上下文信息来确保时间一致性。此外,我们推出了 LongVGenBench,一个包含 100 段高分辨率、时长一分钟视频的综合评测基准,涵盖了多样化的真实世界与合成场景。大量实验证明,LongVie 2 在长程可控性、时间连贯性与视觉保真度方面均达到了最先进水平,并能支持持续生成长达五分钟的视频,这标志着我们在构建统一视频世界模型的征程上迈出了坚实的一步。
WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling
WorldPlay: 面向实时交互式世界建模的长期几何一致性
本文提出了 WorldPlay,这是一个流式视频扩散模型,能够实现具有长期几何一致性的实时交互式世界建模,从而解决了当前方法所面临的速度与内存之间的权衡问题。WorldPlay 基于三项关键创新。1) 我们采用了一种双重动作表示,以实现对用户键盘和鼠标输入的鲁棒动作控制。2) 为了确保长期一致性,我们提出的重构上下文内存能够动态地从历史帧重建上下文,并利用时间重构技术使几何上重要但历史久远的帧保持可访问性,从而有效缓解了内存衰减问题。3) 我们还提出了上下文强制,这是一种专为内存感知模型设计的新型蒸馏方法。通过对齐教师模型与学生模型之间的内存上下文,该方法保留了学生模型利用长程信息的能力,在实现实时生成速度的同时,防止了误差漂移。综上所述,WorldPlay 能够以 24 FPS 的帧率实时生成长序列的 720p 流式视频,具有卓越的一致性,其性能优于现有技术,并在多样化的场景中表现出强大的泛化能力。项目页面与在线演示请访问:3d-models.hunyuan.tencent.com/world/ 和 3d.hunyuan.tencent.com/sceneTo3D。
Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?
视频真实性测试:AI 生成的 ASMR 视频能欺骗视觉语言模型和人类吗?
视频生成技术的最新进展已能产出极为生动、常与真实视频难以区分的内容,这使得 AI 生成视频检测成为一个新兴的社会挑战。现有的 AIGC (AI-Generated Content) 检测基准大多针对无音频视频进行评估,覆盖宽泛的叙事领域,且仅侧重于分类任务。然而,当前最先进的视频生成模型能否制作出沉浸式、音画同步的视频,从而可靠地欺骗人类和视觉语言模型 (Vision-Language Models, VLMs),仍是一个悬而未决的问题。为此,我们提出了视频真实性测试 (Video Reality Test),这是一个基于 ASMR (Autonomous Sensory Meridian Response) 源构建的视频基准套件,用于在强视听关联条件下测试感知真实性,其特点包括以下两个维度:(i) 沉浸式 ASMR 音视频源。该基准基于精心筛选的真实 ASMR 视频构建,专注于细粒度的动作-物体交互,并在物体、动作和背景方面具有多样性。(ii) 同行评审式评估。采用一种对抗性的创作者-评审者协议:视频生成模型扮演创作者,旨在欺骗评审者;而 VLMs 则扮演评审者,致力于识别虚假内容。我们的实验结果表明:表现最佳的创作者模型 Veo3.1-Fast 甚至能成功欺骗大多数 VLM 评审者:最强的评审者模型 (Gemini 2.5-Pro) 仅达到 56% 的准确率 (随机基线为 50%),远低于人类专家 81.25% 的准确率。添加音频有助于提升真假辨别能力,但诸如水印等表面线索仍会显著误导模型。这些发现界定了当前视频生成真实性的边界,并揭示了 VLMs 在感知保真度与视听一致性方面的局限性。我们的代码可在 github.com/video-reali... 获取。
Next-Embedding Prediction Makes Strong Vision Learners
受自然语言中生成式预训练成功的启发,我们探究同样的原理能否构建出强大的自监督视觉学习模型。我们的方法不是训练模型输出用于下游任务的特征,而是训练其生成嵌入 (embedding) 来直接执行预测任务。本工作探索了从学习表征 (representation) 到学习预测模型这一转变。具体而言,模型学习在给定历史补丁嵌入的条件下预测未来的补丁嵌入,该方法结合了因果掩码 (causal masking) 和停止梯度 (stop gradient),我们称之为下一嵌入预测自回归 (Next-Embedding Predictive Autoregression, NEPA)。我们证明,在 ImageNet-1k 上仅以下一嵌入预测为学习目标预训练一个简单的 Transformer 模型即可取得良好效果------无需像素重建、离散 Token、对比损失或任何任务特定的头部 (head)。该方案保持了架构的简洁性和可扩展性,无需引入额外的设计复杂度。NEPA 在多项任务上表现强劲:使用 ViT-B 和 ViT-L 骨干网络进行微调后,在 ImageNet-1K 上分别达到了 83.8% 和 85.3% 的 top-1 准确率,并能有效迁移至 ADE20K 数据集的语义分割任务。我们相信,基于嵌入的生成式预训练为视觉自监督学习提供了一种简单、可扩展且可能模态无关 (modality-agnostic) 的替代方案。
LLaDA2.0: Scaling Up Diffusion Language Models to 100B
LLaDA2.0: 将扩散语言模型规模扩展至 100B 参数
本文提出了 LLaDA2.0------一系列通过系统化转换自回归 (Auto-Regressive, AR) 模型而构建的离散扩散大语言模型 (Discrete Diffusion Large Language Model, dLLM),其总参数量扩展至 100B,从而为前沿级别的模型部署确立了新范式。LLaDA2.0 并非成本高昂的从头训练,而是遵循知识继承、渐进适应与注重效率的设计原则,并采用一种新颖的、基于三阶段块级 WSD 的训练方案,将预训练的 AR 模型无缝转换为 dLLM。该方案包括:块扩散中逐步增大块尺寸(预热阶段)、大规模全序列扩散(稳定阶段)以及回退至紧凑尺寸的块扩散(衰减阶段)。结合监督微调 (SFT) 和直接偏好优化 (DPO) 进行训练后对齐,我们得到了 LLaDA2.0-mini (16B) 和 LLaDA2.0-flash (100B),这是两个为实际部署优化的、经过指令调优的混合专家 (Mixture-of-Experts, MoE) 变体。通过保持并行解码的优势,这些模型在达到前沿规模时,能提供卓越的性能与效率。两个模型均已开源。
Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows
Finch: 面向以电子表格为核心的企业工作流的财务与会计基准测试
我们提出了一个财务与会计基准测试 (Finch),用于评估 AI 智能体在真实企业级专业工作流上的性能。这些工作流融合了数据录入、结构化、格式化、网络搜索、跨文件检索、计算、建模、验证、翻译、可视化及报告等多种任务。Finch 的数据源包括安然公司 (包含来自 150 名员工的 15,000 份电子表格和 50 万封电子邮件) 及其他金融机构的真实工作环境,完整保留了实际工作中跨多模态工件 (文本、表格、公式、图表、代码和图像) 的杂乱特性,并覆盖了预算、交易和资产管理等多个领域。 我们提出了一种结合大语言模型 (LLM) 辅助发现与专家标注的工作流构建方法:(1) 从真实的电子邮件线程和电子表格文件版本历史中,通过 LLM 辅助并经由专家验证来推导工作流;(2) 对工作流进行细致的专家标注,此过程耗费了超过 700 小时的领域专家工时。最终,我们构建了 172 个复合工作流,包含 384 项任务,涉及 1,710 个电子表格 (总计 2,700 万个单元格) 以及 PDF 等其他文件,从而捕捉了真实企业工作所固有的混乱性、长期性、知识密集性与协作性。 我们对包括 GPT 5.1、Claude Sonnet 4.5、Gemini 3 Pro、Grok 4 和 Qwen 3 Max 在内的前沿 AI 系统进行了人工与自动化评估。结果显示,GPT 5.1 Pro 总计耗时 48 小时,仅能通过 38.4% 的工作流,而 Claude Sonnet 4.5 的通过率仅为 25.0%。进一步的全面案例分析揭示了真实企业工作流给 AI 智能体带来的具体挑战。