每周AI论文速递(251208-251212)

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Wan-Move: 通过潜在轨迹引导实现运动可控的视频生成

我们提出了 Wan-Move,一个简单且可扩展的框架,旨在为视频生成模型引入运动控制能力。现有的运动可控方法通常面临控制粒度粗糙和可扩展性有限的问题,使其输出难以满足实际应用需求。通过实现精确且高质量的运动控制,我们缩小了这一差距。我们的核心思想是直接使原始的条件特征具备运动感知能力,从而指导视频合成。具体而言,我们首先使用密集点轨迹来表示物体运动,以实现对场景的细粒度控制。接着,我们将这些轨迹映射到潜在空间,并沿每条轨迹传播第一帧的特征,从而生成一个对齐的时空特征图,该图定义了每个场景元素应如何运动。此特征图作为更新得到的潜在条件,可以无缝集成到现成的图像到视频模型(例如 Wan-I2V-14B)中,作为运动引导,而无需改变任何模型架构。该方法无需辅助运动编码器,并使得基础模型的微调具备良好的可扩展性。通过大规模训练,Wan-Move 能够生成 5 秒、480p 的视频,用户研究表明其运动可控性可与 Kling 1.5 Pro 的商业版 Motion Brush 相媲美。为了支持全面评估,我们进一步设计了 MoveBench,这是一个精心构建的基准测试,包含多样化的内容类别和经过混合验证的标注。其显著特点在于数据量更大、视频时长更长以及高质量的运动标注。在 MoveBench 和公共数据集上进行的大量实验一致证明了 Wan-Move 卓越的运动生成质量。代码、模型和基准数据均已公开。

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Visionary: 基于 WebGPU 高斯泼溅平台的世界模型载体

神经渲染,特别是 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 技术,已迅速发展成为构建世界模型的关键组件。然而,现有的查看器解决方案往往较为分散、笨重或受传统流水线限制,导致部署难度大,且对动态内容与生成模型的支持有限。为此,我们提出了 Visionary,一个开放的、基于 Web 的原生平台,用于实时渲染各类高斯泼溅与网格数据。该平台基于高效的 WebGPU 渲染器构建,并集成了每帧 ONNX 推理能力,从而在保持轻量级、"即点即用"浏览器体验的同时,实现了动态神经处理。Visionary 引入了一个标准化的高斯生成器接口,不仅支持标准 3DGS 渲染,还允许以即插即用的方式,在每帧生成或更新高斯分布。这种推理能力也使得前馈式生成后处理得以应用。此外,平台还提供了一个 three.js 库插件,其简洁的 TypeScript API 便于无缝集成到现有 Web 应用程序中。实验表明,在相同的 3DGS 资源下,得益于基于 GPU 的图元排序,Visionary 相比现有 Web 查看器实现了更优的渲染效率。目前,它已支持多种变体,包括基于 MLP 的 3DGS、4DGS、神经化身以及风格转换或增强网络。通过在浏览器中直接统一推理与渲染,Visionary 显著降低了 3DGS 系列方法的复现、比较与部署门槛,为重建式与生成式两种范式提供了一个统一的世界模型载体。

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

原生并行推理器:通过自蒸馏强化学习实现并行推理

我们提出了原生并行推理器 (Native Parallel Reasoner, NPR),这是一个免教师框架,能够使大语言模型 (LLMs) 自我进化出真正的并行推理能力。NPR 通过三项关键创新,将模型从顺序式处理转变为原生并行认知:1) 一种自蒸馏渐进训练范式,无需外部监督,即可从"冷启动"格式发现过渡到严格的拓扑约束;2) 一种新颖的并行感知策略优化 (Parallel-Aware Policy Optimization, PAPO) 算法,该算法直接在执行图内部优化分支策略,使模型能够通过试错进行自适应分解;以及 3) 一个稳健的 NPR 引擎,它重构了 SGLang 的内存管理与流程控制,从而支持稳定、大规模并行强化学习训练。在八项推理基准测试上,基于 Qwen3-4B 训练的 NPR 实现了高达 24.5% 的性能提升和高达 4.6 倍的推理加速。与先前常需回退至自回归解码的基线方法不同,NPR 实现了 100% 的真正并行执行,从而为自我进化、高效且可扩展的智能体推理树立了新标准。

T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

T-pro 2.0:一个高效的俄语混合推理模型与测试平台

我们推出 T-pro 2.0,这是一个开放权重的俄语大语言模型 (LLM),专注于混合推理并实现了高效推断。该模型支持直接回答和推理轨迹生成,通过采用一个针对西里尔字符优化的密集 Tokenizer 以及一个经过适配的 EAGLE 推测解码流水线,有效降低了延迟。为了促进可复现和可扩展的研究,我们在 Hugging Face 上发布了模型权重、T-Wix 500k 指令数据集、T-Math 推理基准以及 EAGLE 权重。这些资源使用户能够研究俄语推理任务,并可对模型及推断流水线进行扩展或适配。一个公开的 Web 演示提供了推理模式与非推理模式,并展示了我们的推断技术栈在不同任务上所带来的加速效果。因此,T-pro 2.0 作为一个开放易用的系统,可用于构建和评估高效、实用的俄语大语言模型应用。

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

TwinFlow: 基于自对抗流的大模型一步生成方法

近期,大型多模态生成模型在图像和视频等多模态生成任务上展现出卓越能力。这些模型通常基于扩散模型和流匹配等多步框架构建,其固有的多步推理过程(通常需要 40-100 次函数评估 (NFEs))限制了推理效率。尽管已有多种少步推理方法旨在加速,但现有方案仍存在明显不足。主流的基于蒸馏的方法,如渐进蒸馏和一致性蒸馏,要么需要迭代的蒸馏流程,要么在极低步数(< 4-NFE)下性能显著下降。同时,将对抗训练融入蒸馏过程(例如 DMD/DMD2 和 SANA-Sprint)以提升性能,会因引入额外的辅助训练模型而导致训练不稳定、复杂度增加以及高昂的 GPU 内存开销。为此,我们提出了 TwinFlow,一个用于训练一步生成模型的简洁高效框架。该框架无需依赖固定的预训练教师模型,且在训练过程中避免了使用标准的对抗网络,因而非常适合构建大规模高效模型。在文生图任务上,我们的方法仅需 1-NFE 即可获得 0.83 的 GenEval 分数,性能优于 SANA-Sprint(基于 GAN 损失的框架)和 RCGM(基于一致性的框架)等强基线。尤为重要的是,我们通过在 Qwen-Image-20B 上进行全参数训练,验证了 TwinFlow 的可扩展性,并将其成功转换为一个高效的少步生成器。仅使用 1-NFE,我们的方法在 GenEval 和 DPG-Bench 基准测试上的性能即可与原版 100-NFE 模型相媲美,在质量仅有轻微下降的同时,将计算成本降低了 <math xmlns="http://www.w3.org/1998/Math/MathML"> 100 × 100\times </math>100×。项目页面见 zhenglin-cheng.com/twinflow。

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

StereoWorld: 几何感知的单目到立体视频生成

随着 XR 设备的日益普及,市场对高质量立体视频的需求强劲增长,但其制作过程依然成本高昂且易产生伪影。为应对这一挑战,我们提出了 StereoWorld,这是一个端到端的框架,它通过改造一个预训练的视频生成器,实现了高保真的单目到立体视频生成。我们的框架使模型能够以输入的单目视频为条件,同时利用几何感知的正则化对生成过程进行显式监督,从而确保三维结构的保真度。此外,我们还集成了一个时空分块方案,以实现高效的高分辨率视频合成。为了支持大规模训练与评估,我们构建了一个高清立体视频数据集,其中包含超过 1100 万帧视频,其内容均与自然的人类瞳孔间距离 (IPD) 对齐。大量实验表明,StereoWorld 的性能显著优于现有方法,能够生成具有卓越视觉保真度和几何一致性的立体视频。项目网页地址为 ke-xing.github.io/StereoWorld...

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

超越实数:旋转位置编码的虚数扩展及其在长上下文大语言模型中的应用

旋转位置编码 (RoPE) 通过在复平面上对查询和键向量施加旋转,已成为大语言模型 (LLMs) 中编码序列顺序的标准方案。然而,在标准的实现中,注意力分数的计算仅使用了复数值点积的实部。这种简化丢弃了包含宝贵相位信息的虚部,可能导致对建模长上下文依赖至关重要的关系细节丢失。本文提出一种扩展方法,重新纳入了这一被丢弃的虚部。我们的方法利用完整的复数值表示,构建了一个双分量的注意力分数。我们从理论和实验上证明,该方法通过保留更多的位置信息,提升了对长上下文依赖的建模能力。此外,在一系列长上下文语言建模基准测试上的评估表明,相较于标准 RoPE,我们的方法能持续提升模型性能,且随着上下文长度的增加,其优势愈发显著。代码开源地址:github.com/OpenMOSS/ro...

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

保持源视频真实感:实现电影级质量的高保真人脸交换

视频人脸交换在电影和娱乐制作中至关重要。然而,对于长且复杂的视频序列,实现高保真度和时间一致性仍是一个重大挑战。受近期参考引导图像编辑技术进展的启发,我们探索能否类似地利用源视频中丰富的视觉属性,来同时提升视频人脸交换的保真度与时间连贯性。基于此,本文提出了首个视频参考引导的人脸交换模型------LivingSwap。我们的方法以关键帧作为条件信号,引入目标身份特征,从而实现灵活可控的编辑。通过结合关键帧条件与视频参考引导,模型能够进行时序拼接,确保在长视频序列中稳定保持身份并实现高保真重建。为了解决参考引导训练数据稀缺的问题,我们构建了一个配对的人脸交换数据集 Face2Face,并通过反转数据对来确保可靠的真值监督。大量实验表明,我们的方法取得了最先进的结果,能够将目标身份与源视频的表情、光照和运动无缝融合,同时显著减少了生产流程中的人工工作量。项目网页:aim-uofa.github.io/LivingSwap

相关推荐
点云SLAM7 小时前
Proper 英文单词学习
人工智能·学习·英文单词学习·雅思备考·proper·合规范 / 合适 /·正确 / 真正的
Jerry.张蒙7 小时前
SAP业财一体化实现的“隐形桥梁”-价值串
大数据·数据库·人工智能·学习·区块链·aigc·运维开发
zhongtianhulian8 小时前
陶瓷行业导航网站:景德镇信息大全 — 采购指南与政策解读
人工智能·python
深圳佛手8 小时前
jupyter notebook如何使用虚拟环境?
人工智能·python
Mintopia8 小时前
⚙️ WebAssembly在AIGC推理中的优化细节
人工智能·llm·trae
Mintopia8 小时前
🌐 WebAIGC的技术普惠:降低创作门槛还是加剧数字鸿沟?
人工智能·aigc
白日做梦Q8 小时前
少样本学习(Few-Shot Learning):让AI学会“举一反三”的图像分类新范式
人工智能
码上掘金8 小时前
基于YOLO和大语言模型的PCB智能缺陷检测系统
人工智能·yolo·语言模型
裤裤兔9 小时前
卷积神经网络中的自适应池化
人工智能·神经网络·cnn·自适应池化