【01 论文概述】
论文标题:ScalingInstruction-BasedVideoEditingwithaHigh-QualitySyntheticDataset
作者团队:香港科大、蚂蚁集团、浙江大学、东北大学
发布时间:2025 年 10 月 17 日
论文链接:https://arxiv.org/pdf/2510.15742
Lab4AI 大模型实验室链接:
1. 研究背景
l 指令驱动编辑的模态差距:指令驱动图像编辑已实现高精度(如InstructPix2Pix、FLUX.1Kontext 等模型),但视频编辑显著滞后------视频编辑需同时保证内容修改与跨帧时间一致性,而现有技术难以平衡这一需求。
l 核心瓶颈:数据稀缺:端到端视频编辑模型依赖大规模、高质量的"源视频-指令-编辑后视频"配对数据,但人工标注成本极高;现有合成数据方法存在固有缺陷:要么依赖高成本逐视频优化(如 Qin 等人 2024 年方法),要么采用无训练的图像-视频传播技术(如 Yu 等人 2025 年 VEGGIE),均难以兼顾编辑多样性、时间一致性、视觉质量与可扩展性。
l 现有数据的局限性:已有的指令驱动视频数据集(如InsViE-1M)在分辨率(1024×576)、帧数(25 帧)、视觉质量筛选等方面存在不足,且缺乏对编辑任务关键的"高美学价值"和"自然运动"内容优化。
2. 研究目的
l 构建一套可扩展、低成本、高质量的指令驱动视频编辑数据生成框架,解决数据稀缺这一核心瓶颈。
l 生成百万级高质量数据集(Ditto-1M),覆盖全局(风格转换、场景改造)与局部(物体替换、添加/删除)编辑任务,为模型训练提供充足数据支撑。
l 训练一款纯指令驱动的视频编辑模型(Editto),通过模态适配策略实现从"视觉引导编辑"到"文本指令编辑"的过渡,达到指令跟随与时间一致性的最优性能,建立该领域新基准。
3. 本文核心贡献
(1)提出 Ditto 数据生成框架
· 突破现有方法的"成本-质量-多样性"权衡:融合先进图像编辑器的视觉先验与上下文视频生成器(VACE),结合模型蒸馏与量化技术,将计算成本降至原始高保真方法的 20%,同时保证时间一致性与编辑质量。
· 自动化流程:通过视觉语言模型(VLM)实现指令生成与质量筛选,无需人工干预,支撑大规模数据生产。
(2)构建 Ditto-1M 数据集
· 规模与质量:包含100 万"源视频-指令-编辑后视频"三元组,分辨率 1280×720(超现有数据集),每段 101 帧、20FPS,覆盖 70% 全局编辑(风格、场景)与 30% 局部编辑(物体操作)。
· 数据筛选严格:源视频来自专业平台(Pexels),经去重、运动筛选、VLM 质量控制,确保高美学价值与自然运动特性。
(3)提出 Editto 模型与模态课程学习
· Editto 模型:基于上下文视频生成器 VACE 改进,在 Ditto-1M 上训练后,在指令跟随、时间一致性、视觉质量上超越现有基线,成为指令驱动视频编辑的新 SOTA。
· 模态课程学习(MCL):通过"逐步移除视觉引导"的训练策略,解决从"视觉 + 文本引导"到"纯文本指令引导"的模态鸿沟,提升模型对抽象指令的理解能力。
(4)验证框架有效性
· 实验证明Ditto 框架生成的数据可支撑模型泛化至真实场景(sim2real 能力),且 Editto 模型性能随数据规模增长而稳定提升,验证了大规模高质量数据的核心价值。
4.研究方法
(1)Ditto 数据生成框架:三阶段 pipeline
阶段1:源视频预处理(约 60GPU 天)
· 近重复移除:用DINOv2 视觉编码器提取视频特征,计算 pairwise 相似度,过滤超阈值的冗余视频,保证数据多样性。
· 运动筛选:用CoTracker3 跟踪视频网格点轨迹,计算平均累积位移作为"运动分数",过滤低动态视频(如固定镜头、静态场景),保留具备时间变化的内容。
· 标准化:将通过筛选的视频统一resize 至 1280×720,帧速率转换为 20FPS,简化后续训练流程。
阶段2:核心生成(约 6000GPU 天)
· 指令生成(VLM 两步法):
- 第一阶段:VLM 接收源视频,生成包含内容、主体、场景的详细描述(如"画面中有一对情侣在人行道上行走,背景是城市街道");
- 第二阶段:将源视频与描述输入VLM,生成上下文相关的编辑指令(如"添加一盏发光的复古街灯,在情侣附近的人行道上投射温暖的黄色光晕"),覆盖全局与局部任务。
· 视觉上下文准备:
- 关键帧编辑:从源视频中选关键帧,用Qwen-Image 等先进图像编辑器按指令生成编辑后关键帧(作为外观引导);
- 深度视频预测:用VideoDepthAnything 模型从源视频提取深度视频(作为时空结构约束),保证场景几何与运动一致性。
· 上下文视频生成:
o 采用VACE 作为基础生成器,输入"深度视频(结构约束)+ 编辑后关键帧(外观引导)+ 指令(语义引导)",生成编辑后视频;
o 效率优化:通过模型量化(减少内存占用)与知识蒸馏(Yin 等人 2025 年方法),将生成成本降至原始高保真模型的 20%,支持大规模生产。
阶段3:后处理(约 6000GPU 天)
· VLM 质量筛选:用 Qwen2.5-VL 评估三元组,筛选标准包括:指令忠实度(编辑是否匹配指令)、源语义保留(是否保留原视频主体与运动)、视觉质量(无失真/伪影)、安全性(无违规内容),过滤低质量样本。
· 去噪增强:用Wan2.2 模型的精细去噪器(MoE 架构),通过 4 步反向过程移除细微伪影、提升纹理细节,同时保证编辑内容的语义一致性(不引入新偏差)。
(2)Editto 模型训练:模态课程学习
模型架构
· 基于VACE 改进,包含两大分支:
- 上下文分支:提取源视频与参考帧的时空特征,提供结构与外观约束;
- 主分支:基于DiT(Transformer-based 扩散模型),融合文本指令嵌入与上下文特征,生成编辑后视频。
· 训练策略:冻结VACE 预训练参数,仅微调上下文块的线性投影层,减少过拟合风险。
模态课程学习(MCL)
· 初始阶段:输入"文本指令 + 编辑后参考帧",以视觉引导作为"脚手架",帮助模型理解编辑目标;
· 中间阶段:逐步降低参考帧的输入概率(退火策略),迫使模型依赖文本指令;
· 最终阶段:完全移除参考帧,模型实现纯指令驱动编辑。
训练目标:采用流匹配(FlowMatching)损失
5.研究成果
研究通过定量比较、用户研究和定性分析验证了方法的有效性。
定量结果:在CLIP-T(指令跟随)、CLIP-F(时间一致性)和 VLM 评分等自动指标上,本文提出的 Editto 模型均显著优于现有方法。用户研究也显示,在指令跟随准确性、时间一致性和整体质量方面,Editto 获得了最高的用户偏好。
定性结果:如图5 所示,对于复杂的风格化转换和局部属性编辑,Editto 能生成视觉上更优、更符合指令要求且时间一致性更好的结果,而基线方法则容易出现模糊、不一致或编辑不准确的问题。
附加结果与消融研究 :研究还展示了模型从合成数据到真实领域的转换能力,并且通过消融实验证实了大规模训练数据和模态课程学习策略对于模型性能提升的关键作用。
6.总结与展望
l 本文通过Ditto 框架系统性解决了指令驱动视频编辑的"数据稀缺"问题:该框架融合图像编辑先验与高效视频生成,结合自动化质量控制,实现"低成本-高质量-可扩展"的数据生产,最终构建 Ditto-1M 数据集;
l 基于Ditto-1M 训练的 Editto 模型,通过模态课程学习桥接视觉与文本模态,在指令跟随、时间一致性、视觉质量上建立新 SOTA,验证了"高质量数据 + 合理训练策略"对视频编辑任务的核心价值。
【02 论文原文阅读】
您可以跳转到Lab4AI 平台上去阅读论文原文。
Lab4AI大模型实验室已经提供 该 论文,阅读链接:
文末点击阅读原文 ,即可跳转至对应论文页面。目前,论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的H800 算力作为奖励。
·Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;
·支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;
·论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。
本文由AI 深度解读,转载请联系授权。关注"大模型实验室 Lab4AI",第一时间获取前沿 AI 技术解析!