Aligning Anime Video Generation with Human Feedback
一、引言
论文开头指出,尽管视频生成模型不断涌现,但动漫视频生成面临动漫数据稀缺和运动模式异常的挑战,导致生成视频存在运动失真和闪烁伪影等问题,难以满足人类偏好。现有奖励模型主要针对现实世界视频,无法捕捉动漫的独特外观和一致性要求。为此,作者提出利用人类反馈对动漫视频生成进行对齐的流程,包括构建首个动漫视频多维奖励数据集、开发AnimeReward奖励模型,以及引入Gap-Aware Preference Optimization(GAPO)训练方法,在实验中展示这些方法对提升动漫视频质量的有效性。
二、研究背景与挑战
-
数据稀缺性 :动漫数据相较于现实世界数据更为稀缺,导致预训练的视频模型在生成动漫视频时倾向于输出更符合现实风格的内容,难以满足动漫视频的生成需求。
-
运动模式差异 :动漫视频的运动模式与现实视频不同,现有模型在处理动漫视频时会出现运动失真和闪烁伪影等问题,影响生成质量。
-
现有奖励模型局限性 :早期方法依赖图像奖励模型提供反馈信号,但忽视了视频中的时间因素,如运动动态和时间连贯性。后续研究采用视频评估系统,但这些评估指标通常较为客观,缺乏足够的区分能力来有效区分好坏视频,难以准确捕捉主观偏好。最近的研究收集大规模视频偏好数据集并训练视觉 - 语言模型作为视频奖励模型,但这些模型主要针对文本到视频(T2V)任务,由于领域差异,在评估动漫视频时与实际人类偏好存在偏差。
三、研究方法
(一)构建动漫视频奖励数据集
-
数据收集 :选择 5000 个带有动作标签的动漫视频,涵盖多种常见动作类别。使用 Qwen2-VL 对视频进行字幕标注,并提取视频的第三帧作为初始图像。基于这些提示和图像,利用 5 种先进的开源或闭源图像到视频生成模型生成动漫视频,与 5000 个真实视频一起构建 30000 个动漫视频数据集,用于奖励模型训练。此外,还构建了包含 6000 个动漫视频的验证集。
-
人工标注 :从视觉外观和视觉一致性两个方面对生成视频进行评估。视觉外观包括视觉流畅度、视觉运动和视觉吸引力;视觉一致性包括文本 - 视频一致性、图像 - 视频一致性和角色一致性。雇佣 6 名标注员对数据集进行评分,最终每个维度的偏好分数取所有标注员的平均值。
(二)开发 AnimeReward 奖励模型
AnimeReward 是一个多维动漫奖励系统,专门用于学习动漫视频的人类偏好。它包含视觉外观和视觉一致性两个方面的六个维度,针对不同维度使用专门的视觉 - 语言模型进行训练,通过奖励分数回归来更好地拟合人类偏好。
-
视觉外观
-
视觉流畅度 :微调基于 VLM 的模型的视觉编码器,并添加回归头,以学习人类对视频流畅度的偏好并识别动漫视频中的失真。
-
视觉运动 :基于 ActionCLIP 框架训练运动评分模型,将动漫视频剪辑及其对应的运动字幕分为六个运动幅度级别,通过计算设计的运动提示与目标视频之间的相似性分数来得到运动分数。
-
视觉吸引力 :从视频中提取关键帧,训练回归模型以学习人类美学标准,从而评估视频生成的基本质量。
-
-
视觉一致性
-
文本 - 视频一致性 :微调视觉和文本编码器模块并添加回归头,使用动漫文本 - 视频对进行训练。
-
图像 - 视频一致性 :在图像到视频设置中,使用视觉编码器和回归头计算生成视频与输入图像之间的风格一致性分数。
-
角色一致性 :设计包括检测、分割和识别的系统流程,利用 GroundingDINO、SAM 和跟踪工具提取每个视频帧的角色掩码,微调基于 BLIP 的模型建立掩码与动漫 IP 角色之间的关联,通过计算生成角色特征与存储特征之间的余弦相似性来衡量角色一致性。
-
(三)引入 Gap-Aware Preference Optimization(GAPO)训练方法
-
直接偏好优化(DPO)的局限性 :DPO 只关注对每对偏好样本对的概率进行建模,忽略了胜利样本和失败样本之间的偏好差距。
-
GAPO 的提出 :为了解决这一问题,GAPO 明确将偏好差距纳入优化过程。首先定义每个视频的奖励增益,对于每对偏好样本,使用胜利样本和失败样本的奖励增益之差作为差距因子,反馈到 DPO 损失函数中,从而放大具有较大偏好差距的样本对在训练中的影响,减少差异较小的样本对的影响,提高动漫视频对齐的效率,使模型更好地捕捉人类偏好差异。
四、实验
(一)实验设置
-
数据集 :使用开源的 CogVideoX-5B 模型作为对齐实验的基线模型。按照论文中的数据收集策略,构建包含 2000 个原始动漫图像及其对应提示的初始训练集。基于这些数据,使用基线模型为每个数据实例生成 4 个动漫视频,并利用 AnimeReward 对所有生成视频进行评估和分配奖励分数,从每组四个视频中选择得分最高和最低的视频组成偏好对,形成包含 2000 个偏好样本对的训练数据。
-
训练设置 :在对齐实验中,微调所有变压器块以更好地使模型与人类偏好对齐。全局批量大小设置为 8,学习率为 5e − 6。DPO 超参数 β 为 5000,GAPO 超参数 α 为 2。所有实验在 8 个 A800 GPU 上进行,生成的视频为 49 帧、16 fps,分辨率为 480 × 720。
-
评估指标 :采用自动化评估和人工评估两种方法。自动化评估包括 VBenchI2V、VideoScore 和 AnimeReward 三种方法;人工评估则由三名标注员对样本进行评估,根据多数意见确定视频优劣。
(二)实验结果
-
定量结果 :在 VBench-I2V 评估中,作者提出的偏好对齐方法总分最高,几乎在所有指标上都优于基线模型,并且在大多数情况下超过 SFT 模型,尤其在 "I2V 主体" 和 "主体一致性" 方面表现出显著改进,表明在保持动漫角色一致性方面能力更强。在 AnimeReward 评估中,除视觉运动外,作者的方法在所有指标上均有显著提升,与人类偏好在视觉外观和一致性方面更好地对齐。对于 VideoScore,对齐策略在三个维度上超越基线和 SFT 模型,显示出更好的时间稳定性和内容保真度。尽管在 "动态程度"(即 "视觉运动")方面表现不如基线和 SFT 方法,但作者认为动态程度较高的视频更容易出现失真和伪影,从而降低整体视觉质量并影响人类偏好评分。
-
定性结果 :从图 3 的视觉比较结果可以看出,与基线模型和 SFT 模型相比,作者的方法显著减少了生成视频中的失真和伪影,实现了更高的运动稳定性和角色一致性,视觉质量大大提高。此外,作者的方法在文本一致性方面也优于其他方法,例如在第二个案例中,提示说明一个穿紫色长袍的老年男子正在安慰一个年轻男子,而基线和 SFT 方法生成的结果中老年男子看起来像是在威胁或恐吓年轻男子,年轻男子表现出害怕的表情,而作者的方法正确地生成了老年男子拍年轻男子肩膀以示安慰的画面。
-
消融实验
-
GAPO 与 DPO 的比较 :在相同的实验设置下,GAPO 在所有三个评估指标上均优于 DPO,表明 GAPO 可以提高偏好对齐效率,并引导模型生成更符合人类偏好的动漫视频。
-
奖励模型比较 :使用 VideoScore 作为奖励模型进行实验,结果显示使用 AnimeReward 训练的模型在两个评估标准上优于 VideoScore,进一步验证了 AnimeReward 能为动漫视频提供更准确的人类偏好评馈。
-
奖励分数的不同权重策略比较 :除了平均加权策略外,还评估了其他几种权重分配方案。结果表明平均加权策略在 VBench-I2V 和 AR 上得分最高,而增加运动分数权重的策略在 VS 上表现最好,但在其他维度上的表现不如平均加权策略。视觉比较结果也显示,平均加权策略在完成相应动作的同时保持了视觉美学和流畅的运动,而增加运动权重的策略可能导致视频中出现奇怪的伪影和角色面部严重失真。
-
五、结论
论文提出了一种名为 AnimeReward 的函数,通过精心设计的六个感知维度对动漫视频生成进行全面评估。借助 AnimeReward,构建了一种名为 Gap-Aware Preference Optimization(GAPO)的新颖训练技术,将偏好差距明确纳入优化过程,以进一步提升对齐性能。实验结果表明,仅使用基线模型生成的数据,作者提出的对齐流程显著提升了动漫生成的质量,更好地与人类偏好对齐。
六、核心技术表格汇总
