研究背景
随着短视频和短剧的兴起,自动化的剧本生成和短剧制作在影视行业中的需求逐渐增加。传统的剧本生成过程需要大量的人工干预,限制了其在规模和效率上的扩展性。当前的大型语言模型(LLM)在剧本生成方面展现出一定潜力,但依然存在着生成内容的多样性、连贯性以及与实际影视制作需求对接不足的问题。因此,创建一个涵盖从剧本到拍摄脚本的大规模数据集成为了应对这一挑战的关键。
研究目标
本研究的目标是构建一个大规模的剧本-拍摄脚本配对数据集(SkyScript-100M),涵盖了10亿对剧本与拍摄脚本。这一数据集旨在支持短剧生成模型的开发,通过丰富的多模态信息(如场景描述、人物关系、镜头信息等)提升模型在生成短剧时的表现。本研究不仅探索了如何自动化生成高质量的短剧剧本,还提出了一种新的短剧生成范式。
相关工作
现有的多模态数据集(如MSR-VTT、HowTo100M、YouCook2等)主要通过网络爬虫获取视频数据并进行标注。这些数据集广泛应用于视频描述、视频-文本匹配等任务,但在短剧生成领域缺乏足够的覆盖和针对性。SkyScript-100M在这些现有数据集的基础上进行了优化,特别是在短剧这一特定领域中,提供了更大规模且更细致的配对数据。
而早期的剧本生成研究主要集中在基于Writing Prompts(WP)和ROCStories的开放域故事生成。然而,这些方法生成的内容常常缺乏逻辑性和连贯性。随着大型语言模型的发展,近年来的研究更多关注如何生成连贯且长篇的剧本,如Dramatron等框架。然而,短剧生成需要更多的多模态信息(如场景布局、人物关系等),这是现有方法的薄弱环节。
数据集的构建
多模态大语言模型预提取关键信息
为了减少人工标注的成本,研究团队首先使用多模态大语言模型(如InternVL2-Llama3-76B)对短剧视频进行预处理,提取出关键帧和场景信息。这包括人物、物体描述、镜头类型等信息,为后续数据标注提供了基础。
提取模板:
在这里,描述角色的'Continuous Emotion'用于表达角色当前的情感状态。它包括三个维度:愉悦度(Valence,V),表示情感的积极或愉快程度,从负面到正面,用于描述幸福感的水平;激活度(Arousal,A),表示角色的激动程度,从平静或非活跃到激动或准备行动,用于描述兴奋度的水平;以及控制感(Dominance,D),表示角色在情境中的掌控程度,从顺从或无控制到主导或掌控,用于描述权威感或存在感。此外,还使用了气质和面部吸引力指标,前面提到的角色配对兼容性计算('shipping')中涉及到这些指标:
关键信息清洗和隐私保护
在预提取信息后,进行了数据清洗与格式化,将信息转换为标准JSON格式。为确保数据的隐私安全,处理过程中对人物面部信息进行了像素化处理。此外,格式化后的数据还经过进一步的校准,以提高标注的准确性。
开放词汇检测
研究团队使用开放词汇检测模型(如Grounding-DINO)校准图像中的人物和物体位置,确保标注信息与实际内容的一致性。这一步骤帮助提升了多模态数据的质量和完整性。
主角信息后处理
使用Deepface和AlphaPose等工具进一步完善了角色的外观、情绪和动作标注,并通过2D-3D位置转换确保角色在不同场景中的一致性和连贯性。
数据校准
为确保数据的高质量,研究团队建立了一个12人的校准团队,对标注结果进行人工复核与调整,最终达到了超过90%的标注准确率,满足短剧生产的需求。
新的短剧生产范式
传统流程依赖人工调整,而新范式通过在拍摄脚本中嵌入更多关于短剧世界的信息,使生成模型能更好地保持角色、场景和情感的连贯性。
研究团队将这一新范式应用到大规模短剧生成模型SkyReels中,并在多个维度上进行了实验评估,包括主题表达、人物发展、对话质量、情感影响、节奏感、冲突解决、情节连贯性和叙事结构。实验结果显示,基于新范式生成的短剧在保持画面风格一致性、角色稳定性以及剧情连贯性上表现优异。
短剧领域的广泛影响
视频高光检测
短剧制作过程中,如何自动识别和提取剧情中的亮点(如情感高潮、剧情转折等)是一个关键问题。现有的亮点检测技术通常依赖于用户交互数据(如点赞、弹幕等),但在短剧中,这些数据往往不充分或缺乏细粒度标注。为此,本文引入了基于Plutchik情感理论的连续亮点评分模型,通过分析角色的情感维度(Valence、Arousal、Dominance),为短剧中的关键场景打分,实现了更加精确和连续的亮点检测。这一方法支持基于回归模型的亮点检测,适用于大规模短剧内容的分析与推广。
世界布局理解
短剧生成中的另一个挑战是对场景中世界布局的理解。传统生成模型在处理多人物、多物体的复杂场景时,容易出现角色或物体位置异常、遮挡等问题。为解决这一问题,研究团队通过2D-3D位置转换模型,推导出场景中角色和物体的3D位置,并应用多视图几何理论实现了3D-2D的映射。这一方法通过一致性约束确保了场景生成过程中物体和角色位置的合理性,显著提高了生成视频的稳定性和视觉效果。
隐含人物关系挖掘
传统剧本中,人物关系通常以固定的显式关系(如三元组形式)保存,但现实生活中,人物关系随着情感和情节发展会不断变化。本文提出了一种时间变化的隐含人物关系挖掘方法,利用多模态模型从图像和文本中提取隐含关系。这一方法结合角色的情感状态、位置和行为,通过时间序列分析构建更加复杂的动态人物关系网络。这种关系挖掘有助于生成更复杂和富有层次感的短剧情节,使剧本能够更好地反映现实中的复杂社交关系。