文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

2024年7月31日，中文专用的多层次文生视频基准测评AIGVBench-T2V 发布更新，新增了四大模型：Runway Gen-3 、智谱清影 、可灵网页版 和 PixVerse V2。

本次更新进一步丰富了测评基准的广度和深度。其中，Runway Gen-3 是由位于美国的公司 Runway 开发，代表了海外模型的先进水平。与此同时，智谱清影、可灵网页版和 PixVerse V2 均由国内领先的人工智能公司研制，展示了中国在视频生成技术领域的卓越成果。AIGVBench 通过引入这些新模型，旨在为用户提供更全面的评测数据，帮助他们在选择视频生成工具时作出更为明智的决策，促进中文视频生成领域的研究、开发与技术创新。

# 测评结果首览

总榜单

六大场景得分

排行榜地址：www.SuperCLUEai.com

官网地址：www.CLUEbenchmarks.com

__AIGVBench____登录页：www.AIGVBench.com

# 测评体系

AIGVBench-T2V文生视频测评体系包括测评指标与应用场景，其中测评指标汇总如下：

文生视频测评设置了六大应用场景：资讯、广告、电影、纪录片、短视频、中华文化场景。具体信息如下：

# 测评方法

在本研究中，我们通过使用具备视频理解的超级模型（Gemini-1.5-Pro），对视频生成技术的性能进行了全面的评估。该评估流程分为以下几个步骤：

1.任务分配与数据采集：

我们从待评估的模型或产品中选取了100个预设任务，这些任务代表了不同的视频生成需求，包括了6大应用场景。例如，一个任务可能是根据给定的文本描述一辆SUV汽车内部空间及外部风景的视频。

**2.**评分标准与提示词使用：

Gemini-1.5-Pro根据预先定义的提示词（prompt）进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求，确保评分的一致性和公正性。

例如，对于感官质量的评分，提示词可能指定要考虑视频的画面稳定性、外观一致性和视觉美观度。

3.自动化评分：

Gemini-1.5-Pro将根据视频的感官质量、文本指令的遵循程度、以及视频中物理现象的真实模拟能力进行自动化评分。

每个一级维度都会得到一个分数，例如，在SUV汽车内部空间及外部风景的视频任务中，如果视频在不同帧中保持汽车内饰和外景的外观一致性，展示高分辨率的稳定画面，以及真实且视觉吸引力强的构图，那么其视频感官质量将获得高分评价。

4.综合评分与反馈：

最终，我们将三个一级维度的平均分计算出来，作为模型或产品的总评分。这个分数综合反映了视频生成技术的综合性能。

结果将以统一的输出格式提供，包括每个单独任务的详细评分和总体评价。具体见【测评示例】。

通过上述流程，我们的测评方法，提供了一个客观、细致的技术评估框架，可以精确地评价和指导视频生成领域的技术发展。这种评估不仅帮助开发者理解产品性能，在实际应用中也极具参考价值，尤其是在优化和调整视频生成模型时。

此外，我们还以分层抽样的方式，从4个待测模型或产品中选出100个预设任务的输出，对视频质量与大模型评价的一致性进行主观打分，作为本次测评可信度的一个参考（具体见【人类一致性评估】）。

# 新增模型

注：执行测试的时间为2024年7月29日~2024年7月31日。

# 测评示例

**【测评模型】：**可灵

**【应用场景】：**影视

**【提示词】：**生成动漫风格的视频，一只小猫盯着鱼缸里游动的小鱼发呆。

**【生成视频】：**如下

【评价打分】：

---逐项打分开始---

我的思考与答案：

该视频片段展示了一只小猫盯着鱼缸里游动的小鱼的场景。画面较为清晰，但缺乏动漫风格的特征，例如明显的线条感、夸张的表情等。

问题及改进的反馈意见：

可以尝试使用卡通渲染或其他技术，使画面呈现出明显的动漫风格。
小猫的眼神可以更加专注，例如放大瞳孔、增加眼神的细节等。

打分与评价开始：

基于标准1（视频感官质量评估）：

外观一致性：小猫和鱼的外观在不同帧之间保持一致。得分：5分
画面稳定性：画面清晰稳定，没有明显的噪点和失真。得分：4分
构图真实性：小猫和鱼缸的比例协调，整体布局符合认知。得分：4分
视觉美观度：画面较为清晰，但缺乏动漫风格的特征。得分：2分

一级维度得分：(5+4+4+2)/4 = 3.75

基于标准2（文本指令遵循能力）：

对象准确性：视频中出现了小猫、鱼缸和小鱼，符合文本描述。得分：5分
数量准确性：小猫、鱼缸和小鱼的数量均符合文本描述。得分：5分
要素完整性：视频展现了小猫盯着鱼缸里游动的小鱼的场景，符合文本描述。得分：5分
特征精准性：小猫盯着小鱼，表现出好奇或渴望的神情，符合文本描述。得分：4分

一级维度得分：(5+5+5+4)/4 = 4.75

基于标准3（物理真实模拟能力）：

流体动力表现：鱼缸内的水流效果较为自然。得分：4分
动态真实性：鱼的游动姿态较为自然，但小猫的动作略显僵硬。得分：3分
光影效果：光影效果较为平淡，可以尝试增强明暗对比，突出立体感。得分：3分
交互仿真度：小猫和鱼之间缺乏互动，例如小猫可以尝试用爪子抓鱼。得分：2分

一级维度得分：(4+3+3+2)/4 = 3

综合以上，AI助手的回答的综合得分（平均分）为：[(3.75 + 4.75 + 3) / 3 = 3.83]

----逐项打分结束----

# 测评结果

总榜单

高级难度任务榜单

基础难度任务榜单

六大场景得分

# 模型对比案例

**提示词1：**生成一辆汽车连续穿过森林、山地、浅滩的广告视频。

【Runway Gen-3】：4分

【智谱清影】：4.17分

【可灵网页版】：3.83分

【PixVerse V2】：3.75分

**提示词2：**在一个半导体工厂中，一个工程师模样的老年男子正在接受采访，背景是芯片产品的生产线。

【Runway Gen-3】：4.83分

【PixVerse V2】：3.47分

**提示词3：**生成动漫风格的视频，一只金色的凤凰和一条黑色的恶犬在空中斗法，天空中乌云密布、电闪雷鸣。

【Runway Gen-3】：4.42分

【PixVerse】：3.25分

【可灵网页版】：3.61分

# 测评分析及结论

**1.**Runway Gen-3 在综合得分和多项指标中表现最佳

Runway Gen-3 在各个场景中的评分普遍较高，尤其是在资讯（81.9分）、影视（79.18分）和短视频（80.18分）方面表现尤为突出，显示出其在多种应用场景中的强大能力。智谱清影由智谱华章开发，以75.08分排名国内第一，特别擅长文本指令遵循。可灵网页版由快手开发，以75.02并列国内第一，表现稳定可靠。PixVerse V2 由爱诗科技开发，以73.32分排名国内第二，表现均衡且适应性强。

**2.**智谱清影和 Dreamina即梦在中国文化场景中表现突出

在中国文化场景中，智谱清影（76.65）和 Dreamina即梦（82.00）表现优异，特别是 Dreamina即梦在这一场景下得分最高，达到82.00。这表明这些国内模型在处理与中国文化相关的视频生成任务时具备显著优势，能够更好地理解和呈现中国文化元素，适合用于本土化的内容创作。

3.国内模型在高难度任务中表现强劲：

国内模型如智谱华章的智谱清影（75.24）和字节跳动的 Dreamina即梦（75.80）在高难度任务中表现优异，分别位列国内第三和第一。此外，快手的可灵网页版（73.13）和可灵（70.98）也表现不俗，进入国内前五。这显示了国内模型在高难度任务处理上的强劲实力和竞争力。

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包 》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！

💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）

💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。