结合微帧编码引擎，从视频编解码角度对Sora浅析

要问2024开年什么东西最火，那一定是OpenAI发布的轰动全球的视频生成模型------Sora，与之前的视频生成模型相比，Sora的特点是能够生成长达1分钟的视频，同时保持高视觉质量和视觉一致性，这无疑是生成式AI的一项重大突破，OpenAI亦表示，Sora是能够理解和模拟现实世界的模型的基础，这一能力将是实现AGI（通用人工智能）的重要里程碑。

随着以Sora为代表的视频生成模型的快速发展，它们在不同领域的应用也正在加速，如降低电影行业制造成本及门槛、为教育行业提供更具吸引力的视频讲解内容等等......可以预见，未来的视频量级将会呈指数型增长。

视频编解码作为视频底层核心技术之一，发挥着至关重要的作用，视频编码算法直接影响到视频的生产、传输、质量、成本等。微帧作为视频编码行业的领军企业，非常关注AIGC的行业动态，Sora发布后，微帧产研团队从编解码角度对Sora样例视频做了一系列的分析。

·Sora采用的编码器：开源软编x264、硬编

首先我们查看了所有视频的信息，发现均为H.264/AVC编码标准、帧率为30fps、分辨率最高为1080P的视频，且所用编码器输入的都是8bit YUV420格式。其中部分视频所采用的编码器为开源软编x264，另一部分未显示编码器信息，且这部分视频码率偏高，这里我们猜测可能使用的是硬编。

我们挑选了一组视频进行帧类型对比【x264编码的视频Tokyo-walkVS未显示编码信息的视频Flower- blooming】，发现Flower-blooming视频并没有设置B帧，而无B帧这个特点也呈现了"未标注编码器信息的视频为硬件编码"的较大可能性。

· 对比x264，微帧编码引擎可节省45%~65%码率

Sora这次公开的经典视频Tokyo-walk采用的就是开源x264软件编码器，分辨率为1080P，码率为6459kbps，体积大小为46.1MB。

我们将此视频分别用微帧编码引擎WZ264、WZ265进行了编码压缩处理，WZ264编码后的视频码率节省了45.3%（降低到3532kbps），WZ265编码后的视频码率节省了64.7%（降低到2281kbps） ，下面我们来看看对比效果。

从远景上看，无论是人眼感兴趣区域的人物主体，还是背景灯光、建筑物、虚化的人群，WZ264与WZ265编码压缩后的每一帧都与源视频无异。

再看细节，皮肤纹理、发丝、痘印瑕疵、眼镜反射物等，也基本与源视频一致。

此经典视频的整体画面较为复杂，编码过程中需要处理的信息较多，如果是更简单的画面，微帧编码引擎的压缩率是否会更高？如果是硬编处理（未显示编码器信息）的源视频，压缩率又是如何？

· 对比硬编，微帧编码引擎可节省60%~90%码率

我们挑取10组画面相对简单、硬编处理的源视频，看看WZ264及WZ265的处理结果，可以发现，WZ264能够减小70%左右的码率，WZ265压缩率则更高，能够减小80%左右的码率。

其中，压缩率最高的视频为Flower-blooming，源视频码率为12049kbps，经WZ264编码后的视频码率节省了79.37%（降低到2487kpbs），WZ265编码后的视频码率节省了88.92%（降低到1335kbps）， 以下是与源视频的画面对比效果，可见在压缩率如此之高的情况下，画面质量依然保持每一帧都与源视频几乎无差异。

·缘于编码技术，微帧与OpenAI建立联系

Sora目前对外展示的视频均为H.264标准视频，原因不言而喻，因其兼容性更高，能向所有用户展示研发成果。但更新一代的视频编码标准H.265及AV1的压缩率更高，待Sora向大众开放使用后，是否会考虑到视频体积问题而加入"可支持输出视频编码标准为H.265、AV1"的选择项，目前还未知，但值得期待。

再者，如果以Sora为代表的视频内容生成端，选择采用像微帧编码引擎这样的更高效率的编码器，为用户输出更高质量、更小体积的视频，也能为后续的视频传播分发带来极大价值。

基于以上分析，微帧海外团队联系了 VP of Research at OpenAl 。OpenAI表示，在目前Sora的初始阶段，主要精力投入在大模型优化改善上，视频编解码并非高优任务，也期望未来与微帧进行详细的技术交流和合作探讨。同样微帧也非常期待，当"AI生成"与"视频传播"深度链接以后，能够与OpenAI共同探讨AI与视频编码的结合，一起探索创新。