「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024

你是否想过，未来你看到的电影预告片、广告，甚至新闻报道，都可能完全由 AI 生成？

在人工智能迅猛发展的今天，视频技术正经历着一场前所未有的变革。从智能编解码到虚拟数字人，再到 AI 驱动的视频生成，这一领域的创新正以惊人的速度推进。这些进步不仅提升了技术指标，更为实时互动、内容创作、广告营销等场景带来了全新的可能性。

在本届 RTE2024 实时互联网大会上，来自学界和业界的多位专家深入探讨了视频 AI 技术的最新进展。阿里巴巴达摩院的陈建华、声网的周世付、鹏城实验室的林荣群、双深科技的曹磊、生数科技的张旭东等行业专家分享了他们的研究成果和洞见。

北京大学的马思伟教授和声网视频编解码负责人戴伟分别主持了主题分享和圆桌讨论环节。

林荣群：AI 时代下的智能视频编解码新思路

鹏城实验室的林荣群博士以一个问题开篇：「如果视频内容全部由 AI 生成，我们该如何进行编码？」

林博士首先回顾了视频编码的发展历程，从早期以人眼感知为导向的保真度指标，到注重商业评级的阶段，再到如今 AI 时代对智能任务的需求，视频编码的目标不断演变。他指出，未来的智能编码不仅要满足人类视觉体验，更要服务于机器识别、检测等 AI 任务。

在介绍智能编码技术时，林博士强调了两个关键点：智能作为工具，提升我们对编码对象的理解；智能作为目标，服务于下游智能应用。他认为，智能编码的核心挑战在于对场景和对象进行结构化表示。「深入理解压缩对象，才能大幅提升压缩效率。」林博士解释道。

林博士随后详细介绍了几种智能编码的技术路线，包括传统编码与深度学习的融合、全神经网络框架以及生成式编码。他还特别介绍了鹏城实验室在文生视频大模型领域的实践，展示了团队基于国产框架和算力平台的最新成果。

展望未来发展方向，林博士提出了几个关键点：数据处理的重要性、算法优化、模型轻量化以及推理和采样速度的提升。

周世付：虚拟数字人的发展趋势与技术突破

声网人工智能算法负责人周世付首先介绍了虚拟数字人的基本概念，指出它是存在于数字空间中，拥有近似真人或卡通人物外貌、行为和特质的角色。一个成功的虚拟数字人需要兼具「好看的皮囊和有趣的灵魂」。

他将虚拟数字人的制作流程概括为三个阶段：建模、驱动和交互。建模阶段利用 AI 技术为特定人物创建模型；驱动阶段运用计算机视觉技术，赋予模型动态的表情和动作；最后，借助大语言模型，实现与虚拟数字人的自然流畅的交互。

展望未来，周世付认为虚拟数字人的发展将呈现四大趋势：

3D 智能数字人：3D 形式将成为主流，结合大语言模型实现更高级的智能化。
实时互动：传输表情参数而非图像像素，依靠终端设备重建数字人形象，实现低延迟、高流畅度的互动体验。
虚实融合：将数字人融入虚拟空间，增强沉浸式互动体验。
低成本应用：通过技术进步降低计算量和成本，推动数字人在更广泛的场景中应用。

陈建华：新一代视频编解码标准 VVC 的机遇与挑战

阿里巴巴达摩院高级算法专家陈建华从一线研发和应用的角度，深入剖析了 VVC（Versatile Video Coding）标准在实际落地过程中的关键问题。

关于 VVC 标准发布四年多来的发展现状，陈建华介绍说，支持 VVC 硬件的芯片正逐渐增多，包括联发科（MediaTek）、瑞昱（RealTek）等厂商均已发布相关产品。基于这些芯片，市场上已经出现了超过 100 款支持 VVC 的智能电视、机顶盒等设备。在软件生态方面，除了标准参考软件 VTM 之外，多个开源编解码器和播放器也已支持 VVC，为开发者提供了丰富的学习和研究资源。

以达摩院自研的 DAMO 266 为例，陈建华介绍了他们在软件解码器优化方面的创新成果。通过异构计算技术，将关键算法迁移到 DSP 等单元，显著降低了功耗，使 VVC 软解码在移动端的性能已接近 H.265 硬解码水平。这不仅扩展了 VVC 的设备覆盖范围，也为其大规模应用扫清了障碍。

曹磊：AI Codec 将引领视频编解码技术革新

双深科技 CEO 曹磊指出，在图像和视频大爆发的时代，提升编解码性能是实现降本增效的关键手段。AI 正在计算机视觉领域发挥越来越重要的作用，贯穿从成像到应用的整个过程。如果编解码也能融入 AI，整个流程将更加智能化。

曹磊指出，传统编解码技术发展到 H.266 后，提升空间已趋于平缓，且编码复杂度高，落地困难。相比之下，AI Codec 基于深度学习的端到端编码，能更好地表达细微特征，拥有更大的发展潜力。他引用了团队最新的研究成果，表明他们研发的 ANF 基础模型在平均数据序列上，相比 H.266 的参考软件 VTM，压缩率提升了约 25%，超越了 DCVC 等现有方案。同时，他还介绍了 IEEE 1857.11 HIV 标准，其中双深科技贡献了一项高效的并行熵编码核心专利。

曹磊重点分享了 AI Codec 在移动端落地的实践。为了实现落地，团队致力于模型轻量化，包括模型剪枝、蒸馏和量化等，并在算子定制化部署上投入了大量精力，以适应不同型号的手机 NPU。

张旭东：AI 视频生成技术的飞跃与实践

生数科技产品总监张旭东分享了 AI 视频生成技术的最新进展。他带领的团队深耕多模态大模型领域多年，亲历了从 GPT-3 到 ChatGPT 的技术变革，以及从图像生成到视频生成的跨越式发展。

张旭东回顾了团队在视频生成领域的探索历程。早在 2022 年，他们就提出了 U-ViT 框架，这一架构与后来备受瞩目的 Sora 有着诸多相似之处，其核心优势在于能够进行连续预测，从而获得更佳的一致性和效果。

生数科技的视频生成模型在实践中展现出多项显著优势：

强大的语义理解能力：能够精准捕捉复杂的场景描述。
多镜头语言支持：实现镜头间的流畅过渡。
极致的推理速度：仅需 30 秒即可生成一段视频。
出色的一致性表现：在不同场景中保持人物形象、动物特征等元素的一致性。
参考图像支持：可以根据提供的商品图、人物照片等生成相关视频。

这些特性赋予 AI 生成视频在广告制作、影视宣发等领域巨大的应用潜力。张旭东以动画电影《熊猫呼呼》和科幻电影《毒液》的宣传视频为例，展示了 AI 技术如何将原本 1-2 天的制作周期压缩至 3 小时内，极大地提升了效率。

圆桌讨论：视频生成的 ChatGPT 时刻何时到来？

在主题是「视频生成的 ChatGPT 时刻何时到来」的圆桌讨论中，声网视频编解码负责人戴伟担任主持人，邀请了包括始智 AI wisemodel 创始人刘道全、声网人工智能算法负责人周世付、生数科技联合创始人张旭东以及学界代表马思伟教授等嘉宾参与讨论。

刘道全认为，真正的「视频生成的 ChatGPT 时刻」需要融合图像、文本和语音等多种模态，生成完整的视频。目前的难点在于 多模态融合 ，但随着 LLaMA-Omni 等音频语言模型的出现，这种融合正在加速，未来可期。他还提到了始智 AI 在开源社区的贡献，例如 Sora 复刻计划，鼓励大家共同探索。

张旭东则对未来充满乐观。他认为，从技术的可用性来看，视频生成已经不再像过去那样生成不可用的内容，甚至已经与索尼等国际大 IP 达成合作，解决实际问题。但他指出，成本和渗透率仍然是制约因素 。目前单次视频生成的成本较高，限制了大规模应用。随着算力提升和算法优化，成本下降，渗透率将会提高，真正的「视频生成的 ChatGPT 时刻」也将到来。

周世付则从交互角度出发，认为 以语音交互为基础 ，结合大语言模型和数字人，或许会更快地推动「视频生成的 ChatGPT 时刻」的到来。

马思伟老师补充道，虽然视频生成面临一致性、时长等技术挑战，但从应用模式和技术发展来看，一些公司例如生数科技、智谱 AI 的 会员付费模式 ，既带来了资金支持，也积累了训练数据，形成了良性循环，推动着技术的进步。他乐观地认为，2024 年或许可以视为「视频生成 ChatGPT 时刻」的开端。

当机器也开始「生产」和「观看」视频，视频的意义将被重新定义。RTE2024 大会让我们思考，在人眼视觉之外，视频还能为我们带来什么？在机器视觉的时代，视频技术又将如何发展？这些问题，或许正是未来视频技术探索的方向。