如何打造“面向体验”的音视频能力——对话火山引擎王悦

编者按： 随着全行业视频化的演进，我们置身于一个充满创新与变革的时代。在这个数字化的浪潮中，视频已经不再只是传递信息的媒介，更是重塑了我们的交互方式和体验感知。作为字节跳动的"能力溢出"，火山引擎正在飞速奔跑。根据2023《中国视频云市场跟踪，2023上半年》报告显示，在视频云解决方案市场上，火山引擎的市场占有率排在第五位。

从在北京创业时听着路演写代码，到成为火山引擎视频云架构的技术总监，王悦的经历横跨了几代视频编解码标准的长度，而他的每一步都不偏不倚地踩在了视频发展的重要节点。这次的LiveVideoStackCon上，他将带领火山引擎带来「抖音背后的体验增长」的实战揭秘。他所在的火山引擎视频云部门期望借助海量的富媒体内容带来更顺畅的画质体验、更优质的交互体验、更流畅的播放体验和更佳的性能体验，再通过火山，给整个行业去提供整个端到端的视频云的解决方案。以下是LiveVideoStack与王悦的对话------

视频，重塑了我们的生活方式

LiveVideoSatck：2018年加入字节跳动（以下简称字节），如今已经五年了。这五年的时间里，你都经历了哪些变化和成长，其中让你印象最深刻的是什么？

王悦：整体上都是围绕多媒体技术和架构，职责和工作重心随着业务的增长和组织的需求持续有些调整。印象最深刻的应该还是随着公司业务的成长，我们的技术、业务和组织理念逐步实现了一个比较大的转变，**从一个偏解决方案、技术支撑的部门角色演进到了围绕云上的商品和服务来建设，**因此大家看到了今天的火山引擎，今天的视频云。

LiveVideoStack：过去十年是飞速发展的十年。从传统互联网到移动互联网再到现在一个相对平稳的状态，你怎么总结上个十年的行业的变化，或者说它在你身上产生的投影？

王悦：其实我们可以算一下，你每天刷抖音、短视频多长时间，每天是不是要开几个视频会议，这些典型的场景在行业上又催生出多少个像抖音、腾讯或Zoom这样的公司。从另外一个角度讲，我们每天面对这些太司空见惯了，所以去回顾当时的产品可能没有那么深的感触。但我记得十年前第一次出现 UGC 直播创业的公司、第一次用 Zoom 开会、第一次看到桌面共享居然可以做到这么丝滑。在看到那些场景的时候你会觉得这种创新变革是非常巨大的，那个时候的兴奋感是非常强的。总体来说，视频编解码的标准虽然一直在变，但基本框架这20年来几乎没怎么变过，用户对于超高清、低延时、强交互的体验需求也一直存在，我们也在根据行业和用户场景的需求不断地适应、迭代和改进。

抖音背后，用户体验提升的秘诀

LiveVideoStack：你之前有提到过，目前视频编码的迭代的速度已经追赶不上这个视频数量增长速度，火山引擎是如何解决这一问题的？

王悦：简单来讲就是提升算力的密度和规模。在并行计算方面，摩尔定律还没失效，这也是为什么现在NVIDIA还是能持续高速地增长。首先就是挖掘一个场景，在这个场景下，确保算力能够指数级地跟上业务的需求。另外就是专芯专用，就是专用的芯片去做专业的事情。因为通用计算做编解码效率并没有那么高。为什么现在大家都在做专用的视频编码芯片，它就是可以把单位芯片面积的算力发挥到极致。所以综合这两点，一个是这个专业计算，一个是极致密度，我们通过异构计算的矩阵，充分保障了我们视频转码和处理的效率。

LiveVideoStack：提到NVIDIA，你们一同合作的视频处理框架（BMF）在今年8月份正式发布，目前，实践起来情况如何，对抖音、西瓜等带来了怎样的帮助？

王悦：我们与NVIDIA合作的视频处理框架BMF在抖音、西瓜等内部业务上经过了充分应用和验证。对于量更大、处理链路更复杂的点播转码场景，BMF已经全量上线了，包括了视频检测、增强、转码等各个环节，过程中BMF的性能和稳定性，以及对于开发效率的提升已经被充分验证。除此之外，BMF在内部的审核抽帧、云编辑、直播转码、移动端增强等场景都有广泛的应用。我们自己主要的收益点还是提升了开发效率，降低维护成本和出错概率，加快新业务、新功能的接入和上线速度。

LiveVideoStack：拿视频云团队来说，你们对于降本增效有压力吗？

王悦：目前来看的话其实还好，未来多媒体的的增量空间还有多少我们可能都会考虑。现在看来起码两三年内还是比较乐观的，我们自己做ToB虽然很难，但是从0到1还是有很多去发力的空间。对于火山引擎自己的经验来说的话，之前一直要给大家剖析一个非常详细的方法论，这次在深圳站结束之后，**我们联合抖音撰写了一份面向体验的白皮书，**比如"体验、成本和技术三者的均衡，抖音是怎么做的？火山又是通过什么技术驱动的手段实现的？" 、"沉浸上的体验、画质的体验和交互的体验在点播、RTC和架构上怎样实现的"，以上这些内容我们都会详细阐述。

关于危机、机会和未来

LiveVideoStack：目前，我们能看到的主流的流媒体公司都在增效、减员、压缩。下一个时代看上去是属于人工智能的时代，是不是证明流媒体的时代就结束了，或者说暂时告一段落了？

王悦：首先，我觉得不能叫结束吧，只能说现在整个行业渗透到了一个相对平稳的时期了，但这并不意味着这个行业的人就失业了，只是像十年前那样从0到1 的机会和空间越来越少。但回想我10年前博士毕业的时候，当时的音视频从业者也非常少，我硕士毕业的时候，9个同学有8个去了银行，那个时候做视频编解码的公司几乎没有，只有外企去做标准，国内你会用ffMPEG，会做基本的一些开源方案的使用或维护就够了。现在看我们整个国内的音视频流媒体的从业人员有多少？这其实已经是十年以前不可比拟的。所以从这个角度讲我觉得不能说是停滞了，只是无法保持像上个十年一样的增速。

LiveVideoStack：其实流媒体的从业者，无论从智商还是能力上来讲，都是非常出色的人。你觉得面临人工智能这样的一个新兴的技术革新的危机，我们应该怎么面对或者拥抱它？

王悦：其实我觉得不止流媒体，所有技术人都会面临技术被革新的难题。你需要去学新的语言、新的开发框架。但是未来是否AI就取代了流媒体？我觉得这不是两个冲突的概念。流媒体的本质是帮助我们获取信息、分享信息和传递信息的载体，但AI本身是一个工具，它能做的是帮助我们提升分享内容的效率，或者是提升内容本身的丰富度。**我们完全可以用 AI 的工具帮助我们把流媒体这个空间打开的更大一些。**因为技术本身是没有边界的，我们做流媒体的人跨界去学点 AI 的东西，完全没有任何问题。

大模型会释放出很多机会，一些偏机械化的开发工作可能不需要人去做，并且整个行业还在持续聚集。马太效应还在一直往前走，就像刚才说的，可能最早做直播的有上百家上千家，但现在会相对更精专化。未来如果持续集中的话，这些底层的技术资源也会相应的集中。

LiveVideoSatck：单个人创造的价值可能会更大。

王悦：是的。

LiveVideoSatck：抛开这种内部的优化升级，你觉得未来新的增量机会在哪？

王悦：虽然整体上大家觉得可能该挖掘的都被挖掘了，但我们还是要**保持乐观。**10年前甚至20年前，我们第一次用VCD的时候，我们是想象不到会有今天这样一个场景的。目前行业确实比较饱和，大家看不到新的增量空间。但市场是为未来买单的，说不定未来我们还是能挖掘到一些新的场景，能够让我们获取信息或者分享模式上有一些变革。可能我给不出一些明确的答案，但是一定不排除市场上有一些新的创业公司，或者一些新的突发事件能够带给这个行业一些新的变革。

LiveVideoStack：这次11月24-25日的LiveVideoStack Con 大会上，火山引擎会重点分享抖音的体验优化，给我们介绍一下其中的方法吧。

王悦：之前关于体验优化关于这方面已经分享了很多，简单归纳的话，首先明确数据指标，找到指北针，关键的业务目标是什么，要优化的QoE和QoS指标什么，这些指标之间有怎样的量化和內联关系；然后，要让数据体系正向运转起来，需要一套完善、稳定的工程系统和数据工具，如AB test、智能分析工具等；最后，这套优化体系的原动力，还是来自于一系列的算法和策略，如何提升画质、降低延时和卡顿，这就主要依靠技术同学的技术能力和洞察力了。