阿里云席明贤：明天的视频云2.0

编者按

本文是"解构多媒体新常态"系列文章的第二篇，LiveVideoStack对话了阿里云视频云负责人席明贤（花名右贤）。面对风云变幻的内外环境，阿里云在视频云赛道是坚定向前的，在与右贤的接触中，他给我留下非常务实的印象。对话中，右贤没有回避多媒体行业当下面临的困难以及阿里云视频云的挑战，作为多媒体圈的新人，他用了很多时间调研了解市场和客户，他坚定地选择ToB作为突破口，绘声绘色地向我描述"云养猫"、"云上艺考"、"明厨亮灶"，甚至对VCM这些技术的价值了如指掌。他认为AI将把视频云升级到2.0，他说（允许团队）要拿出更多的研发资源去做产品创新研究，投资技术不怕失败。

希望透过此系列能够发现多媒体生态当下的新变化，痛点以及如何推动行业健康前行的思考与探索。如果你正战斗在行业发展前线，愿意分享自己的洞察与思考，欢迎联系 editors@livevideostack.com。

策划撰写 / LiveVideoStack、IMMENSE

时隔三个月，又一次见到右贤，少了初次见面时的寒暄，我们快速讨论了当下行业面临的挑战，彼此鼓励和祝福后，又各忙各的去赶下一场。这次会面前一周，我们进行了一个小时的对话。其间右贤向我抛出问题：对阿里云视频云有什么建议？拥有带领上千人的技术和业务团队、创造过年营收百亿的经历，右贤这个问题让我受宠若惊。他自称是个ToB老人，多媒体行业的机会让他很兴奋。

ABCDE，到Video

想用英国诗人托马斯·艾略特的作品，来照亮一个人的开场。

1934年的《The Rock》，是DIKW模型的源头，它揭示了从数据到智慧的内蕴，恰好和右贤的经历颇有牵系。

他开门见山，说自己是个IT老兵，20多年都在"计算"这个圈子内。大学时期学习计算机技术，研究生方向是高性能计算和普适计算，工作先后从事云计算、大数据、数据库、人工智能、边缘计算的产品规划和技术开发，也负责过钉钉教育业务。

仔细端详，他的阅历横跨AI + Bigdata + Cloud Computing + Database&DingDing + Edge Computing，而近一年又踏足了视频云，是一个从ABCDE到V的机缘巧合，有些奇妙。

右贤是一个ToB老人，又是个视频云新人。

谈到作为新人，对当下的视频云怎么看，他用**"非常新奇、大有可为"**来形容。

简单说，新奇是源于当下的社会视频化蔓延之势，给生活、工作、乃至万物的加持，这一切给大众带来了很大的便利性。在他看来，视频必然会成为万物交互的新方式，人与人、人与物、物与物，因为内容、沟通都在极速视频化，我们从早睁眼到晚睡觉都在跟泛视频打交道，"视频+万物"将会孕育出大量的新鲜事物及应用，这足够让他新奇万分。

关于他的时空履历，有叠加的化学效应，"之前做的那些产品技术相对来说，是偏底层的；而视频云是技术应用解决方案，它是全链路的、与业务强相关的；同时，这些视频业务的底层需要云计算、数据库、人工智能等融合支撑。正因如此，我过往的经历恰好在视频云这个赛道大有可为。"右贤说。

可以想象右贤领队下的阿里云视频云会发生怎样的变化，多媒体行业的周期与这名老兵的时间线交织在了一起，命运是最好的安排，他的经验正是阿里云视频云需要的。

视频云2.0

回到现实轨道，与"大有可为"强对比的，可能是音视频旧人眼里的瓶颈。

国内多媒体生态经过了6到8年的快速发展，目前进入到调整或平稳期，在这样的背景下进入这个赛道，对行业老人来说一定是难题，对赛道新人或许是另一番新境。

于是，右贤看出了需要迭代变化的新视频云。

依他的视角，如果说云赋予了视频，带来了视频云的1.0，去迎面消费互联网的全面爆发，那如今是AI赋予了视频云，带来了视频云2.0，去解决行业数智化的全新升级。

的确，这揭示了视频云的本质，从1.0到2.0，不知不觉，视频云的本质发生了变化。

右贤解释到，"在视频云1.0时代，视频应用主要集中在消费互联网领域，主要解决成本和体验问题，即B端的音视频企业成本和C端的用户体验。随着AI算力和大模型兴起，在视频云2.0时代，视频应用转向产业互联网领域，去解决各行各业场景化视频智能应用的问题，即视频如何支持行业数智化升级。视频云正在从1.0向2.0过渡。"

视频云2.0，这大概是一个赛道的新生命、新契机。

在对话中，能够感受到右贤对视频云的信心，"视频云2.0的价值在于通过基础大模型和场景小模型，来助力行业的数智化。 就此，阿里云视频云拥有三大关键能力：第一是规模能力 ，经过视频云1.0的蓬勃发展，阿里云成为全球和国内规模最大的视频云基础设施服务商之一，能提供高质量、高性价比的视频服务；第二是智能能力 ，基于阿里云通义大模型，可以向客户提供横贯媒资生产、处理、传输、消费全链路的产品智能化升级；第三是场景化服务能力，基于多年的丰富行业实践，可以向客户提供高易用、高性能的视频终端服务套件，全面降低客户使用门槛。同时，更能利用场景化小模型来实现行业应用的百花齐放。"

当然，不仅行业赛道正面临变革，技术突破也为视频云的服务升级创造机会。"我们从video for human正向video for machine过渡，如何在满足人的需求情况下，同时也满足机器？这让视频云2.0可能成为一种混合的职能。比如，编码就是既要满足人的主观体验，也要满足机器对视频的高速处理需求"，右贤说。

与此同时，AI、GPT等技术迭代正在为视频服务注入新的价值。从云养猫到云监考，从牧业养猪到农业育苗，从IPTV到工业质检，右贤列举了许多细分行业场景，透出他对新视频云的信心满怀。

ToB的耐心，100m 深

进入2023年，音视频行业市场空间见顶，除少量场景和个别公司外，大部分市场处于严重的内卷状态。许多企业不得不通过各种方式压缩成本，裁员自然是不可避免的方式之一。当然也有许多企业选择出海，在竞争不是那么激烈的海外市场拼杀。这是看到的不争事实。

每个管理者都一定在绞尽思虑，破行业的局、破自己的局。压缩成本不是可持续性的良策，海外拼杀也不过是平面维度的拖延，右贤在寻找别的维度的解法，在内卷度愈发难以呼吸的市场，给我们舒展开空间，上演宽度与深度的画面感。

显然，我们都了解消费互联网的ToC场景和产业互联网的ToB业务，于是，右贤打了个形象的比喻，给出他的理解，"ToC的赛道是100m宽，我们往往只需要做1m深，就能够满足70%到90%的客户需求，面对ToC就是快速满足这些需求。但是，做ToB ，做行业、做场景化，选择赛道往往只有1m宽，但你必须挖下100m深，才能创造更多的产品价值，深度服务好客户。"

相对于短平快的ToC场景，ToB的投资回报周期要长得多。这是事实，右贤心如明镜。

决定做好这条新维度的赛道，面对"100m深"的坚持，如何能让自己和团队保持耐心？面对这个尖刻又必然的问题，右贤很干脆的回应，"是这样，当我们挖到2米的时候会碰到石头，挖到50米会碰到岩石，所以怎么办？分两步。"

右贤展开讲，"首先，我们一定会继续深耕ToC消费互联网市场，做好基本盘。但也会把大家所聚焦的那1m深的赛道，持续深挖下去。也就是说，我们要把视频云的基础能力做到极致化，做到稳定性与体验性的极致、做到成本与性能的极致。"行业里的人都理解，稳定和成本就是消费互联网的最大痛点，但要把基础能力做到极致也并非易事。

侧面可感，阿里云视频云已在排兵布阵，显性突破。作为云厂商，做到超大规模化下的极致，需要站在顶层的抽象思维和重构设计，所以其内部强调**"Uni"** 的技术设计理念，即"统一"：从多元融合的统一网络，到媒体服务的统一引擎，再到一体化的终端利器，直达市场所需要的低门槛、低成本、高时效、高性能、泛应用。这是技术深度上的极致。

就在刚刚结束的LiveVideoStackCon2023上海站，阿里云在原来的GRTN网络基础上升级推出MediaUni多元融合流媒体传输网络，正如其名，目的就是极大满足音视频多元业务的传输需求，并以低成本、低延迟的极致姿态达成，更为面向未来的业务形态实现媒体与元数据的融合传输，这是强大的底座 。往上走，在关键的中间层，破局重组，设计全新的媒体服务顶层架构，打造规模化、智能化、多业务、灵活、开放的媒体服务中台，突破媒体服务的高时效与高质量，这是强力的发动机。

窥一斑而知全貌，能想象右贤所推进的基础设施极致化，需要怎样的坚定投入。如此，在深一步支撑ToC的同时，也在为ToB的加速做更扎实的储备。当然，远不止此，ToB场景更复杂多样，需要更深的洞察力、创造力和持久的耐心。

这也是右贤提到的第二步，用"全智能"内化之力，来满足更多ToB的数字化升级，换句话说，面向行业孵化场景应用，做一个标杆，照亮一片 。

他提到支持中国美院的"云上艺考"，"以前的艺术类考试，学生都要在短期抵达多个院校现场考试，艺考潮甚至像春运一样，网上也热传过'艺考生10天辗转多地赶考，卖掉一套房'的新闻，虽然略显夸张，但可见其赴考难度极大，考试公平性也很难保障。对此，我们通过AI与视频云技术，让美院的4万多名考生同时在线、居家考试，并以高可靠、高可控实现100%的全程顺利稳定，这说来轻易，但真实情况是踩过很多坑才能实践出来。项目结束，学校发来了感谢信，让我们倍受鼓舞，后来将这种场景方案复用创新在更多艺术院校。"

"我们还有一个有趣的场景------云养猫。我大概调研了一下，中国目前有宠物2.93亿只，如果你经常出差很难把猫带在身边。现在可以把猫托管社区或自己家里，通过视频我们可以跟宠物进行互动，包括投放猫粮、加水等等。此外，我们还做了很多工业质检的场景，其他行业新场景也都在探索落地中。"右贤很有期待地说。

或许，不同时空踏在音视频圈内外的他，从另个维度看到了更多景致和可能。

即使一切看起来繁花似锦，玩味无穷，也听到右贤反复提及，"ToB是一条艰难而正确的路"。

这条路，不仅需要"100m深"的耐心，也要多些好奇心 和创造力。

既要又要，普惠+生态

"数字化转型升级过程中，65% 的行业数字化信息来源于视频，**49%**的智能应用又是以视频为基础。这就是未来我们要对视频进行更多行业外应用的基础，由此，视频应用场景就会百花齐放了。"右贤说。

某种意义上，这就是千行百业的普惠。所以自始至终，右贤也深谙**"普惠"**。

2023年4月，阿里巴巴集团CEO张勇提出阿里云的战略核心是"让算力更普惠、让AI更普及"，反映在客户的认知或许就是众多云产品的价格下调，但本质是通过释放技术红利来实现普惠，让更多企业以更高性价比获得阿里云或视频云的服务，从而拥有更大的市场竞争力。

但更近一步，右贤强调，"**我们能够做的普惠，不仅仅是商业的普惠，还会做到对一些产业的普惠，即加速产业数字化进程。**比如，视频云更多定位为PaaS，产品还是以API的交付方式，就客户的技术能力和平台现状来讲，这对很多行业的客户要求非常高，实现是有一定难度的。集成周期通常都是在三天到一周，才能把视频语音的一些能力应用到客户自身的APP，过程中还存在海量设备兼容困难的问题，让整个时效比较低。"

这确实是当前普遍的交付模式和交付效率问题，解决它就能深化普惠。

"所以我们很早就提出了低代码甚至零代码，当然视频云零代码还不太现实，所以我们把很多的组件能力套件化，让企业降低集成的难度；同时，依托大模型，打造小模型，组合能力、适配场景，大幅提升交付效率，实现几小时即可上线。这是一种普惠。"

这里提到的，即是在持续升级的音视频开发工具MediaBox，据说是个百宝箱，具备丰富、极致、智能的能力，在高易用、高性能之下，极大满足客户真实需求的场景化。

"还拿考试为例，在居家条件下的云上艺考，一定需要比现场更有力的防作弊监考能力。于是，基于对线上艺考差异化情景的全面分析，我们的技术团队极速研发了基于 AI 的自动检测能力 ，叠加在MediaBox的远程监考方案中，满足艺考监测的全维度。这极大减轻学校监考压力，更能保障教育的公平与公正。在这之上，还能灵活应对各类新需求，比如，针对有的学生违规戴了蓝牙耳机，我们可以再叠加一个模型进去，以天为单位，就可实现新功能上线。目前，我们这套智能远程监考方案 已经成功复用在各类艺术考试、青少年编程考试、企业招聘考试中，这也是一种普惠。"右贤说。

透过一个小小考试场景360度的精细打造，能够看到一个音视频开发工具的真诚，这大概也是右贤所提到的"100m深"的坚持。有了这样的耐心和诚心，视频云的视野似乎也真正打开了。

"我们也很关注农业企业，交流了许多，比如，通过视频如何去监控牲畜的状态，以及如何去选苗、育苗，其实大部分企业不具备这样的能力，所以需要把这个智能技术使用门槛降低，这是一种更实在的普惠，而不是简单地把价格降低，因为把价格降再低，企业也用不起来"，右贤继续分享到。

能看得出，阿里云视频云很真诚在拓延行业的普惠，但视频云是偏方案型的服务，尤其面向视频云2.0的产业互联网，它更是一个典型的ToB赛道服务，与做一个应用或软件不同，会面对行业各种复杂的场景，这等同于数量级的个性化需求，一家厂商必然乏力。

于是，右贤给出他的直言，"我经常讲，我们是技术有限公司，也是能力有限团队。实际情况就是这样的，面向千百行业的需求，仅靠一家公司、一个团队是很难解决的，只有通过与业界广大的合作伙伴一起肩并肩、背靠背，才能快速解决客户的问题。因此，我们要与生态伙伴合作，彼此双向赋能。 生态伙伴会涉及到几类：一个，是面向大行业和行业领先的生态伙伴，我们会携手一起解决行业重难点问题，针对一些典型场景会以联合共创的方式展开合作；另一个，是面向广大的开发者或中小型ISV，我们会把能力标准化、原子化让他们易集成、易使用，实现低代码乃至零代码的集成，让我们的能力被真正用好。"

总言之，阿里云视频云要做生态伙伴做不了的或不容易实现的能力 ，比如底层的通用算力，比如一些较为复杂的算法模型，比如算法跟底层芯片的调优。而面向应用场景的优化微调，交给更擅长的ISV去做。"这样，把边界也切分清楚，我们会调动各行各业的生态伙伴，共同促进视频在行业智能化的价值，成就彼此。" 右贤这样说。

如果"既要又要"的话，普惠是包罗万象的期许，生态是明晰边界的觉知，一切都是为了更大的商业与社会价值。

有机未来，不止AI

不管舒展还是内卷，我们都更喜欢看未来。

"在未来，我会拿出更多的研发资源，不以商业为目的去做一些技术研究，做一些相对超前的技术储备"，右贤表示，"其实产品技术投资上不要怕失败，就怕没有想法、没有动力往前走，所以，如果很多事情是站在昨天规划今天，是在解决历史问题，你只能赢得当下。如果你不站在后天想明天做什么，你是永远都不可能走到后天去的，也很难赢得明天。"

谈及视频云的明天和后天，就回扣右贤最初对视频的认知，他认为，如果这是改变万物交互的方式，当下，人与人的音视频沟通已经做得很多、体验也不错，人与机器的沟通也可以通过NLP（自然语言处理）等技术来实现。未来，音视频技术还可以有更大的应用范畴，与AI融合，与AIGC、ChatGPT都要做有机的融合。

说到这一点，右贤提到一个概念，"有机融合"。

"**我觉得新技术目前可能很难再井喷，视频云需要做的是把众多技术进行有机的融合，这是更重要的。**技术不断的融合创新，融合后会衍生出很多意想不到的新场景，这个过程中，视频云会生长成为智能社会的新基建，带来的收益空间也是可预见的，会非常大。"

AI的融合是首要，且要看清其生长纹理。

"AI的发展经历三起三落，我们经常讲摩尔定律18个月，但由于AI算力的突破，后摩尔定律让AI基本每3到4个月，整个数据的算力需求就翻一倍，这意味着AI的进化会非常迅猛，包括衍生到今天的GPT、人工神经网络、脑科学等等。我认为， 人工智能是人工与智能两个词，今后一段时期，人工智能的重点会在智能上，技术和应用会聚焦在"数能生智"方面，DIKW模型会快速迭代。以前是"人工+智能"，现在是"智能+人工"，右贤笑着说。

换个角度，未来或许是AI理解世界，我们理解AI。

无论如何，谈及鲜为人知的DIKW金字塔，足见右贤对AI智慧的更深理解，这必然成为阿里云视频云在研发动能上的无形牵引。

于是，他的团队一直在探索实践，比如，AIGC方向，文本生成图片、图片生成视频，还包括2D到3D的融合直播等等。接下来，针对智能媒资管理，从标签标准到媒资自动化管理，也会加大投入。而面向video for machine的未来，阿里云视频云针对机器编码也在与相关标准组织合作，加速推进MPEG-VCM标准的制定。这是右贤列举的几个技术演进点。

不仅如此，右贤还将"视频"有机关联到"数据密集型科研"，认为其会成为未来科研的新范式 。什么是数据密集型？"其实就是大视频，它数据量很大，但数据价值密度相对较低，所以需要快速的分析。科研第四范式就是利用大数据进行科学研究，通过数学重构这个真实世界，而以前都是模拟、仿真，再往前就是实验观察、理论总结等等。在可预见的未来科研里，视频大数据显得尤为重要。"

视频、数据、智能、智慧、世界，这里看得出他有更深更远的视野。

倘若把视线再抬高一点，看视频云的未来，右贤还是那句话，"如果100%以商业价值，或许只能赢今天，不一定能赢明天。"

这也引出他对商业、技术、产品 的看法，也能以"有机融合"来点睛。在他看来，这三者不可割裂，是一个完整的有机体。

"产品技术是为商业服务的，也是为社会服务的。作为管理者，必须要跟团队讲明确，我们作为一个大家庭必须要有认知，无论是产品、技术、商业，我们都要敬畏市场、尊重客户。这是我从最初就特别强调的一个问题。**我们过往的发展模式过于敏捷迭代，很多技术也是ToC业务中沉淀起来的，但是，做ToB要非常讲究严谨、讲究价值，要围绕着商业价值、社会价值。**在这样的一个前提下，产品的商业价值要牵引技术的研发，从出发点到终点，都要做到真正的敬畏与尊重，最后就能实现很好的商业。"

辞海里，"有机"是代表有生命的，事物构成各部分互相关联而具不可分的统一性，与生物相同。这或许触类旁通了他对技术、商管的有机之见，也发现了视频云的新生命。

最后，如果寻几个词来素描右贤，大概是开阔、坚定、务实，一个赛道新人对瓶颈感行业生出很多新的觉知，这让他"ABCDE"的经验游历于Video之上的更高视野。**如果这份觉知和经验发酵，投射在2.0背景下的阿里云视频云身上，大抵如今年LiveVideoStackCon所述，是"云智新生"的视频云。**未来的未来，我们拭目以待。

LiveVideoStackCon是每个多媒体技术人的舞台，如果您在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的出品人/讲师。

扫描下方二维码，可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核，并与符合条件的优秀候选人进行沟通。

扫描上方二维码

填写讲师申请表单