火爆的数字人市场又有新消息来袭:火山语音的数字人小灿来了!
数字人小灿首曝视频
今年以来,在生成式AI浪潮的助推下,大量企业争相布局数字人赛道。市场之所以如此火热,是因为AI数字人已被视为人工智能时代智能交互的入口级产品,对于未来AI的广泛应用具有重要意义。
与虚拟现实时代数字人"高处不胜寒",市场接受度较低相比;如今,金融、汽车、文旅、政务、大型企业等B端行业用户均在迅速接受和尝试AI数字人,并密切关注着市场与技术的动态变化。
不过,AI数字人在商业化落地依然面临着诸多挑战,如何真正推动数字人走向普惠是当下市场的一道难题。为此,火山语音推出数字人小灿,为AI数字人在B端市场走出一条重要的落地路径,助推AI数字人走进广大B端业务场景。
数字人赛道火热,落地挑战不容忽视
IDC《中国 AI 数字人市场现状与机会分析》报告预测,到2026年,中国AI数字人市场规模将达到102.4亿元人民币。
毫无疑问,AI数字人市场前景非常广阔。但从虚拟现实时期开始,数字人虽然借势起跑,却始终面临着大规模商用场景缺乏、市场接受度低、技术成熟度不高、成本高居不下等挑战,以至于在B端市场举足不前。
以市场定位为例,超写实的3D虚拟数字人贴合真人形象,也更加符合B端市场各种场景的定位,却也受制于AI算法、文本转语音技术、算力等技术因素的综合影响,数字人产品质量良莠不齐,语音、表情、互动等生硬,在B端业务场景中定位也不够不清晰,华而不实逐渐沦为噱头。
与此同时,数字人又面临着高昂生产和运营成本、较长生产周期等问题,很多曾火爆一时的3D数字人均受困于成本问题,宛如流星般划过。业内人士介绍,一个3D AI数字人的年运营成本就高达数百万,也让诸多B端企业望而却步,市场接受度始终起不来。
事实上,数字人当前遇到的困境并不稀奇。究其原因,在产业发展的早期阶段,一项技术或产品要实现从小众到大众、从尝鲜者到主流群体的广泛应用,解决不了技术关和成本关两大难题,终究无法实现。
业界普遍认为,在政策导向、市场需求、资本支出和技术成熟度等因素的合理推动下,AI数字人在B端市场正处于爆发的前夕。当前,市场中尤其需要AI数字人的高质量"爆款",率先实现质量、成本与效率的兼顾,攻克技术关和成本关,牵引AI数字人全面融入B端业务场景。
相比之下,火山语音在数字人赛道属于先思而后行,其数字人小灿的定位非常清晰,即成为"提升工作效率+情绪价值"的副驾驶;同时作为首个超写实数字人,数字人小灿具备"善听"、"会说"、"能想"等特征,加上一站式拟人化服务,为数字人在B端市场带来新的启发。
首个超写实数字人,小灿颜才兼备
数字人小灿作为火山语音首位数字员工,火山语音介绍,未来或作为AI产品与技术的先导官服务内外。
作为超写实数字人,数字人小灿堪称颜值担当,不仅形象靓丽,而且气质不错。除了颜值之外,数字人小灿具备逻辑学家的人格类型,专业可靠、高理性逻辑,且才华横溢,对AI应用充满了天马行空的幻想。
数字人小灿"提升工作效率+情绪价值"副驾驶的产品定位,以及颜才具备的特征,都与B端业务场景的需求十分契合。众所周知,在B端业务场景中,业务逻辑较为复杂,通常具有一定的专业性,如果AI数字人语音、表情、互动生硬,不懂倾听、不会表达和不具备逻辑性,无法提升业务场景效率,就很难胜任业务场景的交互重任。
以金融业为例,IDC《银行数字科技五大趋势》报告认为,到2025年,超过80%的银行都将部署数字人,承担90%的客服和理财咨询服务。当前各种类型的金融机构均在试水AI数字人,像客服、理财咨询这类B端金融场景,AI数字人需要"看懂文字、听懂语言、做懂业务",不仅需要在场景中实现与客户的高效率交互,还需要具有共情能力,让服务有温度。
数字人小灿颜才兼备的背后,自然离不开火山语音在AI相关技术的深厚底蕴。
据悉在形象技术方面,火山语音联合字节游戏-朝夕光年江南团队,联合打造3D超写实形象,数字人小灿是艺术+AI技术结合体。数字人小灿具备开心、惊讶、愤怒等丰富的情感演绎能力,语音交互时表情自然流畅,这些离不开火山语音的3D超写实数字人整套形象设计、资产制作、高成本影视级cg管线视频内容制作能力,以及自研高逼真AI口型及动作驱动技术。例如在AI驱动动作层面,团队基于创新的Motion Blening技术,在动作切换时可生成过度帧,使得数字人在切换各类动作时不仅可以做到毫秒级切换,同时平滑效果自然无感知。
同时数字人小灿还是个"语言天才",会说英语、日语、粤语、东北话等十多种外语及方言,高保真还原真人音色、说话风格和声学环境特点,在市场中遥遥领先,这同样离不开火山语音在语音领域的技术底蕴。例如"一条音频秒级别音色复刻"技术(zero shot TTS),仅需要输入5秒钟到1分钟的音频,可秒级别极速复刻高保真还原真人音色、说话风格以及声学环境等特点;此外在核心技术架构全自研的基础上,各种指标(音质、相似度等)均居于学术界前沿,韵律模块基于自回归GPT类大模型研发,支持code-switch,即无论prompt为中文/英文,支持输出中文、英文及混合内容。
事实上,除了深厚的技术底蕴外,火山语音此次还非常注重以数字人为抓手,推动AI技术在B端的实践与落地。
深入行业场景,AI让工作生活更轻松
不可否认,当前AI数字人市场的火爆,也造成了一定的乱象,市场中也存在着大量良莠不齐的产品与方案。
业界普遍认为,AI数字人是推动AI技术在工作生活中落地的一个好抓手,能够真正带来B端行业交互效率和体验的提升,让人们的生活与工作更加轻松自如。但AI数字人在B端的普惠落地,还需要深入行业场景,找到产品与场景中的结合点,从而让数字人产品的价值得以呈现;并且需要具备规模化复制能力,降低AI数字人迈向B端行业用户的门槛。
通过数字人小灿,火山语音在AI数字人市场目标很明确,就是通过持续多版数字人产品的迭代,实现AI数字人质量、效率和成本并重,并让AI数字人深入行业场景,进而推动AI数字人在B端走向普惠。
在行业场景价值呈现方面,火山语音的数字人产品包括"播报型数字人"和"交互型数字人"两种类型,专注播报、交互、直播三大核心场景,可以面向金融、大消费、泛互等行业提供涵盖"金融客服"、"智慧导览"、"智能助理"、"虚拟直播"等场景细分解决方案,为B端用户带来交互体验的全方位升级。
为进一步降低AI数字人的门槛,火山语音AI数字人可以实现快速复刻数字分身,仅需5-10分钟视频,就可1:1还原真人,再结合声音复刻即可快速实现形象与声音的近乎完美还原,加速AI数字人在内容生产、视频直播、车载环境等诸多场景中的落地。
更加重要的是,火山语音一直在技术层面持续迭代和优化数字人产品。例如,近年来,火山语音深度参与到"实时高逼真孪生数字人关键技术研发与应用示范"等多个国家重点项目建设,通过产学研用联动,推动AI数字人相关技术的应用。
随着数字人小灿的问世,火山语音已经在数字人领域已经取得阶段性成果,为市场带来了质量、成本和效率并重的AI数字人一体化服务。面向未来,随着AI数字人市场不断发展,火山语音的AI数字人产品与服务有望在B端行业中遍地开花。