数字人的形象克隆与语音克隆是伪需求

MavenTalk2024-08-21 14:45

形象克隆与语音克隆技术，在当前的环境上已经可以成熟的实现，但真的解决了痛点问题吗？

普通人或者一般的公司克隆自己内部人的形象有必要吗？对外界而言，克隆的形象与虚拟的形象并无二致，本身并没有什么知名度，克隆后也不会有大的改观，除非你想立这个人设，所以，没有知名度的人物的形象克隆都是伪需求。

再说声音克隆，存在同样的问题。除非你的声音非常有特色，比如高德地图里很多特色的语音包都是这种需求。

网红、知名IP、知名企业家、明星等等，他们有形象克隆与语音克隆的需求，其它的话并不是很站的住脚。你猎奇想自己玩玩可以，想规模化商用，你需要承担巨大的成本，至少目前来看是这样。

再说到成本，据笔者所知，火山引擎克隆语音的成本算是在很多大平台里，算比较便宜的，差不多150元一个（不支持更新），但并发很低，想规模化商用，需要购买并发，几千元每个并发每月的成本，也不是随便一个素人能够承担的起的。讯飞或者序列猴子等平台，语音克隆一个更是上万元起步，有时候还需要很多训练素材，比如微软，就需要差不多近小时语音素材，使用体验并不是很友好。

如果是嘴形驱动的形象克隆，只有头部有动作、眼睛眨眼、张嘴说话等等，其余都保持静态。如果想有动作，就需要360度实景拍摄才能达到几个标准动作，多余的动作同样的是不能有的，因为要应对不同的文字内容，非标准的动作让人觉得动作与内容不匹配。

所以，目前为止很多非实时的视频里，嘴形还是能比较完整的贴合内容，如果想实时的嘴形驱动，这个成本基本就是按分钟计算，实时的流式输出与用户互动，带宽及算力要求极高。