数字人的形象克隆与语音克隆是伪需求

形象克隆与语音克隆技术,在当前的环境上已经可以成熟的实现,但真的解决了痛点问题吗?

普通人或者一般的公司克隆自己内部人的形象有必要吗?对外界而言,克隆的形象与虚拟的形象并无二致,本身并没有什么知名度,克隆后也不会有大的改观,除非你想立这个人设,所以,没有知名度的人物的形象克隆都是伪需求。

再说声音克隆,存在同样的问题。除非你的声音非常有特色,比如高德地图里很多特色的语音包都是这种需求。

网红、知名IP、知名企业家、明星等等,他们有形象克隆与语音克隆的需求,其它的话并不是很站的住脚。你猎奇想自己玩玩可以,想规模化商用,你需要承担巨大的成本,至少目前来看是这样。

再说到成本,据笔者所知,火山引擎克隆语音的成本算是在很多大平台里,算比较便宜的,差不多150元一个(不支持更新),但并发很低,想规模化商用,需要购买并发,几千元每个并发每月的成本,也不是随便一个素人能够承担的起的。讯飞或者序列猴子等平台,语音克隆一个更是上万元起步,有时候还需要很多训练素材,比如微软,就需要差不多近小时语音素材,使用体验并不是很友好。

如果是嘴形驱动的形象克隆,只有头部有动作、眼睛眨眼、张嘴说话等等,其余都保持静态。如果想有动作,就需要360度实景拍摄才能达到几个标准动作,多余的动作同样的是不能有的,因为要应对不同的文字内容,非标准的动作让人觉得动作与内容不匹配。

所以,目前为止很多非实时的视频里,嘴形还是能比较完整的贴合内容,如果想实时的嘴形驱动,这个成本基本就是按分钟计算,实时的流式输出与用户互动,带宽及算力要求极高。

相关推荐
Wnq1007212 分钟前
养猪场巡检机器人的设计与应用研究
大数据·人工智能·数据挖掘·机器人·巡检机器人·北京玉麟科技巡检机器人
CM莫问6 小时前
<论文>(微软)避免推荐域外物品:基于LLM的受限生成式推荐
人工智能·算法·大模型·推荐算法·受限生成
康谋自动驾驶7 小时前
康谋分享 | 自动驾驶仿真进入“标准时代”:aiSim全面对接ASAM OpenX
人工智能·科技·算法·机器学习·自动驾驶·汽车
深蓝学院8 小时前
密西根大学新作——LightEMMA:自动驾驶中轻量级端到端多模态模型
人工智能·机器学习·自动驾驶
归去_来兮8 小时前
人工神经网络(ANN)模型
人工智能·机器学习·人工神经网络
2201_754918418 小时前
深入理解卷积神经网络:从基础原理到实战应用
人工智能·神经网络·cnn
强盛小灵通专卖员9 小时前
DL00219-基于深度学习的水稻病害检测系统含源码
人工智能·深度学习·水稻病害
Luke Ewin9 小时前
CentOS7.9部署FunASR实时语音识别接口 | 部署商用级别实时语音识别接口FunASR
人工智能·语音识别·实时语音识别·商用级别实时语音识别
Joern-Lee9 小时前
初探机器学习与深度学习
人工智能·深度学习·机器学习
云卓SKYDROID9 小时前
无人机数据处理与特征提取技术分析!
人工智能·科技·无人机·科普·云卓科技