VITS2来袭~

**论文:**VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

**演示:**https://vits-2.github.io/demo/

**论文:**https://arxiv.org/abs/2307.16430

目前仍然存在的问题:

  1. intermittent unnaturalness

  2. low efficiency of the duration predictor

  3. complex input format to alleviate the limitations of alignment and duration modeling (use of blank token)

  4. insufficient speaker similarity in the multi-speaker model

  5. slow training, and strong dependence on the phoneme conversion.

提出的方法:

  1. a stochastic duration predictor trained through adversarial learning

  2. normalizing flows improved by utilizing the transformer block

  3. a speaker-conditioned text encoder to model multiple speakers' characteristics better.

相关推荐
沃洛德.辛肯1 分钟前
PyTorch 的 F.scaled_dot_product_attention 返回Nan
人工智能·pytorch·python
charles_vaez18 分钟前
开源模型应用落地-模型上下文协议(MCP)-Resources-资源的使用逻辑
深度学习·语言模型·自然语言处理·开源
sy_cora26 分钟前
IEEE 列表会议第五届机器人、自动化与智能控制国际会议
运维·人工智能·机器人·自动化
吹风看太阳30 分钟前
机器学习08-损失函数
人工智能·机器学习
m0_7401546732 分钟前
《k-means 散点图可视化》实验报告
人工智能·机器学习·kmeans
zhz521433 分钟前
AI数字人融合VR全景:开启未来营销与交互新篇章
人工智能·ai·交互·vr·ai编程·智能体
智源研究院官方账号35 分钟前
智源联合南开大学开源Chinese-LiPS中文多模态语音识别数据集
人工智能·语音识别
Thomas_YXQ1 小时前
Unity3D Overdraw性能优化详解
开发语言·人工智能·性能优化·unity3d
家庭云计算专家1 小时前
还没用过智能文档编辑器吗?带有AI插件的ONLYOFFICE介绍
服务器·人工智能·docker·容器·编辑器
ayiya_Oese1 小时前
[训练和优化] 3. 模型优化
人工智能·python·深度学习·神经网络·机器学习