VITS2来袭~

**论文:**VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

**演示:**https://vits-2.github.io/demo/

**论文:**https://arxiv.org/abs/2307.16430

目前仍然存在的问题:

  1. intermittent unnaturalness

  2. low efficiency of the duration predictor

  3. complex input format to alleviate the limitations of alignment and duration modeling (use of blank token)

  4. insufficient speaker similarity in the multi-speaker model

  5. slow training, and strong dependence on the phoneme conversion.

提出的方法:

  1. a stochastic duration predictor trained through adversarial learning

  2. normalizing flows improved by utilizing the transformer block

  3. a speaker-conditioned text encoder to model multiple speakers' characteristics better.

相关推荐
sino_sound5 分钟前
伦敦金的交易差价意味着什么?
人工智能·金融·区块链
金融机器智能官方10 分钟前
Paper Digest|OpenSPG 超大规模知识仓储 KGFabric 论文解读
人工智能
AI创客岛23 分钟前
随着越来越多的AI机器人渗透社交平台,各个平台都在制定新规则以应对
人工智能
柠檬少少开发24 分钟前
图像拼接算法及实现(一)
人工智能·算法·计算机视觉
天蓝蓝2352825 分钟前
自然语言处理(NLP)实战项目
人工智能·自然语言处理
Python极客之家29 分钟前
基于深度学习的眼部疾病检测识别系统
人工智能·python·深度学习·毕业设计·卷积神经网络
繁依Fanyi1 小时前
828 华为云征文|华为 Flexus 云服务器部署 RustDesk Server,打造自己的远程桌面服务器
运维·服务器·开发语言·人工智能·pytorch·华为·华为云
shuxianshrng1 小时前
鹰眼降尘系统怎么样
大数据·服务器·人工智能·数码相机·物联网
说私域1 小时前
开源 AI 智能名片小程序:开启内容营销新境界
人工智能·小程序
红米煮粥1 小时前
OpenCV-直方图
人工智能·opencv·计算机视觉