VITS2来袭~

**论文:**VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

**演示:**https://vits-2.github.io/demo/

**论文:**https://arxiv.org/abs/2307.16430

目前仍然存在的问题:

  1. intermittent unnaturalness

  2. low efficiency of the duration predictor

  3. complex input format to alleviate the limitations of alignment and duration modeling (use of blank token)

  4. insufficient speaker similarity in the multi-speaker model

  5. slow training, and strong dependence on the phoneme conversion.

提出的方法:

  1. a stochastic duration predictor trained through adversarial learning

  2. normalizing flows improved by utilizing the transformer block

  3. a speaker-conditioned text encoder to model multiple speakers' characteristics better.

相关推荐
Name_NaN_None几秒前
Win11 24H2新BUG或影响30%CPU性能,修复方法在这里
科技·电脑·游戏机
lindsayshuo4 分钟前
jetson orin系列开发版安装cuda的gpu版本的opencv
人工智能·opencv
向阳逐梦5 分钟前
ROS机器视觉入门:从基础到人脸识别与目标检测
人工智能·目标检测·计算机视觉
陈鋆30 分钟前
智慧城市初探与解决方案
人工智能·智慧城市
qdprobot30 分钟前
ESP32桌面天气摆件加文心一言AI大模型对话Mixly图形化编程STEAM创客教育
网络·人工智能·百度·文心一言·arduino
QQ395753323731 分钟前
金融量化交易模型的突破与前景分析
人工智能·金融
QQ395753323732 分钟前
金融量化交易:技术突破与模型优化
人工智能·金融
The_Ticker44 分钟前
CFD平台如何接入实时行情源
java·大数据·数据库·人工智能·算法·区块链·软件工程
ZStack开发者社区1 小时前
替代VMware | 大有期货采用云轴科技ZStack ZSphere虚拟化打造国产化数据中心
科技
Elastic 中国社区官方博客1 小时前
Elasticsearch 开放推理 API 增加了对 IBM watsonx.ai Slate 嵌入模型的支持
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索