VITS2来袭~

**论文:**VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

**演示:**https://vits-2.github.io/demo/

**论文:**https://arxiv.org/abs/2307.16430

目前仍然存在的问题:

  1. intermittent unnaturalness

  2. low efficiency of the duration predictor

  3. complex input format to alleviate the limitations of alignment and duration modeling (use of blank token)

  4. insufficient speaker similarity in the multi-speaker model

  5. slow training, and strong dependence on the phoneme conversion.

提出的方法:

  1. a stochastic duration predictor trained through adversarial learning

  2. normalizing flows improved by utilizing the transformer block

  3. a speaker-conditioned text encoder to model multiple speakers' characteristics better.

相关推荐
睿创咨询5 分钟前
科技与商业动态简报
人工智能·科技·ipd·商业
科技在线5 分钟前
科技赋能建筑新未来:中建海龙模块化建筑产品入选中国建筑首批产业化推广产品
大数据·人工智能
HED15 分钟前
用扣子快速手撸人生中第一个AI智能应用!
前端·人工智能
极小狐17 分钟前
极狐GitLab 如何 cherry-pick 变更?
人工智能·git·机器学习·gitlab
小宋加油啊19 分钟前
深度学习小记(包括pytorch 还有一些神经网络架构)
pytorch·深度学习·神经网络
沛沛老爹21 分钟前
从线性到非线性:简单聊聊神经网络的常见三大激活函数
人工智能·深度学习·神经网络·激活函数·relu·sigmoid·tanh
0x21130 分钟前
[论文阅读]ReAct: Synergizing Reasoning and Acting in Language Models
人工智能·语言模型·自然语言处理
九河云33 分钟前
物联网赋能玻璃制造业:实现设备智能管理与生产协同
科技·物联网·重构·云计算·制造
何大春40 分钟前
【视频时刻检索】Text-Video Retrieval via Multi-Modal Hypergraph Networks 论文阅读
论文阅读·深度学习·神经网络·计算机视觉·视觉检测·论文笔记
mucheni42 分钟前
迅为iTOP-RK3576开发板/核心板6TOPS超强算力NPU适用于ARM PC、边缘计算、个人移动互联网设备及其他多媒体产品
arm开发·人工智能·边缘计算