VITS2来袭~

**论文:**VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

**演示:**https://vits-2.github.io/demo/

**论文:**https://arxiv.org/abs/2307.16430

目前仍然存在的问题:

  1. intermittent unnaturalness

  2. low efficiency of the duration predictor

  3. complex input format to alleviate the limitations of alignment and duration modeling (use of blank token)

  4. insufficient speaker similarity in the multi-speaker model

  5. slow training, and strong dependence on the phoneme conversion.

提出的方法:

  1. a stochastic duration predictor trained through adversarial learning

  2. normalizing flows improved by utilizing the transformer block

  3. a speaker-conditioned text encoder to model multiple speakers' characteristics better.

相关推荐
tangjunjun-owen6 分钟前
第四节:GLM-4v-9b模型的tokenizer源码解读
人工智能·glm-4v-9b·多模态大模型教程
冰蓝蓝11 分钟前
深度学习中的注意力机制:解锁智能模型的新视角
人工智能·深度学习
橙子小哥的代码世界19 分钟前
【计算机视觉基础CV-图像分类】01- 从历史源头到深度时代:一文读懂计算机视觉的进化脉络、核心任务与产业蓝图
人工智能·计算机视觉
新加坡内哥谈技术1 小时前
苏黎世联邦理工学院与加州大学伯克利分校推出MaxInfoRL:平衡内在与外在探索的全新强化学习框架
大数据·人工智能·语言模型
SomeB1oody2 小时前
如何正确计算显示器带宽需求
科技·计算机外设
fanstuck2 小时前
Prompt提示工程上手指南(七)Prompt编写实战-基于智能客服问答系统下的Prompt编写
人工智能·数据挖掘·openai
lovelin+v175030409662 小时前
安全性升级:API接口在零信任架构下的安全防护策略
大数据·数据库·人工智能·爬虫·数据分析
wydxry2 小时前
LoRA(Low-Rank Adaptation)模型微调
深度学习
唐小旭2 小时前
python3.6搭建pytorch环境
人工智能·pytorch·python
洛阳泰山2 小时前
MaxKB基于大语言模型和 RAG的开源知识库问答系统的快速部署教程
人工智能·语言模型·开源·rag·maxkb