Charsiu-G2P

Charsiu-G2P

‒ 输入格式:"language关键字+文本"首先过transformer-AutoTokenizer按照letter进行编码;编码序列送入charsiug2p模型(T5ForConditionalGeneration)

‒ 输出格式:输出也是来源于发音词典 & g2p 模型预测结果两个部分

输入文本 g2p
德语 words = ['Deutsche', 'aktuelle', 'politische', 'Nachrichten', 'und', 'öffentliche', 'Topthemen'] ['ˈdɔøʧə', 'ʔaktuɛllə', 'ˈpoːlitɪʃə', 'ˈnaxˌɾɪçtən', 'ˈʔʊnt', 'ʔœfˈfɛntlɪçə', 'ˈtɔptəmən'] (--输出结果有问号??)
英语 words = ['Char', 'siu', 'is', 'a', 'Cantonese', 'style', 'of', 'barbecued', 'pork'] ['ˈtʃɑɹ', 'ˈʃu', 'ˈɪs', 'ˈeɪ', 'ˌkæntəˈniz', 'ˈstaɪɫ', 'ˈəf', 'ˈbɑɹbɪkˌjud', 'ˈpɔɹk']
中文words = ['高', '德', '地', '图'] (一个中文对应6个byte-encoding) ['kɑʊ˥˥', 'tɤ˧˥', 'ti˥˩', 'tʰu˧˥']
日文words = ['こんにちは'] ['koɴnitɕiha']

基于CharsiuG2P结果的TTS工作

XPhoneBERT-2023 interspeech

  • abstract
    • 爬取wiki上多个语言的文本,使用RoBert训练的方法和模型,随机mask文本,进行预测(取消预测下一句的任务);得到多语言phone-bert encoding;(330M phonemic description sentences, over 100+ language)
    • 这个encoder作为TTS 的text-encoder,效果比单独使用phone-encoding的VITS ,自然度有明显提升;
  • 步骤;
    • 文本数据清洗;
    • CharsiuG2P将文本转成phone,但是由于CharsiuG2P本身不会对单词对应的phone进行分界(输入一个单词返回一个序列结果;输入一句话,也是只有一个序列结果),所以使用音素结果分词工具 对CharsiuG2P的结果拆分;不同单词的phone结果之间用"symbol _ (U+2581)"进行分隔;----这一步整体的操作,作者做成了一个python包-text2phonemesequence,
    • white-space level tokenizer 得到1960 音素单元;(transformer不同的tokenizer方式
相关推荐
985小水博一枚呀21 分钟前
【深度学习|可视化】如何以图形化的方式展示神经网络的结构、训练过程、模型的中间状态或模型决策的结果??
人工智能·python·深度学习·神经网络·机器学习·计算机视觉·cnn
CyreneSimon1 小时前
使用 LoRA 进行模型微调的步骤
python·transformer
ymchuangke1 小时前
数据清洗-缺失值处理-缺失值可视化图(竖线)
python·算法·数学建模
计算机学姐1 小时前
基于python+django+vue的旅游网站系统
开发语言·vue.js·python·mysql·django·旅游·web3.py
程序员小羊!2 小时前
Python语言基础教程(下)4.0
开发语言·python
huanxiangcoco2 小时前
73. 矩阵置零
python·leetcode·矩阵
一晌小贪欢2 小时前
Python基础知识——字典排序(不断补充)
python·json·python基础·字典·字典排序·python学习
YOLO数据集工作室2 小时前
Python介绍
开发语言·python
Hiweir ·3 小时前
机器翻译之创建Seq2Seq的编码器、解码器
人工智能·pytorch·python·rnn·深度学习·算法·lstm
不染_是非3 小时前
Django学习实战篇六(适合略有基础的新手小白学习)(从0开发项目)
后端·python·学习·django