Charsiu-G2P

Charsiu-G2P

‒ 输入格式:"language关键字+文本"首先过transformer-AutoTokenizer按照letter进行编码;编码序列送入charsiug2p模型(T5ForConditionalGeneration)

‒ 输出格式:输出也是来源于发音词典 & g2p 模型预测结果两个部分

输入文本 g2p
德语 words = ['Deutsche', 'aktuelle', 'politische', 'Nachrichten', 'und', 'öffentliche', 'Topthemen'] ['ˈdɔøʧə', 'ʔaktuɛllə', 'ˈpoːlitɪʃə', 'ˈnaxˌɾɪçtən', 'ˈʔʊnt', 'ʔœfˈfɛntlɪçə', 'ˈtɔptəmən'] (--输出结果有问号??)
英语 words = ['Char', 'siu', 'is', 'a', 'Cantonese', 'style', 'of', 'barbecued', 'pork'] ['ˈtʃɑɹ', 'ˈʃu', 'ˈɪs', 'ˈeɪ', 'ˌkæntəˈniz', 'ˈstaɪɫ', 'ˈəf', 'ˈbɑɹbɪkˌjud', 'ˈpɔɹk']
中文words = ['高', '德', '地', '图'] (一个中文对应6个byte-encoding) ['kɑʊ˥˥', 'tɤ˧˥', 'ti˥˩', 'tʰu˧˥']
日文words = ['こんにちは'] ['koɴnitɕiha']

基于CharsiuG2P结果的TTS工作

XPhoneBERT-2023 interspeech

  • abstract
    • 爬取wiki上多个语言的文本,使用RoBert训练的方法和模型,随机mask文本,进行预测(取消预测下一句的任务);得到多语言phone-bert encoding;(330M phonemic description sentences, over 100+ language)
    • 这个encoder作为TTS 的text-encoder,效果比单独使用phone-encoding的VITS ,自然度有明显提升;
  • 步骤;
    • 文本数据清洗;
    • CharsiuG2P将文本转成phone,但是由于CharsiuG2P本身不会对单词对应的phone进行分界(输入一个单词返回一个序列结果;输入一句话,也是只有一个序列结果),所以使用音素结果分词工具 对CharsiuG2P的结果拆分;不同单词的phone结果之间用"symbol _ (U+2581)"进行分隔;----这一步整体的操作,作者做成了一个python包-text2phonemesequence,
    • white-space level tokenizer 得到1960 音素单元;(transformer不同的tokenizer方式
相关推荐
007php0077 小时前
某游戏大厂 Java 面试题深度解析(四)
java·开发语言·python·面试·职场和发展·golang·php
景彡先生7 小时前
Python pandas数据透视表(pivot_table)详解:从入门到实战,多维数据分析利器
python·数据分析·pandas
Blossom.1188 小时前
把AI“编”进草垫:1KB决策树让宠物垫自己报「如厕记录」
java·人工智能·python·算法·决策树·机器学习·宠物
极客数模8 小时前
2025年(第六届)“大湾区杯”粤港澳金融数学建模竞赛准备!严格遵循要求,拿下大奖!
大数据·python·数学建模·金融·分类·图论·boosting
倔强青铜三9 小时前
苦练Python第73天:玩转对象持久化,pickle模块极速入门
人工智能·python·面试
程序员三藏9 小时前
Postman持久化保存/设置断言详解
自动化测试·软件测试·python·测试工具·职场和发展·接口测试·postman
java1234_小锋9 小时前
PyTorch2 Python深度学习 - 卷积神经网络(CNN)介绍实例 - 使用MNIST识别手写数字示例
python·深度学习·cnn·pytorch2
雍凉明月夜9 小时前
人工智能学习中深度学习之python基础之迭代器、生成器、文件处理和模块等
python·深度学习·学习·pycharm
nvd1110 小时前
python异步编程 -协程的实际意义
开发语言·python