PilotTTS - 情感语音合成利器,支持方言与多情绪控制 一键整合包下载

PilotTTS 是高德(你没看错,就是高德地图)开源的一款基于大语言模型(LLM)的开源语音合成系统(Text-to-Speech,TTS)。它就像一个"聪明语音演员",能把文字变成自然、富有感情的人声。不同于很多复杂的商业TTS,PilotTTS故意采用简洁模块化设计,全部使用开源组件,通过精心设计的数据处理流程,达到了很强的效果。

主要特点

高相似度与准确性:说话人声音相似度极高(0.862),文字内容准确率也很棒。

情感与表达控制:支持11种情绪(如开心、悲伤、生气、惊讶等)和笑声、呼吸、哭声等自然发音。

方言支持:能处理14种中文方言,还支持普通话转方言。

全开源数据管道:从互联网音频中提炼高质量训练数据,成本低、效果好。

应用领域

智能语音助手

有声书/播客生成

虚拟主播、游戏角色配音

教育工具(方言教学、多语种朗读)

无障碍辅助(为视障人士朗读)

影视后期配音等

使用教程: (建议N卡,显存8G起,支持50系显卡)

包含主程序和模型文件(pretrained_models文件夹),解压主程序后,将模型移动到主程序目录下即可。

支持语音克隆和指令合成两种模式

语音克隆:上传参考音频,输入合成文本

指令合成:上传参考音频,输入合成文本(支持在合成文本中插入副语言标签),支持情感关键词,支持方言(后期版本支持)

情感关键词包括 happy(开心)sad(悲伤)angry(愤怒)surprise(惊讶)fear(恐惧) disgust(厌恶)serious(严肃)concern(关切)blue(忧郁)disdain(轻蔑)neutral(中性/平静)psychology(心理活动)unknown(不指定情感)

副语言标签包括 <|LAUGH|> 笑声 <|BREATH|> 呼吸声 <|COUGH|> 咳嗽 <|CRY|> 哭泣声 <|LAUGH_SPAN|>...<|/LAUGH_SPAN|> 包裹笑声文本

下载地址:点此下载

相关推荐
chatexcel1 小时前
ChatExcel Max升级体验:从表格处理到企业级业务数据分析
大数据·人工智能·数据分析
腾视科技AI1 小时前
AI赋能 车行无忧|腾视科技ES10车载智能终端,为车辆装上“智慧大脑”
大数据·人工智能·科技·ai·边缘计算·车载终端·车载智能终端
wanzehongsheng1 小时前
光伏公共设施通信协议与物联网管理平台技术选型笔记
人工智能·笔记·物联网·能源·光伏·光伏支架·光伏太阳花
朝阳5811 小时前
VS Code 1.122 重磅登场:AI 全面自主,浏览器变身专业测试仪
人工智能·vscode
数智工坊1 小时前
周志华《Machine Learning》学习笔记--第五章--神经网络
人工智能·笔记·神经网络·学习·机器学习
虹科网络安全1 小时前
艾体宝产品|从知识孤岛到智能知识中心:Arango 如何重塑企业知识图谱
人工智能·知识图谱·arango
189228048612 小时前
NV041固态MT29F16T08GSLCEM9-QBES:C
人工智能·算法·microsoft·缓存·性能优化
STRUGGLE_xlf2 小时前
Agent 基础
人工智能·agent
博览鸿蒙2 小时前
[特殊字符]AI+FPGA 全栈学习大纲【就业版】定位
人工智能·学习·fpga开发