适合企业的TTS文本转语音接口:微软TTS最新模型,发布9种更真实的AI语音

微软对Azure Al语音服务的Personal Voice功能进行了升级,引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。

微软提供了超过400种神经语音,涵盖140多种语言和地区。这些文本到语音(TTS)语音可以快速为应用添加朗读功能,使其设计更加无障碍,或为聊天机器人赋予声音,提供更丰富的对话体验。

Microsoft Azure官网:

还要给大家说的是,目前微软Azure是免费的,但是,试用额度很快就会用完,而且后续企业付费用是没办法开国内合规发票的。

企业如何获取Azure AI语音服务

**目前企业需要通过微软官方合作伙伴获取服务,**可以合规、稳定地提供企业用户使用Azure AI 语音服务、ChatGPT等的可能,满足国内发票需求。

通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

参考链接:
Azure AI 服务 OpenAI 4.0 开通申请

另外有需要可以关注【全云在线】gz号,进OpenAI技术开发交流裙

更新体验:

https://ai.azure.com/explore/speech

新推出的多语言语音包括了针对对话风格的优化,扩展了微软在9种语言及其变种中传达内容的能力:

  • en-US-AvaMultilingualNeural
  • en-US-AndrewMultilingualNeural
  • en-US-EmmaMultilingualNeural
  • en-US-BrianMultilingualNeural
  • De-DE-FlorianMultilingualNeural
  • De-DE-SeraphinaMultilingualNeural
  • Fr-FR-RemyMultilingualNeural
  • Fr-FR-VivienneMultilingualNeural
  • zh-CN-XiaoxiaoMultilingualNeural

特 点

  • 无论在创建基于语音的聊天机器人、语音助手还是对话代理,这些新语音都将确保交互更加逼真、栩栩如生和引人入胜。
  • 针对对话优化的语音在阅读对话和非正式文本时听起来更加自然和引人入胜。
  • 包括像笑声和填充停顿等感叹词,为虚拟对话增添了人性化的气息。

应用场景

1.语音助手: 创建个性化的语音助手体验。用户现在可以使用自己的声音,而不是依赖通用的声音,实现真正独特的体验。2.游戏: 为玩家提供沉浸式体验,允许他们完全以自己独特的声音扮演角色。语言配音:扩展全球影响力,用演讲者的母语为内容配音,为观众提供无缝目愉悦的体验,无论他们位于何处。3.媒体和娱乐: 为故事、有声书、播客、视频等创建易于使用的个人语音,使内容比以往任何时候都更加贴近和沉浸。**4.语音翻译:**打破语言障碍,改善沟通。允许会话参与者以他们真实的声音被听到,用各种语言进行

使用教程

第一步:注册账号进入官网:

https://azure.microsoft.com/zh-cn/products/ai-services/text-to-speech

点击"免费试用文本转语音",新用户可获得一年的免费使用额度:

点击"免费开始使用",这里需要使用微软账号进行登录。

然后进入添加个人信息资料的界面。

手机号验证勾选"其他电话号码",地区选择中国,然后输入自己的手机号接收验证码即可:

填写完资料后,点击下一步进入信用卡验证,信用卡不会扣费,但要保证里面有1美金才能验证成功。

验证成功后会跳转到Azure主页,点击"转到Azure门户"进入Azure控制台:

第二步:部署语音服务展开左上角菜单栏,打开所有服务:

在所有服务下找到"AI+机器学习"类别,选择语音服务并创建:

创建界面的名称可以随便填,定价层选择"Free F0",然后点击"审阅并创建":

继续点击"创建":

稍等十秒左右语音服务就部署完成了。

第三步:创建语音点击"转到资源":

继续点击"转到Speech Studio":

Speech Studio里有很多语音服务,比如"语音转文本"、"语音转字幕"等等,都可以直接使用。

下滑找到文本转语音服务的语音库,点击进入:

在这里我们就可以看到不同国家的各种声音模型,之后Microsoft Azure上新语音模型也会更新到这里。

每个声音模型也都配置了不同的对话场景和情绪,甚至还有各种方言,可以说是目前市面上最全的AI语音库了。

随便点击一个试听一下效果:

,时长00:22

效果虽然没法和开头展示的语音效果相媲美,但是已经非常接近真人声音了。

选择好想用的声音模型,点击转到有声内容创作。

把文本内容粘贴到文本框,点击播放按钮就可以进行语音合成。

右侧操作栏可以设置语言、声音模型和说话风格以及气口停顿等等功能,非常齐全。

语音制作完毕之后,点击保存并导出为本地文件,一份文本转语音文件就制作好了。

之后再制作有声读物、小说推文或者是其他有声内容时就可以直接使用Microsoft Azure。无论是声音模型的丰富度还是功能的易用性,Microsoft Azure基本上就相当于语音合成领域的OpenAI。

相关推荐
羊小猪~~3 分钟前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习
AI小杨5 分钟前
【车道线检测】一、传统车道线检测:基于霍夫变换的车道线检测史诗级详细教程
人工智能·opencv·计算机视觉·霍夫变换·车道线检测
晨曦_子画9 分钟前
编程语言之战:AI 之后的 Kotlin 与 Java
android·java·开发语言·人工智能·kotlin
道可云11 分钟前
道可云人工智能&元宇宙每日资讯|2024国际虚拟现实创新大会将在青岛举办
大数据·人工智能·3d·机器人·ar·vr
人工智能培训咨询叶梓20 分钟前
探索开放资源上指令微调语言模型的现状
人工智能·语言模型·自然语言处理·性能优化·调优·大模型微调·指令微调
zzZ_CMing20 分钟前
大语言模型训练的全过程:预训练、微调、RLHF
人工智能·自然语言处理·aigc
newxtc21 分钟前
【旷视科技-注册/登录安全分析报告】
人工智能·科技·安全·ddddocr
成都古河云22 分钟前
智慧场馆:安全、节能与智能化管理的未来
大数据·运维·人工智能·安全·智慧城市
UCloud_TShare25 分钟前
浅谈语言模型推理框架 vLLM 0.6.0性能优化
人工智能
软工菜鸡29 分钟前
预训练语言模型BERT——PaddleNLP中的预训练模型
大数据·人工智能·深度学习·算法·语言模型·自然语言处理·bert