适合企业的TTS文本转语音接口:微软TTS最新模型,发布9种更真实的AI语音

微软对Azure Al语音服务的Personal Voice功能进行了升级,引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。

微软提供了超过400种神经语音,涵盖140多种语言和地区。这些文本到语音(TTS)语音可以快速为应用添加朗读功能,使其设计更加无障碍,或为聊天机器人赋予声音,提供更丰富的对话体验。

Microsoft Azure官网:

还要给大家说的是,目前微软Azure是免费的,但是,试用额度很快就会用完,而且后续企业付费用是没办法开国内合规发票的。

企业如何获取Azure AI语音服务

**目前企业需要通过微软官方合作伙伴获取服务,**可以合规、稳定地提供企业用户使用Azure AI 语音服务、ChatGPT等的可能,满足国内发票需求。

通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

参考链接:
Azure AI 服务 OpenAI 4.0 开通申请

另外有需要可以关注【全云在线】gz号,进OpenAI技术开发交流裙

更新体验:

https://ai.azure.com/explore/speech

新推出的多语言语音包括了针对对话风格的优化,扩展了微软在9种语言及其变种中传达内容的能力:

  • en-US-AvaMultilingualNeural
  • en-US-AndrewMultilingualNeural
  • en-US-EmmaMultilingualNeural
  • en-US-BrianMultilingualNeural
  • De-DE-FlorianMultilingualNeural
  • De-DE-SeraphinaMultilingualNeural
  • Fr-FR-RemyMultilingualNeural
  • Fr-FR-VivienneMultilingualNeural
  • zh-CN-XiaoxiaoMultilingualNeural

特 点

  • 无论在创建基于语音的聊天机器人、语音助手还是对话代理,这些新语音都将确保交互更加逼真、栩栩如生和引人入胜。
  • 针对对话优化的语音在阅读对话和非正式文本时听起来更加自然和引人入胜。
  • 包括像笑声和填充停顿等感叹词,为虚拟对话增添了人性化的气息。

应用场景

1.语音助手: 创建个性化的语音助手体验。用户现在可以使用自己的声音,而不是依赖通用的声音,实现真正独特的体验。2.游戏: 为玩家提供沉浸式体验,允许他们完全以自己独特的声音扮演角色。语言配音:扩展全球影响力,用演讲者的母语为内容配音,为观众提供无缝目愉悦的体验,无论他们位于何处。3.媒体和娱乐: 为故事、有声书、播客、视频等创建易于使用的个人语音,使内容比以往任何时候都更加贴近和沉浸。**4.语音翻译:**打破语言障碍,改善沟通。允许会话参与者以他们真实的声音被听到,用各种语言进行

使用教程

第一步:注册账号进入官网:

https://azure.microsoft.com/zh-cn/products/ai-services/text-to-speech

点击"免费试用文本转语音",新用户可获得一年的免费使用额度:

点击"免费开始使用",这里需要使用微软账号进行登录。

然后进入添加个人信息资料的界面。

手机号验证勾选"其他电话号码",地区选择中国,然后输入自己的手机号接收验证码即可:

填写完资料后,点击下一步进入信用卡验证,信用卡不会扣费,但要保证里面有1美金才能验证成功。

验证成功后会跳转到Azure主页,点击"转到Azure门户"进入Azure控制台:

第二步:部署语音服务展开左上角菜单栏,打开所有服务:

在所有服务下找到"AI+机器学习"类别,选择语音服务并创建:

创建界面的名称可以随便填,定价层选择"Free F0",然后点击"审阅并创建":

继续点击"创建":

稍等十秒左右语音服务就部署完成了。

第三步:创建语音点击"转到资源":

继续点击"转到Speech Studio":

Speech Studio里有很多语音服务,比如"语音转文本"、"语音转字幕"等等,都可以直接使用。

下滑找到文本转语音服务的语音库,点击进入:

在这里我们就可以看到不同国家的各种声音模型,之后Microsoft Azure上新语音模型也会更新到这里。

每个声音模型也都配置了不同的对话场景和情绪,甚至还有各种方言,可以说是目前市面上最全的AI语音库了。

随便点击一个试听一下效果:

,时长00:22

效果虽然没法和开头展示的语音效果相媲美,但是已经非常接近真人声音了。

选择好想用的声音模型,点击转到有声内容创作。

把文本内容粘贴到文本框,点击播放按钮就可以进行语音合成。

右侧操作栏可以设置语言、声音模型和说话风格以及气口停顿等等功能,非常齐全。

语音制作完毕之后,点击保存并导出为本地文件,一份文本转语音文件就制作好了。

之后再制作有声读物、小说推文或者是其他有声内容时就可以直接使用Microsoft Azure。无论是声音模型的丰富度还是功能的易用性,Microsoft Azure基本上就相当于语音合成领域的OpenAI。

相关推荐
美狐美颜SDK开放平台2 分钟前
多终端适配下的人脸美型方案:美颜SDK工程开发实践分享
人工智能·音视频·美颜sdk·直播美颜sdk·视频美颜sdk
哈__5 分钟前
CANN加速Image Captioning图像描述生成:视觉特征提取与文本生成优化
人工智能
禁默9 分钟前
Ops-Transformer深入:CANN生态Transformer专用算子库赋能多模态生成效率跃迁
人工智能·深度学习·transformer·cann
杜子不疼.11 分钟前
基于CANN GE图引擎的深度学习模型编译与优化技术
人工智能·深度学习
L、21815 分钟前
深入理解CANN:面向AI加速的异构计算架构详解
人工智能·架构
chaser&upper21 分钟前
预见未来:在 AtomGit 解码 CANN ops-nn 的投机采样加速
人工智能·深度学习·神经网络
松☆24 分钟前
CANN与大模型推理:在边缘端高效运行7B参数语言模型的实践指南
人工智能·算法·语言模型
结局无敌31 分钟前
深度探究cann仓库下的infra:AI计算的底层基础设施底座
人工智能
m0_4665252931 分钟前
绿盟科技风云卫AI安全能力平台成果重磅发布
大数据·数据库·人工智能·安全
慢半拍iii33 分钟前
从零搭建CNN:如何高效调用ops-nn算子库
人工智能·神经网络·ai·cnn·cann