适合企业的TTS文本转语音接口:微软TTS最新模型,发布9种更真实的AI语音

微软对Azure Al语音服务的Personal Voice功能进行了升级,引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。

微软提供了超过400种神经语音,涵盖140多种语言和地区。这些文本到语音(TTS)语音可以快速为应用添加朗读功能,使其设计更加无障碍,或为聊天机器人赋予声音,提供更丰富的对话体验。

Microsoft Azure官网:

还要给大家说的是,目前微软Azure是免费的,但是,试用额度很快就会用完,而且后续企业付费用是没办法开国内合规发票的。

企业如何获取Azure AI语音服务

**目前企业需要通过微软官方合作伙伴获取服务,**可以合规、稳定地提供企业用户使用Azure AI 语音服务、ChatGPT等的可能,满足国内发票需求。

通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

参考链接:
Azure AI 服务 OpenAI 4.0 开通申请

另外有需要可以关注【全云在线】gz号,进OpenAI技术开发交流裙

更新体验:

https://ai.azure.com/explore/speech

新推出的多语言语音包括了针对对话风格的优化,扩展了微软在9种语言及其变种中传达内容的能力:

  • en-US-AvaMultilingualNeural
  • en-US-AndrewMultilingualNeural
  • en-US-EmmaMultilingualNeural
  • en-US-BrianMultilingualNeural
  • De-DE-FlorianMultilingualNeural
  • De-DE-SeraphinaMultilingualNeural
  • Fr-FR-RemyMultilingualNeural
  • Fr-FR-VivienneMultilingualNeural
  • zh-CN-XiaoxiaoMultilingualNeural

特 点

  • 无论在创建基于语音的聊天机器人、语音助手还是对话代理,这些新语音都将确保交互更加逼真、栩栩如生和引人入胜。
  • 针对对话优化的语音在阅读对话和非正式文本时听起来更加自然和引人入胜。
  • 包括像笑声和填充停顿等感叹词,为虚拟对话增添了人性化的气息。

应用场景

1.语音助手: 创建个性化的语音助手体验。用户现在可以使用自己的声音,而不是依赖通用的声音,实现真正独特的体验。2.游戏: 为玩家提供沉浸式体验,允许他们完全以自己独特的声音扮演角色。语言配音:扩展全球影响力,用演讲者的母语为内容配音,为观众提供无缝目愉悦的体验,无论他们位于何处。3.媒体和娱乐: 为故事、有声书、播客、视频等创建易于使用的个人语音,使内容比以往任何时候都更加贴近和沉浸。**4.语音翻译:**打破语言障碍,改善沟通。允许会话参与者以他们真实的声音被听到,用各种语言进行

使用教程

第一步:注册账号进入官网:

https://azure.microsoft.com/zh-cn/products/ai-services/text-to-speech

点击"免费试用文本转语音",新用户可获得一年的免费使用额度:

点击"免费开始使用",这里需要使用微软账号进行登录。

然后进入添加个人信息资料的界面。

手机号验证勾选"其他电话号码",地区选择中国,然后输入自己的手机号接收验证码即可:

填写完资料后,点击下一步进入信用卡验证,信用卡不会扣费,但要保证里面有1美金才能验证成功。

验证成功后会跳转到Azure主页,点击"转到Azure门户"进入Azure控制台:

第二步:部署语音服务展开左上角菜单栏,打开所有服务:

在所有服务下找到"AI+机器学习"类别,选择语音服务并创建:

创建界面的名称可以随便填,定价层选择"Free F0",然后点击"审阅并创建":

继续点击"创建":

稍等十秒左右语音服务就部署完成了。

第三步:创建语音点击"转到资源":

继续点击"转到Speech Studio":

Speech Studio里有很多语音服务,比如"语音转文本"、"语音转字幕"等等,都可以直接使用。

下滑找到文本转语音服务的语音库,点击进入:

在这里我们就可以看到不同国家的各种声音模型,之后Microsoft Azure上新语音模型也会更新到这里。

每个声音模型也都配置了不同的对话场景和情绪,甚至还有各种方言,可以说是目前市面上最全的AI语音库了。

随便点击一个试听一下效果:

,时长00:22

效果虽然没法和开头展示的语音效果相媲美,但是已经非常接近真人声音了。

选择好想用的声音模型,点击转到有声内容创作。

把文本内容粘贴到文本框,点击播放按钮就可以进行语音合成。

右侧操作栏可以设置语言、声音模型和说话风格以及气口停顿等等功能,非常齐全。

语音制作完毕之后,点击保存并导出为本地文件,一份文本转语音文件就制作好了。

之后再制作有声读物、小说推文或者是其他有声内容时就可以直接使用Microsoft Azure。无论是声音模型的丰富度还是功能的易用性,Microsoft Azure基本上就相当于语音合成领域的OpenAI。

相关推荐
usrcnusrcn9 小时前
告别PoE管理盲区:有人物联网工业交换机如何以智能供电驱动工业未来
大数据·网络·人工智能·物联网·自动化
雍凉明月夜10 小时前
视觉opencv学习笔记Ⅴ-数据增强(1)
人工智能·python·opencv·计算机视觉
骚戴10 小时前
深入解析:Gemini 3.0 Pro 的 SSE 流式响应与跨区域延迟优化实践
java·人工智能·python·大模型·llm
CNRio10 小时前
从智能穿戴设备崛起看中国科技自立自强的创新实践
人工智能·科技·物联网
疾风sxp10 小时前
nl2sql技术实现自动sql生成之Spring AI Alibaba Nl2sql
java·人工智能
程序猿追10 小时前
使用GeeLark+亮数据,做数据采集打造爆款内容
运维·服务器·人工智能·机器学习·架构
木卫二号Coding10 小时前
第六十篇-ComfyUI+V100-32G+运行Wan2.2-图生视频
人工智能
GAOJ_K10 小时前
滚珠螺杆的内循环与外循环有何差异?
人工智能·科技·机器人·自动化·制造
这张生成的图像能检测吗10 小时前
(论文速读)Nickel and Diming Your GAN:通过知识蒸馏提高GAN效率的双重方法
人工智能·生成对抗网络·计算机视觉·知识蒸馏·图像生成·模型压缩技术
中国胖子风清扬10 小时前
Spring AI Alibaba + Ollama 实战:基于本地 Qwen3 的 Spring Boot 大模型应用
java·人工智能·spring boot·后端·spring·spring cloud·ai