Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview，免费申请试用

微软宣布GPT-4o-Realtime-Preview 音频和语音公开预览版的推出，这是对Microsoft Azure OpenAI 服务的重大增强，增加了高级语音功能并扩展了 GPT-4o 的多模式产品。

这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位，尤其是在语音技术领域。Azure 在这一领域的传统通过其语音服务长期确立，该服务集成了语音转文本、文本转语音、神经语音和实时翻译功能，涵盖 Teams、Office 365 和 Edge 等核心 Microsoft 产品。

参考链接：
微软 Azure OpenAI 申请

现在，GPT-4o-Realtime-Preview 通过将语言生成与无缝语音交互相结合，进一步突破了界限，为开发人员提供了打造更自然、对话式 AI 体验所需的工具。 从创建虚拟助手到提供实时客户支持，这种新模式为语音驱动的应用程序开辟了广泛的可能性。作为新发布的 Copilot Voice 产品的一部分，新模型还与 Copilot 集成。

微软Azure OpenAI服务可以合规、稳定地提供企业用户使用ChatGPT模型的可能。出于合规角度，国内企业可以选择微软的Azure OpenAI服务来使用接口。

GPT-4o-Realtime-Preview 有什么新功能？

**GPT-4o-Realtime API：**随着此版本的发布，GPT-4o 不断发展，支持音频输入和输出，实现超越传统基于文本的 AI 对话的实时、自然的语音交互。这种多模式功能使开发人员能够轻松构建创新的语音应用程序。

**Azure AI Studio 早期访问游乐场：**对于渴望探索的开发人员，这个专用空间允许对 GPT-4o-Realtime API 的音频功能进行早期试验。该工作室提供了一个环境来测试、微调和优化语音交互，然后再将其投入生产环境。

超强性能

早期使用 GPT-4o-Realtime API for Audio 的客户分享了显著的成果，证实了其性能和影响：

**响应更快：**GPT-4o-Realtime API for Audio 提供的语音响应速度比许多传统的文本转语音引擎快得多，从而减少了延迟并实现了更流畅的交互。

**自然对话：**该模型最大限度地减少了人工智能生成的语音中经常出现的机器人语调，使对话听起来更具吸引力。

**多语言支持：**该API支持多种语言，允许进行自然的多语言对话，并可应用于面向全球的应用程序。

GPT-4o-Realtime-Preview 在 Azure OpenAI 服务中的应用

GPT-4o-Realtime-Preview 的潜力遍及各个行业，改变了企业的运营方式和用户与技术的互动方式：

**客户服务：**基于语音的聊天机器人和虚拟助手现在可以更自然、更有效地处理客户查询，减少等待时间并提高整体满意度。

**内容创作：**媒体制作人可以利用语音生成技术在视频游戏、播客和电影工作室中彻底改变他们的工作流程。

**实时翻译：**医疗保健和法律服务等行业可以从实时音频翻译中受益，打破语言障碍并促进关键情况下更好的沟通。

用例推动创新

GPT-4o-Realtime-Preview 的多功能性已经改变了各个领域的运营。以下是一些早期采用者以及他们如何从这项技术中受益：

**博世（德国）：**集成 GPT-4o-Realtime API for Audio，用于汽车环境中的虚拟现实训练，让消费者和技术人员能够接收语音指导。

"AOAI 是我们 HeyBosch -- 虚拟销售主管解决方案的理想界面，因为它是对话优先的解决方案。我们可以轻松地将 AOAI 集成到我们现有的解决方案中 -- 感谢提供参考样本。虚拟代理的响应时间已大大改善，因为我们现在拥有一个结合两者（语音和 LLM）的单一界面。这有助于将延迟保持在最低限度。这种集成展示了结合 GenAI、3D 技术和实时语音处理功能创造引人注目的用户体验的可能性。"

--- Vamsidhar Sunkari 博世全球软件技术私人有限公司高级专家

**Lyrebird Health（澳大利亚）：**使用 GPT-4o-Realtime-Preview 作为医疗副驾驶，总结患者信息并实时自动执行后续任务。

" Lyrebird Health 很高兴将音频功能引入医患关系。新的 GPT-4o 实时预览模型将使我们能够为客户和最终用户试验和推出新的体验。这将帮助我们实现提供全球最佳人力技术的使命。"

---Lyrebird Health 联合创始人兼首席执行官 Kai Van Lieshout

**Azure AI Search：**VoiceRAG 利用 Azure OpenAI 的 GPT-4o 实时音频模型和 Azure AI Search 创建具有检索增强生成 (RAG) 的高级语音生成 AI 应用程序。该系统集成了实时音频流和函数调用来执行知识库搜索，确保响应有理有据，而不会影响延迟。通过在后端安全地处理模型配置和检索过程，VoiceRAG 提供了一个自然的对话界面，其中包括在用户体验中无缝显示的引文。

微软对值得信赖的人工智能的承诺

Azure 始终坚定不移地致力于负责任的 AI，并将安全和隐私作为默认优先事项。Realtime API 采用多层安全措施，包括自动监控和人工审核，以防止滥用。

在微软致力于负责任的 AI 的指导下，Realtime API 经过了严格的评估。

Azure OpenAI 服务提供内置的内容安全功能（无需额外费用），Azure AI Studio 提供工具来评估 AI 应用程序的安全性，确保安全且负责任的 AI 体验。

GPT-4o-Realtime API 的下一步是什么？

随着微软不断创新和扩展 GPT-4o-Realtime API 的音频功能，微软很高兴看到开发人员和企业将如何利用这项尖端技术来创建语音驱动的应用程序，突破可能的界限。

无论您是想将语音功能集成到客户服务运营中，还是探索多语言交互的可能性，GPT-4o-Realtime API for Audio 都能提供灵活性和强大功能来转变您的 AI 解决方案。从今天开始，您可以在Azure OpenAI Studio中探索这些新功能，在 Early Access Playground 中试用它们，或者直接将公共预览版中的实时 API 集成到您的应用程序中。