微软 Azure AI 服务免费试用及申请：语音识别、文本转语音、基于视觉、语言处理、文档分析等10大场景

为方便企业认识和快速上手Azure AI 服务，我们总结了一套包括语音识别、文本转语音、基于视觉、语言处理场景、文档分析场景等全面的预构建模型和演示，旨在解决各种用例。

这些模型易于访问，可帮助企业无缝实施 AI 驱动的解决方案，如下是已整理并编录的 Azure AI 服务中提供的预构建演示，希望这可以帮助您将 AI 无缝融入您的产品和服务中。

微软Azure AI服务可以合规、稳定地提供企业用户使用ChatGPT的可能。作为微软的合作伙伴，全云在线可为企业开通绿色申请通道！包括最新版本GPT-4omini、Dalle-3等，满足发票需求，同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

参考链接：

Azure AI服务试用申请AzureOpenAI绿色通道

一、语音识别

1、语音转文本场景

设想	描述	关联
实时语音转文本	无需编写任何代码即可在语音识别端点上快速测试您的音频。	探索演示
Azure OpenAI 服务中的 Whisper 模型	使用 OpenAI Whisper v2-large 模型将 57 种语言的音频内容转录并翻译成英语。	探索演示
批量语音转文本	异步转录存储中的大量音频。	探索演示
自定义语音	使用特定领域的词汇和数据提高语音识别的准确性。	探索演示
发音评估	评估并获得语音发音准确性和流畅性的反馈。	探索演示
语音翻译	以低延迟实时将语音翻译成其他语言。	探索演示

二、文本转语音

1、文本转语音场景

设想	描述	关联
声音画廊	从 148 种语言和变体的 486 种声音中进行选择，创建听起来自然的语音。	探索演示
自定义神经语音	根据人类录音创建听起来自然的合成声音。	探索演示
个人声音	根据人类语音样本创建 AI 语音，获得个性化的语音体验。	探索演示
音频内容创作	为有声读物和视频旁白等各种场景构建高度自然的音频内容。	探索演示
文本转语音头像	将您的文本转换为带有 AI 生成的头像和逼真的声音的视频。	探索演示

2、其他场景

设想	描述	关联
语音转文字字幕	使用我们的示例应用程序来了解如何使用 Azure Speech 通过转录电影、视频、现场活动等的音频来实时和离线自动为内容添加字幕。在屏幕上显示生成的文本以提供可访问的体验。在此示例中，我们利用语音转文本和短语列表等功能。	探索演示
通话后记录和分析	批量转录呼叫中心录音并提取有价值的信息，例如个人身份信息 (PII)、情绪和通话摘要。这演示了如何使用语音和语言服务来分析呼叫中心对话。	探索演示
实时聊天头像	与虚拟形象进行自然对话，虚拟形象可以识别用户的语音输入，并以逼真的 AI 语音流畅地做出响应。	探索演示
语言学习	从您的聊天体验中获得有关发音准确性、流利度、韵律、语法和词汇的即时反馈。	探索演示
视频翻译	无缝自动翻译并生成多种语言的视频。借助其强大的功能，您可以高效地本地化视频内容，以满足全球不同受众的需求。	探索演示

三、视觉工作室

1、基于视觉的场景

设想	描述	关联
视频检索与摘要	快速总结视频要点并搜索特定时刻。	探索演示
使用图像自定义模型	查找图像中的特定对象，以满足产品放置和装配线检查等用例的需求。	探索演示
为图像添加密集字幕	为图像中检测到的所有重要对象生成人类可读的标题。	探索演示
删除图像的背景	轻松去除背景并保留前景元素。	探索演示
为图片添加标题	生成一个人类可读的句子来描述图像的内容。	探索演示
检测图像中的常见物体	检测并提取可识别物体和生物的边界框。	探索演示
从图像中提取文本	使用 OCR 从图像、PDF 和 TIFF 文件中提取印刷和手写文本。	探索演示
从图像中提取常用标签	根据可识别的物体、风景和动作提取标签。	探索演示
创建智能裁剪图像	自动裁剪图像以强调最重要的区域。	探索演示
检测图像中的人脸	检测图像中人脸的位置及其属性。	探索演示
统计某个区域内的人数	分析视频来计算指定区域内的人数。	探索演示
检测人员是否越界	检测人员何时跨越摄像机视野内的线。	探索演示

四、语言工作室

1、语言处理场景

设想	描述	关联
提取 PII	识别文本中的敏感个人身份信息 (PII)。	探索演示
提取关键短语	从非结构化文本中快速识别要点。	探索演示
查找链接实体	通过链接到知识库来消除文本中实体的身份歧义。	探索演示
提取命名实体	使用命名实体识别 (NER) 识别和分类文本中的实体。	探索演示
提取健康信息	从非结构化文本中提取并标记医疗信息。	探索演示
分析情绪和观点	在句子和文档级别提供情感标签和置信度分数。	探索演示
检测语言	确定输入文档中使用的语言并返回置信度分数。	探索演示
自定义文本分类	使用标记数据和训练模型创建自定义文本分类项目。	探索演示
回答问题	从提供的文本段落中提取问题的答案。	探索演示
会话语言理解项目	使用标记数据和训练模型构建项目以理解对话语言。	探索演示
编排项目	构建和管理集成多种语言服务的项目。	探索演示
汇总信息	使用摘要 API 为对话或文档生成摘要。	探索演示
文件翻译	从本地存储或 Azure Blob 存储批量将文档翻译成一种或多种语言	探索演示

五、文档智能

1、文档分析场景

设想	描述	关联
读	从文档中提取印刷和手写文本以及条形码和公式。	探索演示
布局	从表单和图像中提取表格、复选框和文本。	探索演示
一般文件	从任何表格或文档中提取键值对和结构。	探索演示

举例：预建模型场景

设想	描述
发票	提取发票详细信息，包括客户和供应商详细信息、总计和明细项目。
收据	从收据中提取交易详情，包括日期、商家信息和总额。
身份证明文件	从护照和身份证中提取详细信息。
美国健康保险卡	从美国健康保险卡中提取详细信息。
美国个人所得税	对包含任意数量的 W2、1040、1098 和 1099 的文档进行分类，然后提取信息。
美国抵押贷款	从各种抵押贷款中提取信息
美国工资单	提取员工信息、支付信息（包括收入、扣除额、净工资等）。
美国银行对账单	提取银行对账单
美国支票	提取金额、日期、付款订单 MICR 号码、玩家姓名和地址等。
结婚证	从结婚证中提取详细信息。
信用卡	提取信用卡详细信息，包括卡号和持卡人姓名。
合同	从合同中提取所有权和签署方的信息。
名片	从名片中提取联系方式。

六、Gen-AI 安全解决方案

1、保护您的图片内容

设想	描述	关联
中等图像内容	这是一个用于评估不同内容审核方案的工具。它考虑了各种因素，例如内容类型、平台政策以及对用户的潜在影响。对样本内容运行审核测试。使用配置过滤器重新运行并进一步微调测试结果。将要检测并采取行动的特定术语添加到阻止列表中。	探索演示
中等多模式内容	对图文混合内容进行审核测试，根据检测到的严重程度评估测试结果。	私人预览

2、保护您的文本

设想	描述	关联
适度的文本内容	对文本内容进行审核测试。根据检测到的严重程度评估测试结果。	探索演示
接地检测	扎根性检测可以检测大型语言模型 (LLM) 产生的非扎根性。	私人预览
受保护材料检测	检测并保护 LLM 模块中的第三方文本材料。	探索演示
瞬发盾	Prompt shields提供了统一的API，可以解决以下类型的攻击：越狱攻击和间接攻击。	探索演示

3、实时安全措施

设想	描述	关联
监控在线活动	这将显示您的 API 使用情况、审核结果及其按类别的分布情况。您可以自定义每个类别的严重性阈值，以查看更新的结果并将新阈值部署到您的终端。此外，您还可以编辑此页面上的阻止列表以应对任何事件。	探索演示