语音 AI 聚焦:在 AR 眼镜上可视化口语和声音

这篇文章最初发表在 NVIDIA 技术博客上。

音频可以包括各种各样的声音,从人类的语音到狗叫声和警笛声等非语音。当为听力困难的人设计可访问的应用程序时,该应用程序应该能够识别声音和理解语音。

这项技术将帮助聋人或重听人可视化语音,如人类对话和非语音。将语音和声音 AI 结合在一起,你可以将可视化效果叠加到 AR 眼镜上,让用户可以看到和解释他们在其他情况下听不到的声音。

根据世界卫生组织估计,全球约有 15 亿人(占全球人口的近 20%)患有听力损失。到 2050 年,这一数字可能会上升至 25 亿。

Cochl,一家总部位于圣何塞的 NVIDIA 合作伙伴,是一家深度科技初创公司,使用声音 AI 技术来理解任何类型的音频。他们也是 NVIDIA 的Inception Program的成员,通过提供尖端技术和 NVIDIA 专家,帮助初创公司更快地构建解决方案。

该平台可以识别 37 种环境声音,该公司更进一步,增加了尖端的语音转文本技术。这让我们真正完整地了解了声音的世界。

AR 眼镜,可显示任何声音

AR 眼镜作为一种可视化声音的工具,可以极大地改善听力损失患者的生活。这项技术可以帮助他们增强沟通能力,使他们更容易导航和参与周围的世界。

视频 1 。 Cochl . Sense 和 NVIDIA Riva 正在微软 HoloLens 2 上工作!

在这种情况下,自动语音识别( ASR )用于使眼镜能够识别和理解人类语音。此技术可以通过多种方式集成到眼镜中:

  • 使用麦克风捕捉与聋人或重听人交谈的人的语音,然后使用 ASR 算法将语音翻译并转录为文本。然后,这些文本可以显示在眼镜上,使聋人或重听人能够阅读和理解语音。
  • ASR 还可以用于使眼镜能够响应语音命令,从而用户可以用他们的语音控制眼镜。
  • 他们还能够在屏幕上显示所有对话,例如在你开车时从地图上转录语音指示,以及任何其他声音,如紧急车辆的喇叭或警笛声和风噪。

解决方案背后的技术

使用了 NVIDIA Riva 为其 ASR 功能提供动力。Riva 是一个 GPU 加速的、完全可定制的 SDK,用于开发语音 AI 应用程序。通过使用 Riva,该平台已经能够扩展其理解广泛声音的能力,包括非语音声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示:"我们已经测试了很多语音识别服务,但只有 Riva 提供了极高且稳定的实时性能。因此,现在我们可以让我们的声音 AI 系统更接近人类的听觉感知。"。

"正如我们所观察到的, AR 眼镜最有可能在嘈杂环境的开放空间中使用。 NVIDIA Riva 帮助我们即使在嘈杂环境中也能准确地转录语音,并为我们提供了无缝集成到 Cochl.sense 平台的体验。"

辅助技术的未来

创建一个感知声音像人类的通用人工智能系统是一个巨大的挑战。为了让 AR 眼镜更容易接近,需要更轻的可穿戴技术。

然而,在这一点上,它们仍然是将声音和语音翻译成视觉信息的理想媒介。通过集成机器听音功能, AR 眼镜可以为世界各地的聋人或重听者带来更安全、更方便、更愉快的日常生活。

Cochl 还在探索语音 AI 的更多用例,例如为 AR 眼镜上的任何视频提供隐藏字幕,以及可视化多扬声器转录。为了给听力困难的人提供最好的体验,他们正在探索分析和可视化音乐的方法,以帮助他们至少了解音乐的流派和情感。

他们很高兴能够试验更多的 NVIDIA 解决方案,包括 Riva、NeMoTensorRT

立即开始语音 AI

有兴趣将语音 AI 添加到您的 VR 应用程序中吗?浏览这些资源开始:

阅读原文

相关推荐
Together_CZ1 天前
Windows 下 CUDA / cuDNN / PyTorch GPU 训练环境搭建完整指南:虚拟环境与系统级环境两种方案
virtualenv·nvidia·cuda·cudnn·rtx 5060
元让_vincent2 天前
论文Review SLAM cuVSLAM | NVIDIA 2025 | CUDA加速的视觉里程计与建图系统
nvidia·视觉slam·gpu加速
AI小小怪3 天前
保姆级教程:Ubuntu 22.04 安装 NVIDIA GPU 驱动 + CUDA 12.6(RTX 3080 显卡)
linux·nvidia·cuda
feasibility.4 天前
nvidia-smi 失灵,显存凭空消失?—— NVML 驱动版本错配的记录
linux·运维·服务器·经验分享·nvidia·驱动
视***间6 天前
端侧大模型落地新标杆:视程空间将GPT-OSS边缘AI深度导入NVIDIA Jetson平台
人工智能·gpt·边缘计算·nvidia·ai算力·gpt-oss·视程空间
扫地的小何尚6 天前
掌握 Agentic AI 技术:AI Agent 定制方法全景与实践路径
大数据·人工智能·算法·ai·llm·agent·nvidia
Elastic 中国社区官方博客7 天前
快 12 倍的 Elasticsearch 向量索引:使用 GPU 和 CPU 分层部署 NVIDIA cuVS
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·nvidia
阿里云大数据AI技术7 天前
开发者博客|在阿里云 PAI 平台实现规模化的机器人感知强化学习
人工智能·阿里云·机器人·强化学习·nvidia
藤谷性能10 天前
Jetson Orin Nano:安装Jetpack等基础工具并验证摄像头
边缘计算·nvidia·jetson orin
AgentOPC12 天前
Cerebras WSE-3 vs Nvidia H100/H200/B200:详细技术对比——谁才是 AI 时代真正的“芯片之王“
开发语言·人工智能·nvidia