语音 AI 聚焦:在 AR 眼镜上可视化口语和声音

这篇文章最初发表在 NVIDIA 技术博客上。

音频可以包括各种各样的声音,从人类的语音到狗叫声和警笛声等非语音。当为听力困难的人设计可访问的应用程序时,该应用程序应该能够识别声音和理解语音。

这项技术将帮助聋人或重听人可视化语音,如人类对话和非语音。将语音和声音 AI 结合在一起,你可以将可视化效果叠加到 AR 眼镜上,让用户可以看到和解释他们在其他情况下听不到的声音。

根据世界卫生组织估计,全球约有 15 亿人(占全球人口的近 20%)患有听力损失。到 2050 年,这一数字可能会上升至 25 亿。

Cochl,一家总部位于圣何塞的 NVIDIA 合作伙伴,是一家深度科技初创公司,使用声音 AI 技术来理解任何类型的音频。他们也是 NVIDIA 的Inception Program的成员,通过提供尖端技术和 NVIDIA 专家,帮助初创公司更快地构建解决方案。

该平台可以识别 37 种环境声音,该公司更进一步,增加了尖端的语音转文本技术。这让我们真正完整地了解了声音的世界。

AR 眼镜,可显示任何声音

AR 眼镜作为一种可视化声音的工具,可以极大地改善听力损失患者的生活。这项技术可以帮助他们增强沟通能力,使他们更容易导航和参与周围的世界。

视频 1 。 Cochl . Sense 和 NVIDIA Riva 正在微软 HoloLens 2 上工作!

在这种情况下,自动语音识别( ASR )用于使眼镜能够识别和理解人类语音。此技术可以通过多种方式集成到眼镜中:

  • 使用麦克风捕捉与聋人或重听人交谈的人的语音,然后使用 ASR 算法将语音翻译并转录为文本。然后,这些文本可以显示在眼镜上,使聋人或重听人能够阅读和理解语音。
  • ASR 还可以用于使眼镜能够响应语音命令,从而用户可以用他们的语音控制眼镜。
  • 他们还能够在屏幕上显示所有对话,例如在你开车时从地图上转录语音指示,以及任何其他声音,如紧急车辆的喇叭或警笛声和风噪。

解决方案背后的技术

使用了 NVIDIA Riva 为其 ASR 功能提供动力。Riva 是一个 GPU 加速的、完全可定制的 SDK,用于开发语音 AI 应用程序。通过使用 Riva,该平台已经能够扩展其理解广泛声音的能力,包括非语音声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示:"我们已经测试了很多语音识别服务,但只有 Riva 提供了极高且稳定的实时性能。因此,现在我们可以让我们的声音 AI 系统更接近人类的听觉感知。"。

"正如我们所观察到的, AR 眼镜最有可能在嘈杂环境的开放空间中使用。 NVIDIA Riva 帮助我们即使在嘈杂环境中也能准确地转录语音,并为我们提供了无缝集成到 Cochl.sense 平台的体验。"

辅助技术的未来

创建一个感知声音像人类的通用人工智能系统是一个巨大的挑战。为了让 AR 眼镜更容易接近,需要更轻的可穿戴技术。

然而,在这一点上,它们仍然是将声音和语音翻译成视觉信息的理想媒介。通过集成机器听音功能, AR 眼镜可以为世界各地的聋人或重听者带来更安全、更方便、更愉快的日常生活。

Cochl 还在探索语音 AI 的更多用例,例如为 AR 眼镜上的任何视频提供隐藏字幕,以及可视化多扬声器转录。为了给听力困难的人提供最好的体验,他们正在探索分析和可视化音乐的方法,以帮助他们至少了解音乐的流派和情感。

他们很高兴能够试验更多的 NVIDIA 解决方案,包括 Riva、NeMoTensorRT

立即开始语音 AI

有兴趣将语音 AI 添加到您的 VR 应用程序中吗?浏览这些资源开始:

阅读原文

相关推荐
青Cheng序员石头4 天前
龙虾运行时安全部署 | NVIDIA NemoClaw 深度研究报告
后端·aigc·nvidia
d1z8884 天前
(十七)32天GPU测试从入门到精通-vLLM 部署与性能测试day15
服务器·显卡·nvidia·vllm
明月醉窗台5 天前
[jetson] AGX Xavier 安装Ubuntu18.04及jetpack4.5
人工智能·算法·nvidia·cuda·jetson
飞翔的SA5 天前
全程 Python:无需离开 Python 即可实现光速级 CUDA 加速,无需c++支持
开发语言·c++·python·nvidia·cuda
初遇见7 天前
【DGX Spark v3.0:基于多智能体交互网络与 Alpaca 实盘集成的企业级量化交易系统】
大数据·网络·spark·nvidia
晨欣9 天前
单卡 48GB 实测:Gemma 4 26B A4B、Gemma 4 31B、gpt-oss-20b 三模型部署与并发对比
google·openai·nvidia·vllm·llama.cpp·gpt-oss-20b·gemma4
d1z88817 天前
NCCL 测试完全指南:从概念到性能调优
gpu·nvidia·nccl
cnbestec22 天前
GTC 2026重磅:NVIDIA开源Isaac Teleop,Manus数据手套成官方标配,机器人数据采集迎来标准化时代
nvidia·英伟达·manus·manus数据手套·gtc2026