语音 AI 聚焦:在 AR 眼镜上可视化口语和声音

这篇文章最初发表在 NVIDIA 技术博客上。

音频可以包括各种各样的声音,从人类的语音到狗叫声和警笛声等非语音。当为听力困难的人设计可访问的应用程序时,该应用程序应该能够识别声音和理解语音。

这项技术将帮助聋人或重听人可视化语音,如人类对话和非语音。将语音和声音 AI 结合在一起,你可以将可视化效果叠加到 AR 眼镜上,让用户可以看到和解释他们在其他情况下听不到的声音。

根据世界卫生组织估计,全球约有 15 亿人(占全球人口的近 20%)患有听力损失。到 2050 年,这一数字可能会上升至 25 亿。

Cochl,一家总部位于圣何塞的 NVIDIA 合作伙伴,是一家深度科技初创公司,使用声音 AI 技术来理解任何类型的音频。他们也是 NVIDIA 的Inception Program的成员,通过提供尖端技术和 NVIDIA 专家,帮助初创公司更快地构建解决方案。

该平台可以识别 37 种环境声音,该公司更进一步,增加了尖端的语音转文本技术。这让我们真正完整地了解了声音的世界。

AR 眼镜,可显示任何声音

AR 眼镜作为一种可视化声音的工具,可以极大地改善听力损失患者的生活。这项技术可以帮助他们增强沟通能力,使他们更容易导航和参与周围的世界。

视频 1 。 Cochl . Sense 和 NVIDIA Riva 正在微软 HoloLens 2 上工作!

在这种情况下,自动语音识别( ASR )用于使眼镜能够识别和理解人类语音。此技术可以通过多种方式集成到眼镜中:

  • 使用麦克风捕捉与聋人或重听人交谈的人的语音,然后使用 ASR 算法将语音翻译并转录为文本。然后,这些文本可以显示在眼镜上,使聋人或重听人能够阅读和理解语音。
  • ASR 还可以用于使眼镜能够响应语音命令,从而用户可以用他们的语音控制眼镜。
  • 他们还能够在屏幕上显示所有对话,例如在你开车时从地图上转录语音指示,以及任何其他声音,如紧急车辆的喇叭或警笛声和风噪。

解决方案背后的技术

使用了 NVIDIA Riva 为其 ASR 功能提供动力。Riva 是一个 GPU 加速的、完全可定制的 SDK,用于开发语音 AI 应用程序。通过使用 Riva,该平台已经能够扩展其理解广泛声音的能力,包括非语音声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示:"我们已经测试了很多语音识别服务,但只有 Riva 提供了极高且稳定的实时性能。因此,现在我们可以让我们的声音 AI 系统更接近人类的听觉感知。"。

"正如我们所观察到的, AR 眼镜最有可能在嘈杂环境的开放空间中使用。 NVIDIA Riva 帮助我们即使在嘈杂环境中也能准确地转录语音,并为我们提供了无缝集成到 Cochl.sense 平台的体验。"

辅助技术的未来

创建一个感知声音像人类的通用人工智能系统是一个巨大的挑战。为了让 AR 眼镜更容易接近,需要更轻的可穿戴技术。

然而,在这一点上,它们仍然是将声音和语音翻译成视觉信息的理想媒介。通过集成机器听音功能, AR 眼镜可以为世界各地的聋人或重听者带来更安全、更方便、更愉快的日常生活。

Cochl 还在探索语音 AI 的更多用例,例如为 AR 眼镜上的任何视频提供隐藏字幕,以及可视化多扬声器转录。为了给听力困难的人提供最好的体验,他们正在探索分析和可视化音乐的方法,以帮助他们至少了解音乐的流派和情感。

他们很高兴能够试验更多的 NVIDIA 解决方案,包括 Riva、NeMoTensorRT

立即开始语音 AI

有兴趣将语音 AI 添加到您的 VR 应用程序中吗?浏览这些资源开始:

阅读原文

相关推荐
hszmoran2 天前
电脑关机重启时显示rundll32 内存不能为read解决方法
电脑·nvidia·驱动
赞奇科技Xsuperzone4 天前
DGX Spark 实战解析:模型选择与效率优化全指南
大数据·人工智能·gpt·spark·nvidia
视***间5 天前
方寸之间,算力之巅 视程空间—EDG SC6N0-S T5X 超算计算机以 Jetson AGX Thor 重构个人计算边界
边缘计算·nvidia·算力·ai算力·视程空间
万俟淋曦7 天前
NVIDIA DriveOS 推动新一代智能汽车实现突破
人工智能·ai·汽车·nvidia·智能汽车·driveos·driveworks
安全二次方security²8 天前
CUDA C++编程指南(1)——简介
nvidia·cuda·c/c++·device·cuda编程·architecture·compute unified
算家计算12 天前
英伟达亮出最强AI芯片!性能暴增3倍,算力竞赛迎来新节点
人工智能·nvidia·芯片
扫地的小何尚15 天前
AI创新的火花:NVIDIA DGX Spark开箱与深度解析
大数据·人工智能·spark·llm·gpu·nvidia·dgx
扫地的小何尚17 天前
一小时内使用NVIDIA Nemotron创建你自己的Bash计算机使用智能体
开发语言·人工智能·chrome·bash·gpu·nvidia
安全二次方security²18 天前
CUDA-GDB(11)——调试示例演练
gdb·nvidia·cuda·调试·cuda-gdb·autostep·mpi cuda
BothSavage25 天前
Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本
linux·服务器·ubuntu·gpu·nvidia·cuda·nvcc