语音 AI 聚焦:在 AR 眼镜上可视化口语和声音

这篇文章最初发表在 NVIDIA 技术博客上。

音频可以包括各种各样的声音,从人类的语音到狗叫声和警笛声等非语音。当为听力困难的人设计可访问的应用程序时,该应用程序应该能够识别声音和理解语音。

这项技术将帮助聋人或重听人可视化语音,如人类对话和非语音。将语音和声音 AI 结合在一起,你可以将可视化效果叠加到 AR 眼镜上,让用户可以看到和解释他们在其他情况下听不到的声音。

根据世界卫生组织估计,全球约有 15 亿人(占全球人口的近 20%)患有听力损失。到 2050 年,这一数字可能会上升至 25 亿。

Cochl,一家总部位于圣何塞的 NVIDIA 合作伙伴,是一家深度科技初创公司,使用声音 AI 技术来理解任何类型的音频。他们也是 NVIDIA 的Inception Program的成员,通过提供尖端技术和 NVIDIA 专家,帮助初创公司更快地构建解决方案。

该平台可以识别 37 种环境声音,该公司更进一步,增加了尖端的语音转文本技术。这让我们真正完整地了解了声音的世界。

AR 眼镜,可显示任何声音

AR 眼镜作为一种可视化声音的工具,可以极大地改善听力损失患者的生活。这项技术可以帮助他们增强沟通能力,使他们更容易导航和参与周围的世界。

视频 1 。 Cochl . Sense 和 NVIDIA Riva 正在微软 HoloLens 2 上工作!

在这种情况下,自动语音识别( ASR )用于使眼镜能够识别和理解人类语音。此技术可以通过多种方式集成到眼镜中:

  • 使用麦克风捕捉与聋人或重听人交谈的人的语音,然后使用 ASR 算法将语音翻译并转录为文本。然后,这些文本可以显示在眼镜上,使聋人或重听人能够阅读和理解语音。
  • ASR 还可以用于使眼镜能够响应语音命令,从而用户可以用他们的语音控制眼镜。
  • 他们还能够在屏幕上显示所有对话,例如在你开车时从地图上转录语音指示,以及任何其他声音,如紧急车辆的喇叭或警笛声和风噪。

解决方案背后的技术

使用了 NVIDIA Riva 为其 ASR 功能提供动力。Riva 是一个 GPU 加速的、完全可定制的 SDK,用于开发语音 AI 应用程序。通过使用 Riva,该平台已经能够扩展其理解广泛声音的能力,包括非语音声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示:"我们已经测试了很多语音识别服务,但只有 Riva 提供了极高且稳定的实时性能。因此,现在我们可以让我们的声音 AI 系统更接近人类的听觉感知。"。

"正如我们所观察到的, AR 眼镜最有可能在嘈杂环境的开放空间中使用。 NVIDIA Riva 帮助我们即使在嘈杂环境中也能准确地转录语音,并为我们提供了无缝集成到 Cochl.sense 平台的体验。"

辅助技术的未来

创建一个感知声音像人类的通用人工智能系统是一个巨大的挑战。为了让 AR 眼镜更容易接近,需要更轻的可穿戴技术。

然而,在这一点上,它们仍然是将声音和语音翻译成视觉信息的理想媒介。通过集成机器听音功能, AR 眼镜可以为世界各地的聋人或重听者带来更安全、更方便、更愉快的日常生活。

Cochl 还在探索语音 AI 的更多用例,例如为 AR 眼镜上的任何视频提供隐藏字幕,以及可视化多扬声器转录。为了给听力困难的人提供最好的体验,他们正在探索分析和可视化音乐的方法,以帮助他们至少了解音乐的流派和情感。

他们很高兴能够试验更多的 NVIDIA 解决方案,包括 Riva、NeMoTensorRT

立即开始语音 AI

有兴趣将语音 AI 添加到您的 VR 应用程序中吗?浏览这些资源开始:

阅读原文

相关推荐
放羊郎1 天前
配置Nvidia JETSON AGX Xavier
nvidia·虚拟机·jetson·刷机·重装系统·xavier
free-xx8 天前
AGX Orin平台RTC驱动导致reboot系统卡住问题调试
nvidia·jetson·orin
AndrewHZ15 天前
【三维渲染技术讨论】Blender输出的三维文件里的透明贴图在Isaac Sim里会丢失, 是什么原因?
算法·3d·blender·nvidia·贴图·具身智能·isaac sim
荔枝吻19 天前
【沉浸式解决问题】NVIDIA 显示设置不可用。 您当前未使用连接到NVIDIA GPU 的显示器。
nvidia·英伟达
算家计算19 天前
算力暴增!英伟达发布新一代机器人超级计算机,巨量算力驱动物理AI革命
人工智能·云计算·nvidia
可期不折腾21 天前
NVIDIA Nsight Systems性能分析工具
ubuntu·nvidia·nsight systems·性能分析工具
量子位1 个月前
黄仁勋子女成长路径曝光:一个学烘焙一个开酒吧,从基层做到英伟达高管
ai编程·nvidia
Ray Song1 个月前
CUDA杂记--nvcc使用介绍
nvidia·cuda·nvcc
吾鳴1 个月前
网信办约谈英伟达,H20芯片后门风波震动中国AI产业
人工智能·nvidia·芯片
mpr0xy2 个月前
编译支持cuda硬件加速的ffmpeg
ai·ffmpeg·nvidia·cuda