ten-vad:低延迟、轻量化且高性能的流式语音活动检测系统

TEN VAD:低延迟、轻量化且高性能的流式语音活动检测系统

1. 概述

TEN VAD 是一款面向企业级应用的实时语音活动检测系统,能够提供精准的帧级语音活动检测。与行业内常用的 WebRTC VAD 和 Silero VAD 相比,TEN VAD 展现出了更优越的精度。同时,相较于 Silero VAD,TEN VAD 具备更低的计算复杂度和更少的内存占用。其架构的时间效率优势使得语音活动检测速度极快,大幅降低了对话式 AI 系统中的端到端响应延迟和轮次检测延迟。

2. 核心特性

2.1 高精度表现

下图展示了 WebRTC VAD(基于音高检测)、Silero VAD 和 TEN VAD 的精度-召回率曲线对比。此次评估基于一套精确手动标注的测试集展开,音频文件源自 librispeech、gigaspeech、DNS 挑战赛等多个来源。结果显示,TEN VAD 的性能最为出色。此外,在大型内部真实世界数据集上进行的交叉验证实验也证明了该成果的可重复性。带有标注标签的测试集已发布在该仓库的 "testset" 目录下。

需注意,默认使用 0.5 的阈值来生成二进制语音指示信号(非语音信号为 0,语音信号为 1)。根据不同领域的具体任务需求,该阈值需要进行调整。通过在 Linux x64 系统上执行以下脚本,可生成精度-召回率曲线,输出图像将保存在脚本所在的同一目录中。

python 复制代码
cd ./examples
python plot_pr_curves.py

2.2 适合代理交互

如下图所示,TEN VAD 能够快速检测语音与非语音转换,而 Silero VAD 则存在几百毫秒的延迟,导致人机交互系统中的端到端延迟增加。此外,在 6.5 秒至 7.0 秒的音频片段中,Silero VAD 未能识别相邻语音片段之间的短暂静音时段。

2.3 轻量化设计

针对五个不同平台(配备多种 CPU)的实时因子(RTF)评估结果显示,TEN VAD 相较于 Silero VAD 具有显著较低的计算复杂度和更小的库体积。

2.4 支持多种编程语言和平台

TEN VAD 提供了跨五个操作系统(Linux x64、Windows、macOS、Android、iOS)的 C 语言兼容性,并针对 Linux x64 优化了 Python 绑定。

2.5 支持的采样率和跳帧大小

TEN VAD 处理 16kHz 的音频输入,支持可配置的跳帧大小(优化的帧配置:160/256 采样点 = 10/16 毫秒)。其他采样率需重采样至 16kHz。

3. 安装

python 复制代码
git clone https://huggingface.co/TEN-framework/ten-vad

4. 快速上手

该项目支持五大主流平台的动态链接库。

平台 动态链接库支持情况 支持架构 接口
Linux libten_vad.so x64 Python、C
Windows ten_vad.dll x64、x86 C
macOS ten_vad.framework arm64、x86_64 C
Android libten_vad.so arm64-v8a、armeabi-v7a C
iOS ten_vad.framework arm64 C

5. Python 使用方法

5.1 依赖项

  • numpy(已验证版本 1.17.4/1.26.4)

  • scipy(版本需 >= 1.5.0)

  • scikit-learn(已验证版本 1.2.2/1.5.0,用于绘制 PR 曲线)

  • matplotlib(已验证版本 3.1.3/3.10.0,用于绘制 PR 曲线)

  • torchaudio(已验证版本 2.2.2,用于绘制 PR 曲线)

  • Python 版本 3.8.19/3.10.14 已验证

请注意:您可以使用上述软件包的其他版本,但我们并未对其他版本进行测试。

该库仅依赖于 numpy。您需要通过 requirements.txt 文件安装相关依赖项:

python 复制代码
pip install -r requirements.txt

若要运行演示或绘制 PR 曲线,则需要安装以下依赖项:

python 复制代码
pip install -r ./examples/requirements.txt

请注意,如果您尚未安装 libc++1,则需要运行以下命令进行安装:

python 复制代码
sudo apt update
sudo apt install libc++1

5.2 使用方法

请注意:在 Python 中使用时,您可以通过 git 克隆或 pip 两种方式进行安装。

使用 git 克隆:
  1. 克隆仓库
python 复制代码
git clone https://huggingface.co/TEN-framework/ten-vad
  1. 进入 examples 目录
python 复制代码
cd ./examples
  1. 运行测试
python 复制代码
python test.py s0724-s0730.wav out.txt
使用 pip 安装:
  1. 通过 pip 安装
python 复制代码
pip install -U --force-reinstall -v git+https://huggingface.co/TEN-framework/ten-vad
  1. 编写您自己的使用案例并导入该类。有关 TenVAD 类的属性,请参阅 ten_vad.py 文件。
python 复制代码
from ten_vad import TenVad

6. C 语言使用方法

6.1 构建脚本

位于 examples/ 目录下:

6.2 动态链接库配置

运行时库路径配置:

  • Linux/Android:LD_LIBRARY_PATH

  • macOS:DYLD_FRAMEWORK_PATH

  • Windows:可执行文件目录或系统 PATH 中的 DLL

6.3 定制化

  • 修改特定平台的构建脚本

  • 调整 CMakeLists.txt 文件

  • 配置工具链和架构设置

6.4 使用概览

  1. 进入 examples/ 目录

  2. 执行特定平台的构建脚本

  3. 配置动态链接库路径

  4. 使用示例音频 s0724-s0730.wav 运行演示

  5. 处理结果将保存到 out.txt 文件中

以下是各平台详细的使用方法:

6.5 Linux 平台

依赖项
  • Clang(例如已验证版本 6.0.0-1ubuntu2)

  • CMake

  • 终端

请注意,如果您尚未安装 libc++1,则需要运行以下命令进行安装:

python 复制代码
sudo apt update
sudo apt install libc++1
使用步骤
  1. cd ./examples

  2. ./build-and-deploy-linux.sh

6.6 Windows 平台

依赖项
  • Visual Studio(已验证版本 2017、2019、2022)

  • CMake(已验证版本 3.26.0-rc6)

  • 终端(MINGW64 或 powershell)

使用步骤
  1. cd ./examples

  2. 根据需要配置 "build-and-deploy-windows.bat" 文件中的以下内容:

    • 架构(默认为 x64)

    • Visual Studio 版本(默认为 2019)

  3. ./build-and-deploy-windows.bat

6.7 macOS 平台

依赖项
  • Xcode(已验证版本 15.2)

  • CMake(已验证版本 3.19.2)

使用步骤
  1. cd ./examples

  2. 根据目标架构配置 "build-and-deploy-mac.sh" 文件:

    • 默认为 arm64(Apple 芯片)

    • 备选为 x86_64(Intel 芯片)

  3. ./build-and-deploy-mac.sh

6.8 Android 平台

依赖项
  • NDK(已验证版本 r25b,适用于 macOS)

  • CMake(已验证版本 3.19.2,适用于 macOS)

  • adb(已验证版本 1.0.41,适用于 macOS)

使用步骤
  1. cd ./examples

  2. export ANDROID_NDK=/path/to/android-ndk # 替换为您的 NDK 安装路径

  3. 根据构建需求配置 "build-and-deploy-android.sh" 文件:

    • 架构:arm64-v8a(默认值)或 armeabi-v7a

    • 工具链:aarch64-linux-android-clang(默认值)或自定义 NDK 工具链

  4. ./build-and-deploy-android.sh

6.9 iOS 平台

依赖项
  • Xcode(已验证版本 15.2)

  • CMake(已验证版本 3.19.2)

使用步骤
  1. 进入 examples 目录
python 复制代码
cd ./examples
  1. 创建 iOS 构建的 Xcode 项目文件
python 复制代码
./build-and-deploy-ios.sh
  1. 按照以下步骤在 iOS 设备上进行构建和测试:

  2. 使用 Xcode 打开 .xcodeproj 文件:a) cd ./build-ios,b) 打开 ./ten_vad_demo.xcodeproj

  3. 在 Xcode IDE 中,选择 ten_vad_demo 目标(应检查:编辑方案 → 运行 → 发布),然后选择您的 iOS 设备(而非模拟器)。

  4. 将 ten_vad/lib/iOS/ten_vad.framework 拖到 "框架、库和嵌入内容" 中(在 TARGETS → ten_vad_demo → ten_vad_demo → 通用设置中,应将嵌入设置为 "嵌入并签名")。或者通过以下方式直接添加: "框架、库和嵌入内容" → "+" → 添加其他... → 添加文件 →...

注意:如果未完成此步骤,可能会遇到以下运行时错误:"dyld: Library not loaded: @rpath/ten_vad.framework/ten_vad"。

  1. 配置 iOS 设备签名

    在 TARGETS → ten_vad_demo → 签名与功能 → 签名

    修改包标识符:将 "com.yourcompany" 修改为您自己的标识符;

    指定预置配置文件

    复制代码
    在 TARGETS → ten\_vad\_demo → 构建设置 → 签名 → 代码签名身份:

    指定您的证书

  2. 在 Xcode 中构建项目,并在您的设备上运行演示。

7. 核心技术总结

相关推荐
TGITCIC1 分钟前
RGB解码:神经网络如何通过花瓣与叶片的数字基因解锁分类奥秘
人工智能·神经网络·机器学习·分类·大模型·建模·自学习
Tipriest_2 分钟前
介绍常见的图像和视频存储格式以及其优劣势
音视频·blender·视频格式·图像格式
企鹅侠客7 分钟前
19|Whisper+ChatGPT:请AI代你听播客
人工智能·ai·chatgpt·whisper
一个java开发10 分钟前
开源免费ETL工具==PYTHON实现
python·开源·etl
深度学习机器18 分钟前
Mem0:新一代AI Agent的持久化记忆体系
人工智能·llm·agent
算家计算19 分钟前
Qwen3-Embedding-Reranker本地部署教程:8B 参数登顶 MTEB 多语言榜首,100 + 语言跨模态检索无压力!
人工智能·开源
ApacheSeaTunnel32 分钟前
实测提速 60%!Maven Daemon 全面加速 SeaTunnel 编译打包效率
大数据·开源·数据集成·seatunnel·技术分享·maven daemon
国际云,接待39 分钟前
【视频直播出海】阿里云ApsaraVideo Live:从零搭建全球直播平台的“星际航行”指南!
阿里云·云计算·音视频
机器之心39 分钟前
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
人工智能·deepseek
深圳亥时科技1 小时前
智能名片系统(源码+文档+讲解+演示)
开源