VAD入门(基于Python)

主要参考资料:

在电脑上如何实现AEC回声消除,做个播放时,可以通过说话打断: https://blog.csdn.net/qq_41126242/article/details/145799439

目录

Silero VAD

Silero VAD 是 Silero 语音模型系列中的语音活动检测(VAD)工具,基于深度学习实现,相比传统 VAD(如 WebRTC VAD),它在复杂噪声环境下的检测效果更好,且支持更灵活的输入格式。

1.核心优势

  • 基于深度学习:适应复杂噪声环境,检测更精准。
  • 灵活输入:支持任意采样率(自动重采样)和音频长度。
  • 多语言支持:适用于多种语言的语音检测。
  • 轻量高效:模型文件小(约 1MB),适合实时场景。

2.安装与依赖

(1)安装

bash 复制代码
pip install -q torch torchaudio  # 需先安装 PyTorch
pip install -q silero-vad

(2)依赖

Python 3.7+

PyTorch 1.10+

TorchAudio 0.10+

3.核心功能

(1) 语音段检测

输入音频波形,返回语音段的起止时间(单位:毫秒)。

(2) 实时语音检测

支持流式音频输入,逐帧判断是否包含语音。

4. 基础使用

(1) 加载模型

python 复制代码
import torch
from silero_vad import utils, Vad

# 加载模型
model, utils = torch.hub.load(
    repo_or_dir='snakers4/silero-vad',
    model='silero_vad',
    force_reload=True  # 强制更新模型
)

# 工具函数
(get_speech_timestamps, _, read_audio, *_) = utils

(2)检测语音段

python 复制代码
# 读取音频(自动处理格式)
audio = read_audio('audio.wav', sampling_rate=16000)  # 支持任意采样率

# 检测语音段
speech_timestamps = get_speech_timestamps(
    audio, 
    model, 
    threshold=0.5,  # 置信度阈值(0~1,越高越严格)
    sampling_rate=16000
)

print("检测到的语音段(毫秒):", speech_timestamps)

输出示例:

bash 复制代码
[
    {'start': 1000, 'end': 3500},  # 第1段语音:1s~3.5s
    {'start': 5000, 'end': 8000}   # 第2段语音:5s~8s
]

(3) 提取语音段

python 复制代码
from pydub import AudioSegment

# 加载原始音频
full_audio = AudioSegment.from_file("audio.wav")

# 根据时间戳切割语音段
for segment in speech_timestamps:
    start = segment['start']  # 毫秒
    end = segment['end']
    speech_part = full_audio[start:end]
    speech_part.export(f"speech_{start}_{end}.wav", format="wav")

5. 高级功能

(1) 实时流式检测

python 复制代码
# 初始化 VAD 工具
vad = Vad(model)

# 模拟实时音频流(每次输入一帧)
sampling_rate = 16000
frame_duration_ms = 100  # 每帧100ms
frame_size = int(sampling_rate * frame_duration_ms / 1000)

# 假设 audio_stream 是实时音频流(如麦克风输入)
for frame in audio_stream:
    # 转换为 Tensor
    audio_tensor = torch.from_numpy(frame).float()
    
    # 检测当前帧是否有语音
    is_speech = vad(audio_tensor, sampling_rate, threshold=0.5)
    
    print("Real-time Speech" if is_speech else "Silence")

(2) 调整检测敏感度

threshold 参数:范围 0.0~1.0,值越高检测越严格(减少误报)。

min_speech_duration_ms:设置最短语音段(默认 250ms),过滤短噪声。

6. 与 WebRTC VAD 的对比

相关推荐
愚公搬代码43 分钟前
【愚公系列】《Python网络爬虫从入门到精通》045-Charles的SSL证书的安装
网络·爬虫·python·网络协议·ssl
邹霍梁@开源软件GoodERP1 小时前
【DuodooTEKr】物联DTU设备与Odoo18 Maintenance设备模块IOT模块集成技术方案
人工智能·python·物联网·开源·制造
蜡笔小新星2 小时前
Flask项目框架
开发语言·前端·经验分享·后端·python·学习·flask
cliff,2 小时前
【python爬虫】酷狗音乐爬取
笔记·爬虫·python·学习
IT猿手2 小时前
2025最新群智能优化算法:海市蜃楼搜索优化(Mirage Search Optimization, MSO)算法求解23个经典函数测试集,MATLAB
开发语言·人工智能·算法·机器学习·matlab·机器人
IT猿手4 小时前
2025最新群智能优化算法:山羊优化算法(Goat Optimization Algorithm, GOA)求解23个经典函数测试集,MATLAB
人工智能·python·算法·数学建模·matlab·智能优化算法
萧鼎5 小时前
深入解析 Umi-OCR:高效的免费开源 OCR 文字识别工具
python·ocr·umi-ocr
夏天的味道٥5 小时前
使用 Java 执行 SQL 语句和存储过程
java·开发语言·sql
IT、木易6 小时前
大白话JavaScript实现一个函数,将字符串中的每个单词首字母大写。
开发语言·前端·javascript·ecmascript