【语音识别】SenseVoice非流式改流式

原始基于Funasr框架的SenseVoice是中英文转录模型,在官方的文档中,仅支持微调,不支持热词和流式输出,这肯定会在一定程度上影响用户的体验,有大神对其网络结构进行了魔改,使其成为一个支持热词,可微调,可流式的中英文语音转录模型。
github上魔改之后的地址(感谢这位大神的分享):流式SenseVoice

一、 本地文件加载

这里代码中原有加载本地文件的程序,是有问题的。

python 复制代码
import soundfile as sf

from streaming_sensevoice import StreamingSenseVoice


def main():
    contexts = ["停止"]
    model = StreamingSenseVoice(contexts=contexts)

    samples, sr = sf.read("data/test_16k.wav")
    # 这里不知道为什么要*3,如果这样,一定是会检测三遍
    samples = (samples * 32768).tolist() * 3

    step = int(0.1 * sr)
    for i in range(0, len(samples), step):
        is_last = i + step >= len(samples)
        for res in model.streaming_inference(samples[i : i + step], is_last):
            print(res["timestamps"])
            print(res["text"])


if __name__ == "__main__":
    main()

更改之后的代码:

python 复制代码
import soundfile as sf						# 这个库用来读取和写入音频文件
from streaming_sensevoice import StreamingSenseVoice	# 外部模块
def main():
    contexts = ["停止"]						# 这里应该就是热词加载的模块
    model = StreamingSenseVoice(contexts=contexts, model='/data/H2413325/code_dir_V2/FunASR-main/examples/industrial_data_pretraining/sense_voice/SenseVoiceSmall',
                               device='cuda:0')
	 # soundfile读取WAV文件,这里的文件一定是16KHZ,读取之后的samples是音频文件的采样数据,是数组格式,sr是音频采样率
    samples, sr = sf.read("data/Meeting1_16k.wav")
    assert sr == 16000
    # 将音频数据的范围从float浮点区间,转换为整数形式,通常是16位整数(int16)astype('int16')是int16类型。
    # tolist()将numpy数组转换为list列表,因为流式识别模型通常接收Python列表格式的数据
    samples = (samples * 32768).astype("int16").tolist()
    # 步长,每次仅传输0.1秒的数据,也就是0.1*sr个音频片段 样本数 = 0.1*16000
    step = int(0.1 * sr)
    # for循环按照步长处理音频片段,i是当前音频块的起始位置,每次循环会处理长度为0.1秒的数据
    for i in range(0, len(samples), step):
        chunk = samples[i : i + step]			# 0~1600    1600~3200  3200~4800  ...
        is_last = i + step >= len(samples)	# 判断是否是结尾,如果是结果,is_last==0
        results = model.streaming_inference(chunk, is_last)   	# 流式传入模型
        # 处理转录结果
        for res in results:
            if res["text"].strip():
                print(f"[{res['timestamps']}] {res['text']}")

if __name__ == "__main__":
    main()

本地文件的识别效果如下图所示:

相关推荐
测试员周周6 小时前
【Appium 系列】第16节-WebView-H5上下文切换 — 混合应用的自动化难点
运维·开发语言·人工智能·功能测试·appium·自动化·测试用例
K姐研究社8 小时前
怎么用AI制作电商口播视频,开拍APP一键生成
人工智能·音视频
LaughingZhu8 小时前
Product Hunt 每日热榜 | 2026-05-21
前端·人工智能·经验分享·chatgpt·html
传说故事8 小时前
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control
论文阅读·人工智能·具身智能·wam
北京耐用通信9 小时前
全域适配工业场景耐达讯自动化Modbus TCP 转 PROFIBUS 网关轻松实现以太网与现场总线互通
网络·人工智能·网络协议·自动化·信息与通信
火山引擎开发者社区9 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能
小a彤9 小时前
GE 在 CANN 五层架构中的位置
人工智能·深度学习·transformer
前端若水10 小时前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js
Upsy-Daisy10 小时前
AI Agent 项目学习笔记(八):Tool Calling 工具调用机制总览
人工智能·笔记·学习
企学宝10 小时前
企学宝5月专题课程丨《OpenClaw AI 智能体实战营:从零基础部署到全场景自动化落地》
人工智能·ai·企业培训