FunASR:阿里巴巴开源的语音识别工具包,提供预训练模型与详细教程,一键部署多场景应用.

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信订阅号|搜一搜:蚝油菜花

🚀 快速阅读

  1. FunASR 是由阿里巴巴开源的语音识别工具包,支持多种功能,包括语音识别、语音活动检测、标点恢复、说话人验证等。
  2. FunASR 提供了预训练模型和易于使用的接口,支持快速部署,满足不同场景的应用需求。
  3. 本文将介绍 FunASR 的主要功能、技术原理,并提供运行示例和安装教程。

正文(附运行示例)

FunASR 是什么

FunASR 是由阿里巴巴达摩院开源的语音识别工具包,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产。它支持多种功能,如语音识别(ASR)、语音活动检测(VAD)、标点恢复、说话人验证和多人对话语音识别等。FunASR 提供了便捷的脚本和教程,支持预训练模型的推理与微调,使用户能够快速部署语音识别服务。

FunASR 的主要功能

  • 语音识别(ASR):将语音信号转换为文本信息。
  • 语音活动检测(VAD):识别语音信号中的有效语音部分,过滤掉静音或背景噪音。
  • 标点恢复:在语音识别结果中自动添加标点符号,提高文本的可读性。
  • 说话人验证:识别并验证说话人的身份。
  • 说话人分离:在多人对话中区分不同说话人的声音。
  • 多说话人 ASR:处理多人同时说话的场景,识别和区分每个人的语音。

如何运行 FunASR

安装教程

确保已安装以下依赖环境:

shell 复制代码
python>=3.8
torch>=1.13
torchaudio

使用 pip 安装:

shell 复制代码
pip3 install -U funasr

或者从源代码安装:

shell 复制代码
git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

如果需要使用工业预训练模型,安装 modelscope 与 huggingface_hub(可选):

shell 复制代码
pip3 install -U modelscope huggingface huggingface_hub

运行示例

非实时语音识别

使用 Paraformer 模型进行语音识别:

python 复制代码
from funasr import AutoModel

model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc")
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", batch_size_s=300, hotword='魔搭')
print(res)
实时语音识别

使用 Paraformer 模型进行实时语音识别:

python 复制代码
from funasr import AutoModel

chunk_size = [0, 10, 5]  # 600ms
encoder_chunk_look_back = 4
decoder_chunk_look_back = 1

model = AutoModel(model="paraformer-zh-streaming")

import soundfile
import os

wav_file = os.path.join(model.model_path, "example/asr_example.wav")
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = chunk_size[1] * 960  # 600ms

cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size, encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)
    print(res)

语音端点检测(VAD)示例

使用 fsmn-vad 模型进行语音端点检测:

python 复制代码
from funasr import AutoModel

model = AutoModel(model="fsmn-vad")

wav_file = f"{model.model_path}/example/vad_example.wav"
res = model.generate(input=wav_file)
print(res)

VAD 模型将返回音频中有效语音段的起始和结束时间,格式如下:

json 复制代码
[[beg1, end1], [beg2, end2], ..., [begN, endN]]

其中 begNendN 以毫秒为单位。

标点恢复示例

使用 ct-punc 模型进行标点恢复:

python 复制代码
from funasr import AutoModel

model = AutoModel(model="ct-punc")

res = model.generate(input="那今天的会就到这里吧 happy new year 明年见")
print(res)

该模型会自动在转录文本中添加合适的标点符号,提升文本的可读性。

时间戳预测示例

使用 fa-zh 模型进行时间戳预测:

python 复制代码
from funasr import AutoModel

model = AutoModel(model="fa-zh")

wav_file = f"{model.model_path}/example/asr_example.wav"
text_file = f"{model.model_path}/example/text.txt"
res = model.generate(input=(wav_file, text_file), data_type=("sound", "text"))
print(res)

该模型将为输入的音频和文本生成时间戳信息。

情感识别示例

使用 emotion2vec_plus_large 模型进行情感识别:

python 复制代码
from funasr import AutoModel

model = AutoModel(model="emotion2vec_plus_large")

wav_file = f"{model.model_path}/example/test.wav"

res = model.generate(wav_file, output_dir="./outputs", granularity="utterance", extract_embedding=False)
print(res)

该模型将返回音频中情感类别的预测结果,如 "生气/angry","开心/happy","中立/neutral","难过/sad"。

资源


❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信订阅号|搜一搜:蚝油菜花

相关推荐
shayudiandian21 分钟前
CNN详解:卷积神经网络是如何识别图像的?
人工智能·深度学习·cnn
V_1565602721924 分钟前
2025年蚌埠市“三首产品”、市级服务型制造示范、市级企业技术中心等5个项目认定申报指南大全
大数据·人工智能·制造
盘古信息IMS28 分钟前
AI算力时代,PCB制造如何借助盘古信息MOM构建数字化新范式?
人工智能·制造
集成显卡35 分钟前
AI取名大师 | uni-app + Wot UI 跟随设备自动切换明暗主题
人工智能·ui·uni-app·外观配色
码上地球1 小时前
大数据成矿预测系列(九) | 数据的“自我画像”:自编码器如何实现非监督下的“特征学习”
人工智能·深度学习·机器学习·数学建模
愚公搬代码1 小时前
【愚公系列】《MCP协议与AI Agent开发》011-MCP协议标准与规范体系(交互协议与状态码体系)
人工智能·交互
这儿有一堆花1 小时前
部署Cloudflare免费图床——免费开源强大
开源·github
小程故事多_801 小时前
LangGraph系列:多智能体终极方案,ReAct+MCP工业级供应链系统
人工智能·react.js·langchain
진영_1 小时前
深度学习打卡第R4周:LSTM-火灾温度预测
人工智能·深度学习·lstm
陈希瑞1 小时前
从 0 到 1:Vue3+Django打造现代化宠物商城系统(含AI智能顾问)
人工智能·django·宠物