语音识别dolphin 学习笔记

目录

Dolphin简介

[Dolphin 中共有 4 个模型,其中 2 个现在可用。](#Dolphin 中共有 4 个模型,其中 2 个现在可用。)

使用demo


Dolphin简介

Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言、多任务语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言,同时支持 22 种汉语方言。该模型在超过 210,000 小时的数据上进行训练,包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测(VAD)、分割和语言识别(LID)。

small版本与Whisper large v3相比,平均WER降低54.1%,模型大小只有Whisper large v3的约1/4 除了语音识别,还能进行语音活动检测、音频分割以及语言识别 目前开源了两个基础版本,一个base版,一个small版

方法
Dolphin 主要遵循 Whisper 和 OWSM 的创新设计方法。采用基于 E-Branchformer 的编码器和基于标准 Transformer 的解码器的联合 CTC-Attention 架构。针对 ASR 的特定关注,引入了几个关键修改。Dolphin 不支持翻译任务,并消除了对先前文本及其相关标记的使用。

在 Dolphin 中,引入了二级语言标记系统,以更好地处理语言和区域多样性,尤其是在 Dataocean AI 数据集中。第一个标记指定语言(例如, <zh><ja> ),而第二个标记表示区域(例如, <CN><JP> )。详细信息请参阅论文。

https://github.com/DataoceanAI/Dolphin/blob/main/languages.md

Dolphin 中共有 4 个模型,其中 2 个现在可用。

Model Parameters 参数 Average WER 平均词错误率 Publicly Available 公开可用
base 基础 140 M 33.3
small 小型 372 M 25.2
medium 中等 910 M 910 兆 23.1
large 大型 1679 M 21.6

没有开源微调 finetune

支持阿拉伯语,但是不支持

安装:

复制代码
pip install -U dataoceanai-dolphin

使用demo

可以自动识别语言

python 复制代码
import dolphin

waveform = dolphin.load_audio("audio.wav")
model = dolphin.load_model("small", "/data/models/dolphin", "cuda")
result = model(waveform)

# Specify language
result = model(waveform, lang_sym="zh")

# Specify language and region
result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)
python 复制代码
import dolphin
import os
# waveform = dolphin.load_audio("/nas/lbg/project/Whisper-Finetune/dataset/test_long.wav")

waveform = dolphin.load_audio("/nas/ASR_DATA/cv-corpus-21.0-2025-03-14/ar/clips/common_voice_ar_24146339.mp3")



os.makedirs("/nas/lbg/models/dolphin", exist_ok=True)
model = dolphin.load_model("base", "/nas/lbg/models/dolphin", "cuda")
result = model(waveform)

# Specify language
# result = model(waveform, lang_sym="zh")

# # Specify language and region
# result = model(waveform, lang_sym="zh", region_sym="CN")
# print(result.text)

result = model(waveform)

# Specify language and region
result = model(waveform)
print(result.text)
相关推荐
寒秋花开曾相惜6 小时前
(学习笔记)3.8 指针运算(3.8.3 嵌套的数组& 3.8.4 定长数组)
java·开发语言·笔记·学习·算法
是翔仔呐7 小时前
第11章 显示外设驱动:I2C协议OLED屏、SPI协议LCD屏字符/图片/中文显示
c语言·开发语言·stm32·单片机·嵌入式硬件·学习·gitee
_李小白7 小时前
【AI大模型学习笔记之平台篇】第五篇:Trae常用模型介绍与性能对比
人工智能·笔记·学习
承渊政道7 小时前
【优选算法】(实战体会位运算的逻辑思维)
数据结构·c++·笔记·学习·算法·leetcode·visual studio
AI-Ming8 小时前
程序员转行学习 AI 大模型: 踩坑记录:服务器内存不够,程序被killed
服务器·人工智能·python·gpt·深度学习·学习·agi
m0_716765238 小时前
C++提高编程--STL常用容器(set/multiset、map/multimap容器)详解
java·开发语言·c++·经验分享·学习·青少年编程·visual studio
2501_945318498 小时前
零基础学习AI的选型指南:CAIE认证与编程型AI认证如何取舍
人工智能·学习
承渊政道8 小时前
【优选算法】(实战推演模拟算法的蕴含深意)
数据结构·c++·笔记·学习·算法·leetcode·排序算法
Keep learning!8 小时前
PCA主成分分析学习
学习·算法
浮白载笔的夜晚8 小时前
【科普向】模拟电路(Analog Circuits)与射频电路(RF Circuits)的区别
学习