四川话语音识别模型 - Paraformer微调版
📖 模型介绍
本项目基于阿里巴巴达摩院的 iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch
预训练模型,使用220小时的高质量四川话数据进行微调,专门针对四川方言语音识别任务进行优化。
🎯 性能提升
模型版本 | CER (字符错误率) | 改进幅度 |
---|---|---|
原始模型 | 9.703% | - |
微调模型 | 5.998% | 38.19% ⬇️ |
🎯 转写结果对比

📦 模型格式
模型权重提供以下格式:
- PyTorch格式 (.pt) - 适用于训练和高精度推理
- ONNX格式 (.onnx) - 适用于跨平台部署
- 量化ONNX格式 (quant_onnx) - 适用于资源受限环境
🔧 技术特点
- 基础架构: Paraformer (Non-autoregressive Transformer)
- 训练数据: 220小时高质量四川话语音数据
- 采样率: 16kHz
- 词汇表大小: 8404
- 语言: 中文(四川方言)
📊 模型训练
训练过程可视化
以下图表展示了模型在训练过程中的性能变化:
点击这里查看
训练损失随epoch变化趋势
🚀 模型推理
PyTorch推理
使用FunASR框架进行PyTorch模型推理:
python
from funasr import AutoModel
import os
# 加载微调后的模型
model = AutoModel(model="/path/to/finetuned_model_best")
# 单个音频文件推理
audio_path = "your_audio_file.wav"
result = model.generate(input=audio_path)
print(result)
# 批量推理
audio_list = ["audio1.wav", "audio2.wav", "audio3.wav"]
results = model.generate(input=audio_list)
for i, res in enumerate(results):
print(f"音频 {i+1}: {res}")
ONNX推理
使用FunASR-ONNX进行高效推理:
python
# 安装依赖
# pip3 install -U funasr-onnx
from funasr_onnx import Paraformer
import time
# 加载ONNX模型
model_dir = "/path/to/finetuned_model_best"
model = Paraformer(model_dir, batch_size=1, quantize=False)
# 推理
wav_path = ['your_audio_file.wav']
start_time = time.time()
result = model(wav_path)
end_time = time.time()
print(f"识别结果: {result}")
print(f"推理耗时: {end_time - start_time:.3f} 秒")
量化模型推理
使用量化ONNX模型进行更快速的推理:
python
from funasr_onnx import Paraformer
# 启用量化推理
model = Paraformer(model_dir, batch_size=1, quantize=True)
result = model(wav_path)
print(f"识别结果: {result}")
📈 训练前后识别效果对比
详细的识别效果对比数据请参见模型文件中的 val_comparison_best.xlsx
,包含:
- 测试集样本的原始标注
- 原始模型识别结果
- 微调模型识别结果
- 字符错误率(CER)对比
主要改进点
- 方言词汇识别: 四川话特有词汇识别准确率显著提升
- 语音韵律: 更好地适应四川话的语音特点
- 噪声鲁棒性: 在有背景噪声的环境下表现更稳定
- 长语音处理: 对较长语音片段的识别连贯性改善
🤝 合作联系
数据与模型获取
如果您需要以下资源,欢迎联系我们:
- 🎵 四川话训练数据集 (220小时高质量标注数据)
- 🔥 完整的微调模型权重 (所有的模型文件)
- 📚 技术支持与定制化服务
- 🛠️ 模型部署与优化方案
联系方式 : 点击这里联系我们
🙏 致谢
- 感谢阿里巴巴达摩院提供的FunASR框架和Paraformer预训练模型