四川话ASR-微调-语音识别-Paraformer-Large

四川话语音识别模型 - Paraformer微调版

📖 模型介绍

本项目基于阿里巴巴达摩院的 iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 预训练模型,使用220小时的高质量四川话数据进行微调,专门针对四川方言语音识别任务进行优化。

🎯 性能提升

模型版本 CER (字符错误率) 改进幅度
原始模型 9.703% -
微调模型 5.998% 38.19% ⬇️

🎯 转写结果对比

📦 模型格式

模型权重提供以下格式:

  • PyTorch格式 (.pt) - 适用于训练和高精度推理
  • ONNX格式 (.onnx) - 适用于跨平台部署
  • 量化ONNX格式 (quant_onnx) - 适用于资源受限环境

🔧 技术特点

  • 基础架构: Paraformer (Non-autoregressive Transformer)
  • 训练数据: 220小时高质量四川话语音数据
  • 采样率: 16kHz
  • 词汇表大小: 8404
  • 语言: 中文(四川方言)

📊 模型训练

训练过程可视化

以下图表展示了模型在训练过程中的性能变化:

点击这里查看
训练损失随epoch变化趋势


🚀 模型推理

PyTorch推理

使用FunASR框架进行PyTorch模型推理:

python 复制代码
from funasr import AutoModel
import os

# 加载微调后的模型
model = AutoModel(model="/path/to/finetuned_model_best")

# 单个音频文件推理
audio_path = "your_audio_file.wav"
result = model.generate(input=audio_path)
print(result)

# 批量推理
audio_list = ["audio1.wav", "audio2.wav", "audio3.wav"]
results = model.generate(input=audio_list)
for i, res in enumerate(results):
    print(f"音频 {i+1}: {res}")

ONNX推理

使用FunASR-ONNX进行高效推理:

python 复制代码
# 安装依赖
# pip3 install -U funasr-onnx

from funasr_onnx import Paraformer
import time

# 加载ONNX模型
model_dir = "/path/to/finetuned_model_best"
model = Paraformer(model_dir, batch_size=1, quantize=False)

# 推理
wav_path = ['your_audio_file.wav']
start_time = time.time()
result = model(wav_path)
end_time = time.time()

print(f"识别结果: {result}")
print(f"推理耗时: {end_time - start_time:.3f} 秒")

量化模型推理

使用量化ONNX模型进行更快速的推理:

python 复制代码
from funasr_onnx import Paraformer

# 启用量化推理
model = Paraformer(model_dir, batch_size=1, quantize=True)
result = model(wav_path)
print(f"识别结果: {result}")

📈 训练前后识别效果对比

详细的识别效果对比数据请参见模型文件中的 val_comparison_best.xlsx,包含:

  • 测试集样本的原始标注
  • 原始模型识别结果
  • 微调模型识别结果
  • 字符错误率(CER)对比

主要改进点

  1. 方言词汇识别: 四川话特有词汇识别准确率显著提升
  2. 语音韵律: 更好地适应四川话的语音特点
  3. 噪声鲁棒性: 在有背景噪声的环境下表现更稳定
  4. 长语音处理: 对较长语音片段的识别连贯性改善

🤝 合作联系

数据与模型获取

如果您需要以下资源,欢迎联系我们:

  • 🎵 四川话训练数据集 (220小时高质量标注数据)
  • 🔥 完整的微调模型权重 (所有的模型文件)
  • 📚 技术支持与定制化服务
  • 🛠️ 模型部署与优化方案

联系方式 : 点击这里联系我们

🙏 致谢

  • 感谢阿里巴巴达摩院提供的FunASR框架和Paraformer预训练模型
相关推荐
暴风鱼划水13 分钟前
大型语言模型(入门篇)B
人工智能·语言模型·大模型·llm
鼎道开发者联盟14 分钟前
构建活的界面:AIGUI底板的动态布局
人工智能·ui·ai·aigc·gui
无代码专家22 分钟前
设备巡检数字化闭环解决方案:从预防到优化的全流程赋能
大数据·人工智能
兔子小灰灰1 小时前
jetson安装pytorch
人工智能·pytorch·python
weilaikeqi11111 小时前
拙诚育泽携手澳仕玛,夯实青少年AI科技竞争力
人工智能·科技
卷心菜加农炮1 小时前
MPK(Mirage Persistent Kernel)源码笔记(3)--- 系统接口
人工智能
神算大模型APi--天枢6461 小时前
合规与高效兼得:国产全栈架构赋能行业大模型定制,从教育到工业的轻量化落地
大数据·前端·人工智能·架构·硬件架构
Coding茶水间2 小时前
基于深度学习的学生上课行为检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
Channing Lewis2 小时前
脑机智能会成为意识迁移的过渡形态吗
人工智能
有为少年3 小时前
Welford 算法 | 优雅地计算海量数据的均值与方差
人工智能·深度学习·神经网络·学习·算法·机器学习·均值算法