SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型本地一键整合包下载

昨日之日20062024-07-13 9:56

阿里巴巴近期发布了开源语音大模型项目FunAudioLLM，该项目包含了两个核心模型：SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆
本地一键包下载地址： SenseVoice - 精准多语言语音识别与情感辨识模型本地一键整合包下载

**SenseVoice：**精准多语言识别与情感辨识
SenseVoice主要致力于高精度多语言语音识别、情感辨识和音频事件检测，经过40万小时数据训练，支持超过50种语言的识别，其效果显著优于现有的Whisper模型，尤其在中文和粤语识别上提升超过50%。该模型不仅能够准确识别语音，还能辨别音乐、掌声、笑声、哭声、咳嗽和喷嚏等常见人机交互事件。多方面的测试显示，SenseVoice在情感辨识能力上也取得了行业领先的成果，能够检测到多种情感表现。
CosyVoice 这里就不多介绍，可以参考之前发布的一键包，CosyVoice一键包点此进入

本地测试了多轮音频，识别能力还是挺棒的，相比Whisper，SenseVoice的中文识别能力更胜一筹，精准度也更高。
使用也很简单，下载一键包，双击一键启动，进入WebUI界面
上传一段需要识别的音频，点开始即可

SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型 本地一键整合包下载

SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型本地一键整合包下载