SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型 本地一键整合包下载


阿里巴巴近期发布了开源语音大模型项目FunAudioLLM,该项目包含了两个核心模型:SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆
本地一键包下载地址: SenseVoice - 精准多语言语音识别与情感辨识模型 本地一键整合包下载

**SenseVoice:**精准多语言识别与情感辨识
SenseVoice主要致力于高精度多语言语音识别、情感辨识和音频事件检测,经过40万小时数据训练,支持超过50种语言的识别,其效果显著优于现有的Whisper模型,尤其在中文和粤语识别上提升超过50%。该模型不仅能够准确识别语音,还能辨别音乐、掌声、笑声、哭声、咳嗽和喷嚏等常见人机交互事件。多方面的测试显示,SenseVoice在情感辨识能力上也取得了行业领先的成果,能够检测到多种情感表现。
CosyVoice 这里就不多介绍,可以参考之前发布的一键包,CosyVoice一键包点此进入

本地测试了多轮音频,识别能力还是挺棒的,相比Whisper,SenseVoice的中文识别能力更胜一筹,精准度也更高。
使用也很简单,下载一键包,双击一键启动,进入WebUI界面
上传一段需要识别的音频,点开始即可

相关推荐
蹦蹦跳跳真可爱5891 小时前
Python----深度学习(基于深度学习Pytroch簇分类,圆环分类,月牙分类)
人工智能·pytorch·python·深度学习·分类
蚂蚁20142 小时前
卷积神经网络(二)
人工智能·计算机视觉
poppyCL4 小时前
java使用CMU sphinx语音识别
ocr·语音识别·cmusphinx
z_mazin4 小时前
反爬虫机制中的验证码识别:类型、技术难点与应对策略
人工智能·计算机视觉·目标跟踪
lixy5795 小时前
深度学习3.7 softmax回归的简洁实现
人工智能·深度学习·回归
youhebuke2255 小时前
利用deepseek快速生成甘特图
人工智能·甘特图·deepseek
訾博ZiBo5 小时前
AI日报 - 2025年04月26日
人工智能
郭不耐5 小时前
DeepSeek智能时空数据分析(三):专业级地理数据可视化赏析-《杭州市国土空间总体规划(2021-2035年)》
人工智能·信息可视化·数据分析·毕业设计·数据可视化·城市规划
AI军哥6 小时前
MySQL8的安装方法
人工智能·mysql·yolo·机器学习·deepseek
余弦的倒数6 小时前
知识蒸馏和迁移学习的区别
人工智能·机器学习·迁移学习