免费音频视频语音识别转文字软件SenseVoice整合包下载,支持批量操作可生成字幕

本次分享的是阿里团队退出的一款快速免费语音识别转文字软件SenseVoice,以前分享过paraformer-zh-streaming模型的实时识别版,本次的是SenseVoiceSmall模型非实时识别版,本人二次开发优化版,可识别音频视频转为文字,支持生成字幕,支持批量操作,支持识别文本翻译为其它语言文本。


2025-06-20,更新新版,修复了一些问题

SenseVoice介绍

SenseVoice是阿里巴巴团队推出的一个语音基础模型,具有多种语音理解功能,包括自动语音识别 (ASR)、口语语言识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。

亮点🎯

SenseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测。

  • **多语言语音识别:**经过超过40万小时的数据训练,支持超过50种语言,识别性能超越Whisper模型。
  • 富转录:
    • 拥有卓越的情绪识别能力,在测试数据上达到并超越目前最佳情绪识别模型的有效性。
    • 提供声音事件检测能力,支持背景音乐、掌声、笑声、哭声、咳嗽声、打喷嚏声等多种常见人机交互事件的检测。
  • 高效推理: SenseVoice-Small 模型采用非自回归端到端框架,推理延迟极低。处理 10 秒音频仅需 70 毫秒,比 Whisper-Large 快 15 倍。
  • **便捷的微调:**提供便捷的微调脚本和策略,让用户根据业务场景轻松解决长尾样本问题。

SenseVoice软件使用说明

原应用不支持批量操作和生成字幕,但是大家对这两个功能还是有比较强烈需求的,所以我顺便加了这两个功能,同时增加了翻译功能。

【待处理文件】软件只支持识别音频及mp4和mkv格式视频。

【batch size】值越大识别速度越快,但是对电脑配置要求也越高,可根据电脑配置决定。

【音量阈值】就是用于屏蔽低音噪音的,如果说话人环境比较嘈杂,可以设置该值,屏蔽掉低音噪音部分,值越大,屏蔽的声音分贝越高

【原语言】原音频视频的语言,zh中文,en英语,yue粤语,ja日语,ko韩语,如果待识别文件夹内包含多种语言的文件,原语言输入框内可输入"auto",但是建议将不同语言分别开,识别的时候指定语言类型。

翻译工具国内用户用百度,国外用户用谷歌,免费申请百度翻译API可以查看下面教程《最新百度翻译api免费申请AppId和AppSecret流程,每月免费100万字符

如果你想翻译成的目标语言在列表里没有,可自行设置语言代码,百度翻译和Google翻译语言代码参考下面文章《百度翻译谷歌翻译API语言代码名称对照表》,将所需要的语言代码填入目标语言输入框里即可

【最小静音时长】这个值越小,每段字幕字数越少,值越大,字幕字数越多。根据你实际生成的字幕长度按需调节。有些特殊情况,比如有的人说话特别快中间没有停顿,而且说话能连续说很久,那么这种情况下这段字幕就会很长。这时可以手动修改srt字幕文件内容进行调节字幕时长。

【块大小】太短的片段过滤掉,值太大,有可能会造成识别内容缺少

视频教程及效果演示:音视频转文字软件SenseVoice视频教程及效果演示-诺瓦小站

注意事项

先将电脑英伟达显卡驱动更新到最新版

软件只支持windows10或11

软件运行路径中不要出现非英文字符及空格,待处理文件同样注意

支持英伟达50系列显卡

建议英伟达显存不低于2G

为了尽快显示结果,软件没有执行删除缓存操作,可以定期手动删除【temp】文件夹内的临时音频文件

如果提示:处理段*/*时出错。可以调大最小静音时长的值重新生成。

批量音视频识别转文字软件SenseVoice整合包下载链接

迅雷云盘

相关推荐
草莓熊Lotso7 小时前
Linux 文件描述符与重定向实战:从原理到 minishell 实现
android·linux·运维·服务器·数据库·c++·人工智能
Coder_Boy_8 小时前
技术发展的核心规律是「加法打底,减法优化,重构平衡」
人工智能·spring boot·spring·重构
会飞的老朱10 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º12 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee14 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º15 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys15 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_567815 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子15 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能15 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算