会议录音要整理成会议纪要、采访视频需要逐字稿、课程讲座想快速提取文字笔记、播客内容要转成文字做 SEO------音视频转文字是 AI 时代效率提升最明显的工具之一。
据 Grand View Research 2026 年报告,全球语音识别市场规模预计达到 62 亿美元,年复合增长率约 17.2%。语音识别技术的核心指标是字错率(WER, Word Error Rate),OpenAI Whisper large-v3 在通用英语场景下的 WER 约 4.2%,中文场景下约 5.8%,已超过人工速记的平均准确率。但在口音、背景噪音、多人对话叠加等复杂场景下,不同引擎的表现差异很大。
一、语音转文字的核心技术路线
Whisper(OpenAI 开源模型):基于 Transformer 架构的通用语音识别模型,支持 100+ 种语言。优势在于通用性强、多语言支持好、离线可部署。劣势是中文场景的专用优化不如国内厂商,对中文人名、地名、行业术语的识别准确率偏低。91AI工具 集成 Whisper 作为本地模式引擎。
SenseVoice(阿里通义):阿里达摩院开源的语音识别模型,重点优化中文和粤语场景。优势在于中文识别准确率极高(特别是普通话和粤语),支持情感识别和声音事件检测(掌声、笑声、背景音乐)。劣势是英文和多语言支持不如 Whisper。91AI工具 集成 SenseVoice 作为服务端引擎。
端到端 vs 传统管线:传统 ASR(声学模型+语言模型+解码器分离)逐步被端到端模型替代。Whisper 和 SenseVoice 都属于端到端模型,直接将音频映射为文字,无需分步处理。端到端模型的优势是部署简单、泛化能力更强。
二、工具推荐对比
| 工具 | 识别引擎 | 中文准确率 | 多人区分 | 时间戳 | 处理速度 | 隐私保护 | 费用 |
|---|---|---|---|---|---|---|---|
| 91AI工具·音视频转文字 | Whisper / SenseVoice 双引擎 | 高 | 支持 | 逐句 | 1h 音频约 6min(服务端) | 本地+加密传输 | 免费不限次 |
| 讯飞听见 | 讯飞 ASR | 极高(中文优化) | 支持 | 逐句 | 上传后排队 | 上传服务器 | 按分钟计费 |
| 剪映「识别字幕」 | 字节 ASR | 高 | 有限 | 逐句 | 视频长度 1:1 | 上传服务器 | 免费 |
| Azure Speech-to-Text | 微软 ASR | 高 | 支持 | 逐词 | 实时/异步 | 微软云 | 按量计费 |
| OpenAI Whisper 本地 | Whisper | 中高 | 需插件 | 可选 | GPU 加速 | 本地 | 免费开源 |
| Sonix | 自研 | 中高 | 支持 | 逐句 | 上传后处理 | 上传服务器 | 按小时计费 |
三、不同场景的选型建议
会议录音转文字:推荐 91AI工具 的 SenseVoice 引擎。会议录音中多人轮流发言、偶尔重叠、有背景噪音的特点,对语音识别引擎要求较高。SenseVoice 的中文优化和多人对话模式能自动区分说话人(Speaker Diarization),输出类似"张三:... 李四:..." 的分角色文稿。建议上传前将录音降采样到 16kHz 单声道(微信录音默认可直接使用)。
采访 / 播客转写逐字稿:采访通常是一对一对话,需要准确区分两位说话人。推荐使用 91AI工具 处理,Whisper 引擎在同语种切换时表现稳定。1 小时的采访音频在服务端处理约 6-8 分钟即可完成。输出的逐句时间戳方便后期剪辑时快速定位。
课程讲座 / 培训视频提取笔记:讲座通常是单人发言、语速均匀、术语较多。推荐 Whisper 引擎配合本地部署(如有 GPU)或 91AI工具。Whisper 的 large-v3 模型在处理学术词汇和专业术语时表现优于传统 ASR 引擎。建议上传时选择较高音质的音频文件(>128kbps),较低的音质会显著提高字错率。
本地运行 Whisper(隐私敏感场景 / 大量处理):如果每周处理超过 10 小时的音频内容,或有严格的数据隐私要求,建议本地部署 Whisper:
# 安装 Whisper(需 Python + PyTorch)
pip install openai-whisper
# 转写单个音频文件,输出带时间戳的 SRT 字幕
whisper meeting.mp3 --model large-v3 --language zh --output_format srt
# 输出 TXT 纯文本
whisper meeting.mp3 --model large-v3 --language zh --output_format txt
large-v3 模型约 3GB 显存(GPU 推理),CPU 推理速度约为 GPU 的 1/10。如果只有 CPU,建议使用 medium 模型(约 1.5GB 内存),准确率略低于 large 但速度大幅提升。
短视频自动生成字幕:剪映的"识别字幕"功能是目前最快捷的方案。上传视频后一键识别,自动生成字幕时间轴,直接嵌入画面。如果先导出音频再用 91AI工具 识别后导入字幕,可以多一步选择引擎的自由度。
四、常见 QA
Q:语音转文字的准确率能达到多少?
A:在安静环境、标准普通话或英语、单人说话的场景下,Whisper large-v3 和 SenseVoice 的字错率约 5%-8%,接近人工速记水平。电话录音(8kHz 窄带)、多人同时说话、强口音(方言或非母语)、强背景噪音(咖啡馆、马路旁)等场景下,字错率可能上升到 15%-30%。建议:自身录音条件好的话可以直接使用识别结果;录音条件差的话,先做音频降噪预处理。
Q:1 小时的录音转文字需要多久?
A:91AI工具 服务端处理约 6-10 分钟,支持异步处理,上传后可以关闭页面,处理完成后回来下载结果。Whisper 本地 GPU 推理(RTX 4090)约 5-8 分钟。CPU 推理(i7-12700)约 40-60 分钟。剪映的识别速度约等于视频时长(1:1)。讯飞听见上传后通常 30 分钟到 2 小时(有人工校对环节)。
Q:多人开会录音能自动区分谁说了什么吗?
A:能,但效果取决于录音质量和说话人数量。SenseVoice 和部分服务端引擎支持 Speaker Diarization,基于声纹特征区分不同说话人。效果在 2-4 人场景下较好,超过 6 人时准确率明显下降。如果录音中说话人顺序混乱、重叠严重,建议在录音时让每人先报一次名字再发言,方便后期人工校对时定位。
Q:广东话 / 英文 / 中日混排能识别吗?
A:Whisper 支持 100+ 种语言,包括粤语、日语、韩语、英语、法语、德语等。SenseVoice 重点优化了中文普通话和粤语,英文和日文次之。如果音频是中文+英文混排(如技术会议中的中英夹杂),Whisper 的自动语言检测模式表现更好。粤语场景推荐 SenseVoice 引擎。
五、总结
音视频转文字的核心选型策略很简单:
偶尔处理(每月 5 小时以内) :在线工具最方便,91AI工具 的双引擎策略覆盖最广。大量处理(每周 10 小时以上) :本地 Whisper 部署最划算,一次设置长期使用。追求最高中文准确率 :讯飞听见或 91AI工具的 SenseVoice 引擎。需要多语言支持 :Whisper 通用性最好,覆盖语种最多。隐私敏感场景:Whisper 全本地部署或 91AI工具的本地模式。
影响识别准确率的不是引擎而是录音质量------一个 16kHz 单声道、无背景噪音、单人近距离说话的录音,在任何引擎上都能获得 90%+ 的准确率。上传前花 2 分钟预处理音频,比花 2 小时校对识别结果更值得。