【Whisper】WhisperX: Time-Accurate Speech Transcription of Long-Form Audio

Abstract

Whisper 的跨语言语音识别取得了很好的结果,但是对应的时间戳往往不准确,而且单词级别的时间戳也不能做到开箱即用(out-of-the-box). 此外,他们在处理长音频时通过缓冲转录

相关推荐
带电的小王7 小时前
WhisperKit: Android 端测试 Whisper -- Android手机(Qualcomm GPU)部署音频大模型
android·智能手机·whisper·qualcomm
带电的小王2 天前
whisper.cpp: Android端测试 -- Android端手机部署音频大模型
android·智能手机·llm·whisper·音频大模型·whisper.cpp
带电的小王2 天前
whisper.cpp: PC端测试 -- 电脑端部署音频大模型
llm·whisper·音视频·音频大模型
AI慧聚堂4 天前
记录本地部署 Whisper 模型的过程
whisper
学习中的程序媛~4 天前
whisper实时语音转文字
python·whisper·语音识别
曦云沐4 天前
深入解析:选择最适合你的Whisper语音识别模型
人工智能·whisper·语音识别
ZVAyIVqt0UFji4 天前
如何使用whisper+ollama+ffmpeg为视频添加中文字幕
ffmpeg·whisper·音视频
m0_7482565610 天前
Web 端语音对话 AI 示例:使用 Whisper 和 llama.cpp 构建语音聊天机器人
前端·人工智能·whisper
GPUStack15 天前
GPUStack v0.4:文生图模型、语音模型、推理引擎版本管理、离线支持和部署本地模型
stable diffusion·llm·whisper·speech-to-text·text-to-speech
飘逸高铁侠20 天前
使用Python和OpenAI Whisper为视频生成字幕
python·whisper·音视频·字幕