【Whisper】WhisperX: Time-Accurate Speech Transcription of Long-Form Audio

Abstract

Whisper 的跨语言语音识别取得了很好的结果,但是对应的时间戳往往不准确,而且单词级别的时间戳也不能做到开箱即用(out-of-the-box). 此外,他们在处理长音频时通过缓冲转录

相关推荐
susu108301891120 天前
OpenAI Whisper 把mp3语音转文字
whisper
lili-felicity23 天前
CANN加速Whisper语音识别推理:流式处理与实时转录优化
人工智能·whisper·语音识别
阿里巴啦25 天前
python+yt-dlp开源项目,支持 YouTube, Bilibili, TikTok/抖音,快手 等多个平台的视频/音频/字幕下载/ai摘要等功能
python·ffmpeg·whisper·音视频·视频处理·ai摘要·音视频转录
普通网友25 天前
极致压缩:Whisper.cpp 量化版本清单与 ggml 格式模型下载
whisper
天空中最亮的一颗星25 天前
如何下载、安装whisper、faster_whisper?
whisper
runner365.git1 个月前
ffmpeg8.0合入whisper,语音识别模型终于进入ffmpeg
ffmpeg·whisper·语音识别
Blossom.1181 个月前
从单点工具到智能流水线:企业级多智能体AI开发工作流架构实战
人工智能·笔记·python·深度学习·神经网络·架构·whisper
Blossom.1181 个月前
从“金鱼记忆“到“超级大脑“:2025年AI智能体记忆机制与MoE架构的融合革命
人工智能·python·算法·架构·自动化·whisper·哈希算法
Blossom.1181 个月前
把大模型塞进蓝牙耳机:1.46MB 的 Whisper-Lite 落地全记录
人工智能·笔记·python·深度学习·神经网络·chatgpt·whisper