whisper

JK Chen10 小时前
python·whisper·音视频
faster_whisper,视频转文字,并生成字幕文件faster_whisper,视频转文字,并生成字幕文件(附带exe)使用说明:–model:选 tiny/base/small/medium/large(越大越准、越耗资源)。
工作log2 天前
人工智能·whisper·语音识别
10分钟搭建本地语音识别服务 (Whisper large-v3-turbo)你是否厌倦了为在线语音识别 API 付费?或者担心数据隐私问题?本文将导引你如何使用 Hugging Face 的轻量级模型 openai/whisper-large-v3-turbo,在你的本机搭建一个完全免费的语音转文字 REST API 服务,并解决实际部署中可能遇到的各种“坑”。
shao9185163 天前
ffmpeg·whisper·asr·mini-omni·自建语音服务器
第10章 Streaming(上):初级音频应用(1)——项目三:自建服务器的Mini-Omni实时语音聊天机器人由于流式传输内容较多,因此将其分为初级音频应用、高级音频应用和视频应用三部分。本章音频应用部分包括自动语音识别技术(ASR),自建服务器的Mini-Omni模型的对话式聊天机器人,Groq与带自动语音检测功能的多模态Gradio应用,Mistral实现流式传输音频的魔力8号球。除了拆解音频应用,还会详细介绍并实战大模型库Whisper、Mini-Omni、Groq和Mistral。此外,本章还会详细讲解用到的其他技术:@ricky0123/vad-web实现语音活动检测功能,Groq高速大模型调用库,Li
code_pgf8 天前
人工智能·whisper·mnn
MNN Whisper 实时 ASR 工程实现适用工程:mnn-whisper 当前版本重点:Whisper + MNN C++ 推理、decoder KV cache、实时预览 single-pass 优化、视频字幕叠加演示。
独占的甜蜜11 天前
ffmpeg·whisper·音视频
从FLAC到WAV:whisper.cpp中的FFmpeg音频预处理全解析过程在音频处理领域,FFmpeg是一个功能强大且广泛使用的开源工具库。在whisper.cpp中,利用FFmpeg进行音频预处理,尤其是从FLAC到WAV的转换,起到了关键作用。 FLAC(Free Lossless Audio Codec)是一种常用的无损音频压缩格式,它能够在保持音频质量的同时实现较高的压缩率。然而,在某些音频处理场景中,如语音识别、音频分析等,可能需要将FLAC格式转换为WAV格式。WAV(Waveform Audio File Format)通常以无损方式存储音频数据,能提供更原始的音
独占的甜蜜11 天前
ffmpeg·whisper·音视频
从FLAC到WAV:whisper.cpp中的FFmpeg音频预处理全解析在音频处理领域,FFmpeg是一个功能强大且广泛使用的开源工具库。在whisper.cpp中,利用FFmpeg进行音频预处理,尤其是从FLAC到WAV的转换,起到了关键作用。 FLAC(Free Lossless Audio Codec)是一种常用的无损音频压缩格式,它能够在保持音频质量的同时实现较高的压缩率。然而,在某些音频处理场景中,如语音识别、音频分析等,可能需要将FLAC格式转换为WAV格式。WAV(Waveform Audio File Format)通常以无损方式存储音频数据,能提供更原始的音
阿里巴啦15 天前
人工智能·python·whisper·视频下载·视频处理工具
一个 Python 视频处理工具链实战:下载、转录、摘要、字幕、诊断全打通 (已开源)现在很多人处理视频内容,真正想要的已经不只是“把视频下载下来”,而是把视频里的信息提取出来、整理出来、压缩出来。 比如先下载视频,再用 AI 做语音转文字;如果内容太长,再交给大模型生成摘要和关键词,最后把结果沉淀成可检索、可复用的文本资料。
qq_3168377516 天前
whisper
使用 whisper OpenCC 从音频文件生成字幕whisper:将wav指定格式的音频文件生成srt字幕,但是字幕是繁体中文的,需要用OpenCC转成中文简体
skywalk816322 天前
人工智能·whisper
DuMate帮着在Windows10 编译安装Whisper-CPP帮我安装Whisper-CPP ,我看可以下载源代码(git clone https://github.com/ggerganov/whisper.cpp) 然后编译安装到windows10系统。
skywalk816324 天前
人工智能·windows·whisper
Windows下安装编译安装Whisper-CPP:一个语音实现框架集和高性能推理模型先上结论,刚开始没找到windows下怎么编译,所以不会装。后来让DuMate帮着编译安装的。官网:github.com
linux开发之路25 天前
c++·人工智能·llm·whisper·openai
C++实现Whisper+Kimi端到端AI智能语音助手来源:程序员老廖voice_ai_chat 是一个端到端语音对话系统,它将两大核心能力串联:模块技术运行位置
吱夏cz1 个月前
whisper
安装whisperbash如果显示 -bash: pip3: command not found,先安装 pip3:bash
Jay星晴1 个月前
whisper·语音识别·asr·星图gpu
Whisper-large-v3语音识别效果对比:与Whisper v2/v1在中文长语音场景差异你有没有遇到过这样的情况:录了一段20分钟的会议音频,想转成文字整理纪要,结果用老版本Whisper跑完发现错字连篇、人名全错、专业术语识别率低得离谱?我试过三次——第一次用v1,第二次换v2,第三次换成刚发布的large-v3,结果完全不一样。
FishPotatoChen1 个月前
whisper
【OpenAI】Whisper 模型架构详解Whisper 是 OpenAI 发布的自动语音识别(ASR)模型,采用经典的 Encoder-Decoder Transformer 架构。该模型通过在大规模多语言音频数据上进行弱监督训练,实现了强大的语音识别、语音翻译、语言识别等功能。
weixin_446260851 个月前
whisper·音视频
[特殊字符] Insanely Fast Whisper - 超快音频转录工具!在智能语音技术的飞速发展中,音频转录的效率日益成为关键因素。今天我们将介绍一个功能强大且速度惊人的开源项目——Insanely Fast Whisper。该工具利用了 OpenAI 的 Whisper 模型,通过命令行界面(CLI)实现了极致快速的音频文件转录,给用户带来了便捷的使用体验。
x-cmd1 个月前
linux·人工智能·ai·whisper·shortcut·x-cmd
[260326] x-cmd v0.8.10:跨 Shell 统一配置命令短名;自动装好依赖运行 WhisperLiveKit 实时语音转写开放 shortcut 模块 —— 以前是内部工具,现在放出来给大家用。配置一次,在 ash、bash、fish、zsh 等主流 Shell 都能生效。适合给常用命令设置短名,比如把 x docker 缩成 xd。
ughome2 个月前
whisper·视频字幕提取
我做了一个本地字幕提取工具:软字幕优先 + Whisper 转写回退(支持链接/本地文件)做剪辑、写稿、做课程笔记时,最耗时间的往往不是观看,而是把视频内容变成可编辑的文字。 市面上工具要么需要上传到云端、要么流程复杂、要么对不同来源兼容性差。我做了一个本地运行的桌面工具,目标是:一键提取字幕,尽量减少手工操作。
PengShuaiD52 个月前
人工智能·chatgpt·ffmpeg·whisper
【AI编码】用ChatGPT基于Whisper+ffmpeg实现一个根据视频字幕执行自动化裁剪本地小工具选择 Python 3.10 的原因:均对 Python 3.10 支持稳定,而 Python 3.13 暂未被 PyTorch / Whisper 生态完整支持。
susu10830189113 个月前
whisper
OpenAI Whisper 把mp3语音转文字github地址: https://github.com/openai/whisper环境准备:pip install -U openai-whisper
lili-felicity3 个月前
人工智能·whisper·语音识别
CANN加速Whisper语音识别推理:流式处理与实时转录优化Whisper作为OpenAI推出的开源语音识别模型,以其卓越的多语言识别能力和鲁棒性著称。然而,Whisper的推理过程涉及复杂的音频预处理、大规模的Transformer计算和大量的内存访问,对实时应用提出了严峻挑战。CANN针对Whisper推理场景推出了全面的优化方案,通过流式处理、算子融合、内存优化等技术,显著提升了Whisper的推理性能和实时性。本文将深入剖析CANN如何优化Whisper推理,重点讲解流式处理架构、音频预处理优化和实时转录策略。