whisper

abigriver2 天前
linux·运维·whisper
打造 Linux 离线大模型级语音输入法:Whisper.cpp + 3090 显卡加速与 Rime 中英混输终极调优指南📌 引言在 Linux (Ubuntu) 个人生产力环境中,输入法的流畅度与智能化直接决定了开发和办公效率。商业语音输入法不仅存在隐私泄露风险,在 Linux 上的支持也差强人意。
J心流7 天前
whisper
89ms实时Whisper,显存还降48%有人把 Whisper 做到了 89ms 中位延迟,还顺手把 GPU 峰值内存砍掉 48%。我第一眼看到这个数据的时候,其实有点不敢太兴奋。因为做实时语音识别的人都知道,Whisper 是一个特别拧巴的存在,它离线转写很好用,效果稳,生态也成熟,但你真想把它塞进实时字幕、会议助手、语音 Agent 这种场景里,它马上就会暴露一堆不舒服的地方。
iDao技术魔方10 天前
人工智能·whisper·语音识别
whisper.cpp 深度解析:从边缘设备到实时语音识别2022 年 9 月,OpenAI 开源了 Whisper 模型,一个在大规模弱监督数据上训练的语音识别系统。模型很强大——接近人类水平的准确度、支持 99 种语言、自动语言检测——但一个明显的问题是:它太重了。官方 Python 实现的 Transformer 架构,仅加载 large 模型就要吃掉 3GB+ 显存,在 CPU 上推理更是以分钟计。
Gc9umsbL114 天前
ffmpeg·whisper·音视频
从FLAC到WAV:whisper.cpp中的FFmpeg音频预处理全解析在音频处理领域,FFmpeg是一个功能强大且广泛使用的开源工具库。在whisper.cpp中,利用FFmpeg进行音频预处理,尤其是从FLAC到WAV的转换,起到了关键作用。
Bofu-17 天前
c#·whisper·wpf·音视频·音频测试·naudio 声道控制
【音频测试】03-WPF 实现声道自动验证 + Whisper 语音识别录音检测系列:WPF 产线功能测试实战 本篇目标:读完可以写出一个能自动验证左右声道、并用 Whisper 识别录音内容的 WPF 音频测试程序 关键词:WPF 音频测试、NAudio 声道控制、WaveChannel32 Pan、mciSendString 录音、Whisper 语音识别、产测
JK Chen21 天前
python·whisper·音视频
faster_whisper,视频转文字,并生成字幕文件faster_whisper,视频转文字,并生成字幕文件(附带exe)使用说明:–model:选 tiny/base/small/medium/large(越大越准、越耗资源)。
工作log22 天前
人工智能·whisper·语音识别
10分钟搭建本地语音识别服务 (Whisper large-v3-turbo)你是否厌倦了为在线语音识别 API 付费?或者担心数据隐私问题?本文将导引你如何使用 Hugging Face 的轻量级模型 openai/whisper-large-v3-turbo,在你的本机搭建一个完全免费的语音转文字 REST API 服务,并解决实际部署中可能遇到的各种“坑”。
shao91851624 天前
ffmpeg·whisper·asr·mini-omni·自建语音服务器
第10章 Streaming(上):初级音频应用(1)——项目三:自建服务器的Mini-Omni实时语音聊天机器人由于流式传输内容较多,因此将其分为初级音频应用、高级音频应用和视频应用三部分。本章音频应用部分包括自动语音识别技术(ASR),自建服务器的Mini-Omni模型的对话式聊天机器人,Groq与带自动语音检测功能的多模态Gradio应用,Mistral实现流式传输音频的魔力8号球。除了拆解音频应用,还会详细介绍并实战大模型库Whisper、Mini-Omni、Groq和Mistral。此外,本章还会详细讲解用到的其他技术:@ricky0123/vad-web实现语音活动检测功能,Groq高速大模型调用库,Li
code_pgf1 个月前
人工智能·whisper·mnn
MNN Whisper 实时 ASR 工程实现适用工程:mnn-whisper 当前版本重点:Whisper + MNN C++ 推理、decoder KV cache、实时预览 single-pass 优化、视频字幕叠加演示。
独占的甜蜜1 个月前
ffmpeg·whisper·音视频
从FLAC到WAV:whisper.cpp中的FFmpeg音频预处理全解析过程在音频处理领域,FFmpeg是一个功能强大且广泛使用的开源工具库。在whisper.cpp中,利用FFmpeg进行音频预处理,尤其是从FLAC到WAV的转换,起到了关键作用。 FLAC(Free Lossless Audio Codec)是一种常用的无损音频压缩格式,它能够在保持音频质量的同时实现较高的压缩率。然而,在某些音频处理场景中,如语音识别、音频分析等,可能需要将FLAC格式转换为WAV格式。WAV(Waveform Audio File Format)通常以无损方式存储音频数据,能提供更原始的音
独占的甜蜜1 个月前
ffmpeg·whisper·音视频
从FLAC到WAV:whisper.cpp中的FFmpeg音频预处理全解析在音频处理领域,FFmpeg是一个功能强大且广泛使用的开源工具库。在whisper.cpp中,利用FFmpeg进行音频预处理,尤其是从FLAC到WAV的转换,起到了关键作用。 FLAC(Free Lossless Audio Codec)是一种常用的无损音频压缩格式,它能够在保持音频质量的同时实现较高的压缩率。然而,在某些音频处理场景中,如语音识别、音频分析等,可能需要将FLAC格式转换为WAV格式。WAV(Waveform Audio File Format)通常以无损方式存储音频数据,能提供更原始的音
阿里巴啦1 个月前
人工智能·python·whisper·视频下载·视频处理工具
一个 Python 视频处理工具链实战:下载、转录、摘要、字幕、诊断全打通 (已开源)现在很多人处理视频内容,真正想要的已经不只是“把视频下载下来”,而是把视频里的信息提取出来、整理出来、压缩出来。 比如先下载视频,再用 AI 做语音转文字;如果内容太长,再交给大模型生成摘要和关键词,最后把结果沉淀成可检索、可复用的文本资料。
qq_316837751 个月前
whisper
使用 whisper OpenCC 从音频文件生成字幕whisper:将wav指定格式的音频文件生成srt字幕,但是字幕是繁体中文的,需要用OpenCC转成中文简体
skywalk81631 个月前
人工智能·whisper
DuMate帮着在Windows10 编译安装Whisper-CPP帮我安装Whisper-CPP ,我看可以下载源代码(git clone https://github.com/ggerganov/whisper.cpp) 然后编译安装到windows10系统。
skywalk81631 个月前
人工智能·windows·whisper
Windows下安装编译安装Whisper-CPP:一个语音实现框架集和高性能推理模型先上结论,刚开始没找到windows下怎么编译,所以不会装。后来让DuMate帮着编译安装的。官网:github.com
linux开发之路2 个月前
c++·人工智能·llm·whisper·openai
C++实现Whisper+Kimi端到端AI智能语音助手来源:程序员老廖voice_ai_chat 是一个端到端语音对话系统,它将两大核心能力串联:模块技术运行位置
吱夏cz2 个月前
whisper
安装whisperbash如果显示 -bash: pip3: command not found,先安装 pip3:bash
Jay星晴2 个月前
whisper·语音识别·asr·星图gpu
Whisper-large-v3语音识别效果对比:与Whisper v2/v1在中文长语音场景差异你有没有遇到过这样的情况:录了一段20分钟的会议音频,想转成文字整理纪要,结果用老版本Whisper跑完发现错字连篇、人名全错、专业术语识别率低得离谱?我试过三次——第一次用v1,第二次换v2,第三次换成刚发布的large-v3,结果完全不一样。
FishPotatoChen2 个月前
whisper
【OpenAI】Whisper 模型架构详解Whisper 是 OpenAI 发布的自动语音识别(ASR)模型,采用经典的 Encoder-Decoder Transformer 架构。该模型通过在大规模多语言音频数据上进行弱监督训练,实现了强大的语音识别、语音翻译、语言识别等功能。
weixin_446260852 个月前
whisper·音视频
[特殊字符] Insanely Fast Whisper - 超快音频转录工具!在智能语音技术的飞速发展中,音频转录的效率日益成为关键因素。今天我们将介绍一个功能强大且速度惊人的开源项目——Insanely Fast Whisper。该工具利用了 OpenAI 的 Whisper 模型,通过命令行界面(CLI)实现了极致快速的音频文件转录,给用户带来了便捷的使用体验。