whisper

YXWik64 小时前
linux·c++·whisper
Linux安装Whisper(C++版)音频解析文本文中所有相关文件已经上传到资源包中,直接下载home下创建whisper文件夹下载 https://github.com/ggerganov/whisper.cpp 上传到whisper目录 解压 下载ffmpeg
普通网友2 天前
whisper
解决下载慢!Whisper 模型国内镜像源汇总与各版本快速获取如果您在下载 OpenAI 的 Whisper 语音识别模型时遇到速度慢的问题,这通常是由于网络延迟或访问国外服务器导致的。通过使用国内镜像源,您可以显著提升下载速度(最高可达 10 倍),并快速获取不同版本(如 base、small、medium、large 等)。本指南将汇总可靠的国内镜像源,并提供分步下载方法。所有信息基于开源社区实践,确保真实可靠。
minhuan5 天前
whisper·asr·多模态模型·语音转文本应用·语音大模型应用
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识,一行代码就能实现多语言语音转写,且在噪声、口音、多语言场景下的表现远优于传统 ASR。
DARLING Zero two♡11 天前
前端·人工智能·whisper
浏览器里跑 AI 语音转写?Whisper Web + cpolar让本地服务跑遍全网Whisper Web 是一款能直接在浏览器中运行的语音转文字工具,依托 OpenAI 的 Whisper 模型和 WebGPU 加速,支持音频文件上传、语音实时录入等多种转写方式,输出文本还能导出为 TXT 或 JSON 格式。无论是需要整理会议录音的职场人、记录采访素材的媒体工作者,还是日常需要语音转文字的普通用户,都能快速上手。它的优点很突出:无需搭建后端服务器,模型在本地运行,数据处理更安全,且对硬件要求不高,普通电脑也能流畅使用。
johnny23313 天前
whisper
OpenAI Whisper:生态在语音转文本ASR工具合集介绍ASR基础概念,汇总几款语音识别模型和项目,其中就包括OpenAI开源的Whisper。OpenAI Whisper则是技术原理和实战。
不解不惑21 天前
服务器·whisper·语音识别
OpenAI whisper 语音识别服务器搭建语音识别是人机交互的一个关键技术,机器人本体携带的算力和能源一般比较有限,通过TCP/IP socket通信,把计算分配到云端是一种选择。
许泽宇的技术分享22 天前
macos·whisper·xcode
用 OpenAI Whisper + pyannote.audio 打造“谁在说什么”的全栈语音理解系统只做语音识别的系统,只能回答“说了什么”; 只有说话人分离的系统,只能回答“谁在什么时候说话”; 把两者拼在一起,你就有了一个真正能看懂对话的机器。
这儿有一堆花1 个月前
人工智能·ai·whisper
使用 Whisper 转写语音的完整教学在常见的 Python 环境中,只需要一条指令即可安装开源版 Whisper:如果系统没有 FFmpeg,需要自行安装,否则 Whisper 可能无法处理常见的 .mp3、.wav、.m4a 文件。
数据饕餮1 个月前
whisper
Faster-Whisper命令和意图识别程序设计调优:上下文感知和领域词汇增强相干视频教程:《Faster-whisper热词详解与程序设计教程》《Faster-Whisper唤醒词检测程序设计实战》
落淼喵_G2 个月前
ubuntu·whisper
ubuntu部署whisper+speaker_large+qwen【一】整体实现的功能为:上传mp3格式的音频资源,将mp3格式的会议内容转为文字,之后提取和整理会议概要,调研后使用以下几类模型:
兔兔爱学习兔兔爱学习2 个月前
gpt·websocket·whisper
浏览器端实时语音采集 + WebSocket 传输 + 后端 Whisper + GPT 翻译 + 实时字幕返回这个版本相当于一个轻量级“实时同传字幕服务器”, 打开网页 → 点击录音 → 说话 后端实时识别并翻译 → 字幕实时显示 延迟在 1~2 秒内(取决于网络与模型大小) 可部署在局域网或云服务器(HTTP + WebSocket)
兔兔爱学习兔兔爱学习2 个月前
gpt·whisper
一个可本地运行的实时字幕翻译 Demo(Whisper + GPT + Streamlit),可以边说边出中英文字幕这个 demo 在本机运行(开发/会议桌面场景)能做到“边说边出字幕(英文 → 中文)”,并包含增量显示、简单断句与缓存策略,方便后续替换为低延迟 streaming ASR 或本地 LLM。
数据饕餮2 个月前
whisper
Faster-Whisper唤醒词检测程序设计实战1《Fast-Whisper开源框架唤醒词检测程序设计》唤醒词是一个预先设定的单词或短语,用于激活处于休眠或待机状态的语音助手,使其进入准备接收指令的状态。
说话的鲸鱼2 个月前
whisper·负载均衡·语音识别
‌Whisper模型在RTranslator中的实时语音识别优化:动态资源分配与负载均衡在实时语音翻译场景中,Whisper模型面临以下核心挑战:通过实时监控系统状态实现资源弹性调度:关键技术实现:
猫头虎2 个月前
人工智能·开源·whisper·prompt·aigc·ocr·gpu算力
DeepSeek刚刚开源了一个3B的 OCR模型:什么是DeepSeek-OCR?单张A100-40G每天可以处理20万+页文档有这么小的开源模型,却没有一个可以用来评测体验的算力显卡怎么办? ——本文教你白嫖云GPU,不用买卡也能跑。
星野云联AIoT技术洞察2 个月前
whisper·语音识别·模型部署·tts·asr·嵌入式ai·naturalspeech3
2025年语音识别(ASR)与语音合成(TTS)技术趋势分析对比面向开发者的实用指南:探索最新的ASR和TTS技术,助力构建高效的语音应用。随着人工智能的快速发展,语音识别(ASR)和语音合成(TTS)技术在多个领域得到了广泛应用。从智能助手到自动字幕生成,从有声读物到虚拟主播,语音技术正逐步改变人机交互的方式。
共绩算力2 个月前
人工智能·whisper·语音识别·共绩算力
OpenAI Whisper 语音识别模型:技术与应用全面分析OpenAI 于2022年12月开源的 Whisper 模型,凭借 多语言支持(98种语言)、零样本迁移能力、噪声鲁棒性 等核心优势,迅速成为语音识别领域的“明星工具”。其在英语语音识别任务中接近人类水平(LibriSpeech测试清洁切分WER达2.5%),同时支持语音翻译、语言识别等多任务,无需针对特定场景微调即可直接应用 。
人工智能技术派2 个月前
人工智能·语言模型·whisper·语音识别
Whisper推理源码解读Whisper是一个由OpenAI开发的自动语音识别(ASR)系统,在多语言环境和嘈杂背景下的语音识别任务中表现出色。它具有如下特点:
luoyayun3612 个月前
whisper·pyside6·asr
PySide6调用OpenAI的Whisper模型进行语音ASR转写Whisper 是 OpenAI 开发的一款通用语音识别模型,采用大规模弱监督训练方法,支持多语言语音转录和翻译任务。该模型基于 Transformer 架构,具有高准确性和鲁棒性,适用于多种场景下的语音处理需求。OpenAI Whisper作为基于Transformer架构的端到端语音识别模型,其核心设计天然支持多语言处理。 官网:https://openai.com/zh-Hans-CN/index/whisper/ github:https://github.com/openai/whisper
学习是生活的调味剂2 个月前
人工智能·whisper·语音识别
PEFT实战LoRA微调OpenAI Whisper 中文语音识别OpenAI 的 Whisper 模型是自动语音识别系统。拥有以下特点大规模训练数据: 使用了从互联网收集的 680,000 小时 多语言、多任务的带标签数据进行训练。