whisper

数据饕餮5 天前
whisper
Faster-Whisper命令和意图识别程序设计调优:上下文感知和领域词汇增强相干视频教程:《Faster-whisper热词详解与程序设计教程》《Faster-Whisper唤醒词检测程序设计实战》
落淼喵_G6 天前
ubuntu·whisper
ubuntu部署whisper+speaker_large+qwen【一】整体实现的功能为:上传mp3格式的音频资源,将mp3格式的会议内容转为文字,之后提取和整理会议概要,调研后使用以下几类模型:
兔兔爱学习兔兔爱学习6 天前
gpt·websocket·whisper
浏览器端实时语音采集 + WebSocket 传输 + 后端 Whisper + GPT 翻译 + 实时字幕返回这个版本相当于一个轻量级“实时同传字幕服务器”, 打开网页 → 点击录音 → 说话 后端实时识别并翻译 → 字幕实时显示 延迟在 1~2 秒内(取决于网络与模型大小) 可部署在局域网或云服务器(HTTP + WebSocket)
兔兔爱学习兔兔爱学习7 天前
gpt·whisper
一个可本地运行的实时字幕翻译 Demo(Whisper + GPT + Streamlit),可以边说边出中英文字幕这个 demo 在本机运行(开发/会议桌面场景)能做到“边说边出字幕(英文 → 中文)”,并包含增量显示、简单断句与缓存策略,方便后续替换为低延迟 streaming ASR 或本地 LLM。
数据饕餮8 天前
whisper
Faster-Whisper唤醒词检测程序设计实战1《Fast-Whisper开源框架唤醒词检测程序设计》唤醒词是一个预先设定的单词或短语,用于激活处于休眠或待机状态的语音助手,使其进入准备接收指令的状态。
说话的鲸鱼8 天前
whisper·负载均衡·语音识别
‌Whisper模型在RTranslator中的实时语音识别优化:动态资源分配与负载均衡在实时语音翻译场景中,Whisper模型面临以下核心挑战:通过实时监控系统状态实现资源弹性调度:关键技术实现:
猫头虎15 天前
人工智能·开源·whisper·prompt·aigc·ocr·gpu算力
DeepSeek刚刚开源了一个3B的 OCR模型:什么是DeepSeek-OCR?单张A100-40G每天可以处理20万+页文档有这么小的开源模型,却没有一个可以用来评测体验的算力显卡怎么办? ——本文教你白嫖云GPU,不用买卡也能跑。
星野云联AIoT技术洞察23 天前
whisper·语音识别·模型部署·tts·asr·嵌入式ai·naturalspeech3
2025年语音识别(ASR)与语音合成(TTS)技术趋势分析对比面向开发者的实用指南:探索最新的ASR和TTS技术,助力构建高效的语音应用。随着人工智能的快速发展,语音识别(ASR)和语音合成(TTS)技术在多个领域得到了广泛应用。从智能助手到自动字幕生成,从有声读物到虚拟主播,语音技术正逐步改变人机交互的方式。
共绩算力1 个月前
人工智能·whisper·语音识别·共绩算力
OpenAI Whisper 语音识别模型:技术与应用全面分析OpenAI 于2022年12月开源的 Whisper 模型,凭借 多语言支持(98种语言)、零样本迁移能力、噪声鲁棒性 等核心优势,迅速成为语音识别领域的“明星工具”。其在英语语音识别任务中接近人类水平(LibriSpeech测试清洁切分WER达2.5%),同时支持语音翻译、语言识别等多任务,无需针对特定场景微调即可直接应用 。
人工智能技术派1 个月前
人工智能·语言模型·whisper·语音识别
Whisper推理源码解读Whisper是一个由OpenAI开发的自动语音识别(ASR)系统,在多语言环境和嘈杂背景下的语音识别任务中表现出色。它具有如下特点:
luoyayun3611 个月前
whisper·pyside6·asr
PySide6调用OpenAI的Whisper模型进行语音ASR转写Whisper 是 OpenAI 开发的一款通用语音识别模型,采用大规模弱监督训练方法,支持多语言语音转录和翻译任务。该模型基于 Transformer 架构,具有高准确性和鲁棒性,适用于多种场景下的语音处理需求。OpenAI Whisper作为基于Transformer架构的端到端语音识别模型,其核心设计天然支持多语言处理。 官网:https://openai.com/zh-Hans-CN/index/whisper/ github:https://github.com/openai/whisper
学习是生活的调味剂1 个月前
人工智能·whisper·语音识别
PEFT实战LoRA微调OpenAI Whisper 中文语音识别OpenAI 的 Whisper 模型是自动语音识别系统。拥有以下特点大规模训练数据: 使用了从互联网收集的 680,000 小时 多语言、多任务的带标签数据进行训练。
qq7422349841 个月前
python·whisper·语音识别
语音识别:PyAudio、SoundDevice、Vosk、openai-whisper、Argos-Translate、FunASR(Python)PyAudio 是 Python 中一个强大的跨平台音频 I/O 库。它基于 PortAudio 库(一个免费、跨平台、开源的音频 I/O 库),为 Python 提供了录制和播放音频流的接口。
AI_Gump1 个月前
人工智能·whisper
WhisperLiveKit上手及主观评测项目地址:https://github.com/QuentinFuxa/WhisperLiveKit本文旨在快速上手,搭建环境,做下模型服务的功能学习和简单主观评测。
biubiubiu07061 个月前
whisper
faster-whisper + FastAPI安装github地址:https://github.com/SYSTRAN/faster-whisperfaster-whisper = 本地语音转文字引擎。
cwll20091 个月前
人工智能·whisper·语音识别
使用ffmpeg8.0的whisper模块语音识别2025年9月ffmpeg8.0发布,这个版本将whisper.cpp内置到了audio filter。最新版本的ffmpeg默认支持whisper模块。
小小ken1 个月前
ffmpeg·whisper·语音识别
whisper-large-v3部署详细步骤,包括cpu和gpu方式,跟着做一次成功whisper就是一个语音识别的项目,具体细节自行百度了解即可。我这次部署的主要目的是简单测试粤语歌曲的歌词识别效果,之后再抽空做二次开发。讲实话,这些ai模型项目的部署文档大部分就是一坨屎,依赖模块只给出几个,其他模块要在运行代码时出错再一个个修复安装。更痛苦的是,有些是依赖于特定版本模块的,安装错了版本直接各种神奇报错,要一个个版本去试,或者到相应的github issues上面看看。
蓝纹绿茶2 个月前
whisper
音转文模型对比FunASR与Faster_whisperFunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR等多种功能。FunASR工具包支持工业级语音识别模型的训练和微调,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产,推动语音识别技术的发展。FunASR基于提供预训练模型和易于使用的接口,使用户快速部署语音识别服务,满足不同场景的应用需求。2024年10月16日,FunASR新增支持Whisper-large-v3-turbo模型,进
SmartJavaAI2 个月前
java·人工智能·whisper·语音识别
Java调用Whisper和Vosk语音识别(ASR)模型,实现高效实时语音识别(附源码)语音识别(Automatic Speech Recognition, ASR)是将人类的语音信号自动转换为对应文字的技术,它使计算机能够“听懂”人说的话,是人机语音交互的核心技术,广泛应用于智能助手、语音输入、客服系统等场景。
菜鸟的日志2 个月前
python·whisper·音视频
【音频字幕】构建一个离线视频字幕生成系统:使用 WhisperX 和 Faster-Whisper 的 Python 实现系统主要依赖 Faster-Whisper(语音识别加速版)、WhisperX(时间戳对齐工具)、以及音频处理模块(如 LUFS 标准化和高通滤波)。