whisper

人工智能技术派2 天前
人工智能·语言模型·whisper·语音识别
Whisper推理源码解读Whisper是一个由OpenAI开发的自动语音识别(ASR)系统,在多语言环境和嘈杂背景下的语音识别任务中表现出色。它具有如下特点:
luoyayun3616 天前
whisper·pyside6·asr
PySide6调用OpenAI的Whisper模型进行语音ASR转写Whisper 是 OpenAI 开发的一款通用语音识别模型,采用大规模弱监督训练方法,支持多语言语音转录和翻译任务。该模型基于 Transformer 架构,具有高准确性和鲁棒性,适用于多种场景下的语音处理需求。OpenAI Whisper作为基于Transformer架构的端到端语音识别模型,其核心设计天然支持多语言处理。 官网:https://openai.com/zh-Hans-CN/index/whisper/ github:https://github.com/openai/whisper
学习是生活的调味剂6 天前
人工智能·whisper·语音识别
PEFT实战LoRA微调OpenAI Whisper 中文语音识别OpenAI 的 Whisper 模型是自动语音识别系统。拥有以下特点大规模训练数据: 使用了从互联网收集的 680,000 小时 多语言、多任务的带标签数据进行训练。
qq74223498411 天前
python·whisper·语音识别
语音识别:PyAudio、SoundDevice、Vosk、openai-whisper、Argos-Translate、FunASR(Python)PyAudio 是 Python 中一个强大的跨平台音频 I/O 库。它基于 PortAudio 库(一个免费、跨平台、开源的音频 I/O 库),为 Python 提供了录制和播放音频流的接口。
AI_Gump11 天前
人工智能·whisper
WhisperLiveKit上手及主观评测项目地址:https://github.com/QuentinFuxa/WhisperLiveKit本文旨在快速上手,搭建环境,做下模型服务的功能学习和简单主观评测。
biubiubiu070611 天前
whisper
faster-whisper + FastAPI安装github地址:https://github.com/SYSTRAN/faster-whisperfaster-whisper = 本地语音转文字引擎。
cwll200911 天前
人工智能·whisper·语音识别
使用ffmpeg8.0的whisper模块语音识别2025年9月ffmpeg8.0发布,这个版本将whisper.cpp内置到了audio filter。最新版本的ffmpeg默认支持whisper模块。
小小ken11 天前
ffmpeg·whisper·语音识别
whisper-large-v3部署详细步骤,包括cpu和gpu方式,跟着做一次成功whisper就是一个语音识别的项目,具体细节自行百度了解即可。我这次部署的主要目的是简单测试粤语歌曲的歌词识别效果,之后再抽空做二次开发。讲实话,这些ai模型项目的部署文档大部分就是一坨屎,依赖模块只给出几个,其他模块要在运行代码时出错再一个个修复安装。更痛苦的是,有些是依赖于特定版本模块的,安装错了版本直接各种神奇报错,要一个个版本去试,或者到相应的github issues上面看看。
蓝纹绿茶1 个月前
whisper
音转文模型对比FunASR与Faster_whisperFunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR等多种功能。FunASR工具包支持工业级语音识别模型的训练和微调,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产,推动语音识别技术的发展。FunASR基于提供预训练模型和易于使用的接口,使用户快速部署语音识别服务,满足不同场景的应用需求。2024年10月16日,FunASR新增支持Whisper-large-v3-turbo模型,进
SmartJavaAI1 个月前
java·人工智能·whisper·语音识别
Java调用Whisper和Vosk语音识别(ASR)模型,实现高效实时语音识别(附源码)语音识别(Automatic Speech Recognition, ASR)是将人类的语音信号自动转换为对应文字的技术,它使计算机能够“听懂”人说的话,是人机语音交互的核心技术,广泛应用于智能助手、语音输入、客服系统等场景。
菜鸟的日志1 个月前
python·whisper·音视频
【音频字幕】构建一个离线视频字幕生成系统:使用 WhisperX 和 Faster-Whisper 的 Python 实现系统主要依赖 Faster-Whisper(语音识别加速版)、WhisperX(时间戳对齐工具)、以及音频处理模块(如 LUFS 标准化和高通滤波)。
AidLux1 个月前
人工智能·语言模型·whisper·音视频
犀牛派A1上使用Faster Whisper完成音频转文字项目介绍:Faster Whisper 是一个基于 CTranslate2 的 OpenAI Whisper 模型的高效实现。它是一个快速推理引擎,用于 Transformer 模型,相比 OpenAI 的 Whisper 模型,速度提升了 4 倍。该项目支持 Windows、Linux 和 macOS 平台,并且提供了多种优化选项,如 FP16 和 INT8 计算类型,以适应不同的硬件环境。
ZHOU_WUYI1 个月前
llm·whisper
whisper-large-v3 模型Whisper 是由 OpenAI 的 Alec Radford 等人提出的顶尖自动语音识别(ASR)与语音翻译模型,相关成果发表于论文《Robust Speech Recognition via Large-Scale Weak Supervision》。作为依托大规模弱监督训练的代表性模型,Whisper 凭借超过 500 万小时标注数据的训练基础,在零样本场景下展现出极强的泛化能力,能够适配多种数据集与应用领域,为语音处理任务提供高效解决方案。
llrraa20101 个月前
开发语言·python·whisper
python whisper生成字幕Traceback (most recent call last): packages\whisper\audio.py", line 58, in load_audio out = run(cmd, capture_output=True, check=True).stdout File “C:\Python310\lib\subprocess.py”, line 501, in run with Popen(*popenargs, **kwargs) as process: File “C:\Pyth
weixin_446260852 个月前
whisper
本地WSL部署接入 whisper + ollama qwen3:14b 总结字幕校对增强版M4-4: 校对增强版 (最终完全体)本脚本是整个 Module 的最终形态,采用了“代码预处理 + LLM校对”的终极方案:
青山师2 个月前
docker·容器·whisper
Docker部署whisper转写模型部署 whisper-asr-webservice 指南 whisper-asr-webservice 是一个将 Whisper 模型封装为 HTTP API 服务的项目,以下是详细的部署方法:
Micheal_Dad3 个月前
whisper
【尝试】基于openai-whisper进行语音转文字windows版本1、下载ffmpeghttps://ffmpeg.org/download.html#build-windows
Micheal_Dad3 个月前
whisper
【尝试】本地部署openai-whisper,通过 http请求识别安装whisper的教程,已在https://blog.csdn.net/qq_23938507/article/details/149394418
andyguo3 个月前
人工智能·学习·ai·whisper·语音识别·xcode·ai测评
语音识别的速度革命:从 Whisper 到 Whisper-CTranslate2,我经历了什么?大家好,一个沉迷于 AI 语音技术的 “音频猎人”。最近在处理大量播客转录项目时,我被传统语音识别工具折磨得苦不堪言 ——RTX 3090 跑一个小时的音频要整整 20 分钟,服务器内存分分钟爆满!直到遇到了 Whisper-CTranslate2,我的开发效率直接起飞!
番茄老夫子3 个月前
人工智能·whisper·语音识别
OpenAI推出的语音识别系统Whisper简析一 概念Whisper 是 OpenAI 推出的一款先进的自动语音识别(ASR)系统,同时也具备语音转文本、多语言识别、语音翻译等功能。它于 2022 年 9 月正式发布,凭借其强大的性能和多场景适应性,受到了广泛关注。