whisper

蓝纹绿茶2 天前
whisper
音转文模型对比FunASR与Faster_whisperFunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR等多种功能。FunASR工具包支持工业级语音识别模型的训练和微调,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产,推动语音识别技术的发展。FunASR基于提供预训练模型和易于使用的接口,使用户快速部署语音识别服务,满足不同场景的应用需求。2024年10月16日,FunASR新增支持Whisper-large-v3-turbo模型,进
SmartJavaAI2 天前
java·人工智能·whisper·语音识别
Java调用Whisper和Vosk语音识别(ASR)模型,实现高效实时语音识别(附源码)语音识别(Automatic Speech Recognition, ASR)是将人类的语音信号自动转换为对应文字的技术,它使计算机能够“听懂”人说的话,是人机语音交互的核心技术,广泛应用于智能助手、语音输入、客服系统等场景。
菜鸟的日志5 天前
python·whisper·音视频
【音频字幕】构建一个离线视频字幕生成系统:使用 WhisperX 和 Faster-Whisper 的 Python 实现系统主要依赖 Faster-Whisper(语音识别加速版)、WhisperX(时间戳对齐工具)、以及音频处理模块(如 LUFS 标准化和高通滤波)。
AidLux11 天前
人工智能·语言模型·whisper·音视频
犀牛派A1上使用Faster Whisper完成音频转文字项目介绍:Faster Whisper 是一个基于 CTranslate2 的 OpenAI Whisper 模型的高效实现。它是一个快速推理引擎,用于 Transformer 模型,相比 OpenAI 的 Whisper 模型,速度提升了 4 倍。该项目支持 Windows、Linux 和 macOS 平台,并且提供了多种优化选项,如 FP16 和 INT8 计算类型,以适应不同的硬件环境。
ZHOU_WUYI11 天前
llm·whisper
whisper-large-v3 模型Whisper 是由 OpenAI 的 Alec Radford 等人提出的顶尖自动语音识别(ASR)与语音翻译模型,相关成果发表于论文《Robust Speech Recognition via Large-Scale Weak Supervision》。作为依托大规模弱监督训练的代表性模型,Whisper 凭借超过 500 万小时标注数据的训练基础,在零样本场景下展现出极强的泛化能力,能够适配多种数据集与应用领域,为语音处理任务提供高效解决方案。
llrraa201020 天前
开发语言·python·whisper
python whisper生成字幕Traceback (most recent call last): packages\whisper\audio.py", line 58, in load_audio out = run(cmd, capture_output=True, check=True).stdout File “C:\Python310\lib\subprocess.py”, line 501, in run with Popen(*popenargs, **kwargs) as process: File “C:\Pyth
weixin_446260851 个月前
whisper
本地WSL部署接入 whisper + ollama qwen3:14b 总结字幕校对增强版M4-4: 校对增强版 (最终完全体)本脚本是整个 Module 的最终形态,采用了“代码预处理 + LLM校对”的终极方案:
青山师1 个月前
docker·容器·whisper
Docker部署whisper转写模型部署 whisper-asr-webservice 指南 whisper-asr-webservice 是一个将 Whisper 模型封装为 HTTP API 服务的项目,以下是详细的部署方法:
Micheal_Dad2 个月前
whisper
【尝试】基于openai-whisper进行语音转文字windows版本1、下载ffmpeghttps://ffmpeg.org/download.html#build-windows
Micheal_Dad2 个月前
whisper
【尝试】本地部署openai-whisper,通过 http请求识别安装whisper的教程,已在https://blog.csdn.net/qq_23938507/article/details/149394418
andyguo2 个月前
人工智能·学习·ai·whisper·语音识别·xcode·ai测评
语音识别的速度革命:从 Whisper 到 Whisper-CTranslate2,我经历了什么?大家好,一个沉迷于 AI 语音技术的 “音频猎人”。最近在处理大量播客转录项目时,我被传统语音识别工具折磨得苦不堪言 ——RTX 3090 跑一个小时的音频要整整 20 分钟,服务器内存分分钟爆满!直到遇到了 Whisper-CTranslate2,我的开发效率直接起飞!
番茄老夫子2 个月前
人工智能·whisper·语音识别
OpenAI推出的语音识别系统Whisper简析一 概念Whisper 是 OpenAI 推出的一款先进的自动语音识别(ASR)系统,同时也具备语音转文本、多语言识别、语音翻译等功能。它于 2022 年 9 月正式发布,凭借其强大的性能和多场景适应性,受到了广泛关注。
A-刘晨阳2 个月前
服务器·前端·whisper
语音转文字「本地化」新解!Whisper Web+cpolar实现零服务器部署与远程操作还在为搭建语音识别服务的复杂配置而头疼?想要在浏览器中直接运行AI模型却担心网络限制?现在有一套「轻量解决方案」能完美解决这些问题:基于WebGPU加速的Whisper Web工具结合cpolar内网穿透技术,让你无需公网IP和服务器运维经验,即可将本地部署的语音转文本服务安全开放给远程设备访问。
云空3 个月前
whisper
《Whisper模型版本及下载链接》Whisper是OpenAI开发的语音识别模型,以下按模型规模从小到大排列,包含不同语言版本及通用版本:
苗杨3 个月前
python·whisper·音视频
【Faster-Whisper】离线识别本地视频并生成字幕平常学习时看的本地离线好的视频,但是视频一般没有字幕,偶然看到了PotPlayer 的 生成有声字幕 功能,正好使用了faster-whisper模型,所以打算单独拿来用一用
云空3 个月前
人工智能·whisper·语音识别
《Whisper:OpenAI的先进语音识别模型》Whisper 是OpenAI于2022年推出的多语言语音识别系统,其核心能力是将语音转换为文本(Speech-to-Text, STT),并支持语音翻译、音频理解等功能。它基于深度学习技术,通过大规模数据训练,在准确性和多功能性上达到了行业领先水平。
企鹅侠客3 个月前
人工智能·ai·chatgpt·whisper
19|Whisper+ChatGPT:请AI代你听播客今天,我们的课程开始进入一个新的主题了,那就是语音识别。过去几周我们介绍的ChatGPT虽然很强大,但是只能接受文本的输入。而在现实生活中,很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版,所以这个时候,我们就需要一个能够将语音内容转换成文本的能力。
落沐萧萧3 个月前
人工智能·whisper
本地多语言 AI 字幕组:Whisper 实战教程Whisper[1]是OpenAI发布的一个开源自动语音识别(ASR)系统,它于 2022 年发布,目的是提供一个强大、通用、易于使用的语音转文本工具。
码码哈哈爱分享3 个月前
人工智能·whisper·语音识别
[特殊字符] Whisper 模型介绍(OpenAI 语音识别系统)Whisper 是由 OpenAI 开发的一个开源、端到端语音识别系统(ASR,Automatic Speech Recognition)。它于 2022 年开源,具有 强大的多语言识别能力,同时支持 语音转文本(ASR)、语音翻译、语言检测 等任务。
Swift社区3 个月前
人工智能·whisper
用 Whisper 打破沉默:AI 语音技术如何重塑无障碍沟通方式?大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。