whisper

吱夏cz4 天前
whisper
安装whisperbash如果显示 -bash: pip3: command not found,先安装 pip3:bash
Jay星晴5 天前
whisper·语音识别·asr·星图gpu
Whisper-large-v3语音识别效果对比:与Whisper v2/v1在中文长语音场景差异你有没有遇到过这样的情况:录了一段20分钟的会议音频,想转成文字整理纪要,结果用老版本Whisper跑完发现错字连篇、人名全错、专业术语识别率低得离谱?我试过三次——第一次用v1,第二次换v2,第三次换成刚发布的large-v3,结果完全不一样。
FishPotatoChen7 天前
whisper
【OpenAI】Whisper 模型架构详解Whisper 是 OpenAI 发布的自动语音识别(ASR)模型,采用经典的 Encoder-Decoder Transformer 架构。该模型通过在大规模多语言音频数据上进行弱监督训练,实现了强大的语音识别、语音翻译、语言识别等功能。
weixin_446260859 天前
whisper·音视频
[特殊字符] Insanely Fast Whisper - 超快音频转录工具!在智能语音技术的飞速发展中,音频转录的效率日益成为关键因素。今天我们将介绍一个功能强大且速度惊人的开源项目——Insanely Fast Whisper。该工具利用了 OpenAI 的 Whisper 模型,通过命令行界面(CLI)实现了极致快速的音频文件转录,给用户带来了便捷的使用体验。
x-cmd9 天前
linux·人工智能·ai·whisper·shortcut·x-cmd
[260326] x-cmd v0.8.10:跨 Shell 统一配置命令短名;自动装好依赖运行 WhisperLiveKit 实时语音转写开放 shortcut 模块 —— 以前是内部工具,现在放出来给大家用。配置一次,在 ash、bash、fish、zsh 等主流 Shell 都能生效。适合给常用命令设置短名,比如把 x docker 缩成 xd。
ughome19 天前
whisper·视频字幕提取
我做了一个本地字幕提取工具:软字幕优先 + Whisper 转写回退(支持链接/本地文件)做剪辑、写稿、做课程笔记时,最耗时间的往往不是观看,而是把视频内容变成可编辑的文字。 市面上工具要么需要上传到云端、要么流程复杂、要么对不同来源兼容性差。我做了一个本地运行的桌面工具,目标是:一键提取字幕,尽量减少手工操作。
PengShuaiD525 天前
人工智能·chatgpt·ffmpeg·whisper
【AI编码】用ChatGPT基于Whisper+ffmpeg实现一个根据视频字幕执行自动化裁剪本地小工具选择 Python 3.10 的原因:均对 Python 3.10 支持稳定,而 Python 3.13 暂未被 PyTorch / Whisper 生态完整支持。
susu10830189112 个月前
whisper
OpenAI Whisper 把mp3语音转文字github地址: https://github.com/openai/whisper环境准备:pip install -U openai-whisper
lili-felicity2 个月前
人工智能·whisper·语音识别
CANN加速Whisper语音识别推理:流式处理与实时转录优化Whisper作为OpenAI推出的开源语音识别模型,以其卓越的多语言识别能力和鲁棒性著称。然而,Whisper的推理过程涉及复杂的音频预处理、大规模的Transformer计算和大量的内存访问,对实时应用提出了严峻挑战。CANN针对Whisper推理场景推出了全面的优化方案,通过流式处理、算子融合、内存优化等技术,显著提升了Whisper的推理性能和实时性。本文将深入剖析CANN如何优化Whisper推理,重点讲解流式处理架构、音频预处理优化和实时转录策略。
阿里巴啦2 个月前
python·ffmpeg·whisper·音视频·视频处理·ai摘要·音视频转录
python+yt-dlp开源项目,支持 YouTube, Bilibili, TikTok/抖音,快手 等多个平台的视频/音频/字幕下载/ai摘要等功能我的开源项目 video-link-pipeline 这是一个集成了视频下载、音频提取、字幕处理、语音转录和 AI 摘要生成的全流程工具集。旨在帮助用户快速从各大视频平台获取内容,并利用 AI 技术进行深度处理。
普通网友2 个月前
whisper
极致压缩:Whisper.cpp 量化版本清单与 ggml 格式模型下载Whisper.cpp 是 OpenAI Whisper 语音识别模型的高效 C++ 实现,支持量化技术来减小模型尺寸,实现“极致压缩”。量化通过降低模型参数的精度(如从 32 位浮点数到 4 位整数)来减少存储和计算需求,同时保持合理的准确性。ggml 格式是一种轻量级模型格式,专为资源受限设备优化。以下信息基于 Whisper.cpp 官方 GitHub 仓库(真实可靠),我将逐步引导您获取量化版本清单和下载链接。
天空中最亮的一颗星2 个月前
whisper
如何下载、安装whisper、faster_whisper?1、模型种类whisper:有很多模型:tiny、base、small、medium、large等faster_whisper:模型种类与whisper类似
runner365.git2 个月前
ffmpeg·whisper·语音识别
ffmpeg8.0合入whisper,语音识别模型终于进入ffmpegwhisper合入ffmpeg,8.0开始可能使用语音转文字的AI智能。Whisper 是 OpenAI 开发的一款自动语音识别(ASR)模型,同时支持多语言语音转文字、语音翻译(如将其他语言语音直接转为英文文本)等功能。
Blossom.1182 个月前
人工智能·笔记·python·深度学习·神经网络·架构·whisper
从单点工具到智能流水线:企业级多智能体AI开发工作流架构实战最近研学过程中发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。
Blossom.1182 个月前
人工智能·python·算法·架构·自动化·whisper·哈希算法
从“金鱼记忆“到“超级大脑“:2025年AI智能体记忆机制与MoE架构的融合革命2025年,AI智能体(AI Agent)正经历从"即时反应者"到"经验学习者"的关键进化。字节跳动Seed团队最新发布的M3-Agent-Memorization研究揭示,通过模拟人类大脑的海马体记忆机制,智能体的长期记忆能力实现了300%的保存周期提升和2.3倍的决策响应速度。与此同时,以DeepSeek V3为代表的细粒度混合专家模型(MoE)架构走向成熟,通过稀疏激活机制实现了计算效率的质的飞跃。
Blossom.1182 个月前
人工智能·笔记·python·深度学习·神经网络·chatgpt·whisper
把大模型塞进蓝牙耳机:1.46MB 的 Whisper-Lite 落地全记录最近研学过程中发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。
love530love2 个月前
人工智能·windows·python·whisper·win_comfyui
彻底解决 ComfyUI Mixlab 插件 Whisper.available False 的报错https://github.com/MixLabPro/comfyui-mixlab-nodes在 ComfyUI 中安装 Mixlab Nodes 插件后,控制台显示其他节点正常,便 Whisper.available False。即使环境里安装了 openai-whisper 和 faster-whisper,问题依然可能存在。
希尔贝壳AISHELL3 个月前
开源·whisper·aishell
开源发布丨AISHELL-6-Whisper 语料库为促进语音技术多元化发展、推动AI在特殊语音场景下的研究与落地,希尔贝壳联合昆山杜克大学正式开源 “AISHELL-6-Whisper 语料库”。作为稀缺的耳语—正常音平行对齐资源,本数据集的发布旨在填补相关领域开源数据的空白,为学术界与工业界在低资源语音、多模态交互等前沿方向提供关键数据支持,共同构建更丰富、更包容的语音智能生态。
山后太阳3 个月前
whisper
Whisper v0.2 免费开源语音转文字软件工具下载安装教程使用全指南Whisper v0.2 是一款免费开源的本地语音转文字工具,基于通用语音识别模型开发,在海量音频数据集上训练完成,具备多任务处理能力 —— 支持多语言语音识别、语音翻译及语言识别,能轻松满足录音转文字需求。