whisper

localbob3 天前
whisper·音视频·机器翻译·日语字幕翻译·日语视频翻译·本地ai翻译日语视频
日语视频 SRT 字幕生成软件下载:日语视频本地自动翻译SRT字幕生成、日语视频自动翻译 Faster Whisper v1.7 下载与使用教程(含AMD显卡支持)关键词:Faster Whisper 教程、Whisper 本地部署、CUDA 12.8 下载、AMD ROCm Whisper、日文转中文 转录工具、Whisper 批处理模式、RTX 50 CUDA 版本选择
挂科边缘3 天前
人工智能·语言模型·whisper·faster-whisper·实时语音输入转文本
手把手教你使用 Faster-Whisper 实时语音输入转文本,本地部署教程要想实现像豆包、微信等一样的语音输入功能,通常有两种主流方案:云端 API(轻量、准确度极高)和 本地模型(免费、隐私、无需联网)。由于目前开发的系统需要添加一个语音识别功能,刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址
三千军3 天前
whisper·免费·语音转文字·离线·buzz
Buzz语音转文字离线免费版安装使用(含Whisper最新模型)Buzz1.2.0(2024年12月24日更新的,是2025年7月最新版本)Buzz有python编写的, 在您的个人计算机上离线转录和翻译音频。由 OpenAI 的 Whisper 提供支持。
SUNNY_SHUN3 天前
人工智能·智能手机·whisper·github
把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer,几乎每个月都有新模型发布。但对开发者来说,选好模型只是第一步,真正的工程挑战在后面:怎么把它跑在手机上?嵌入式设备上?浏览器里?怎么接入 NPU 加速?怎么在没有网络的环境下运行?
searchforAI3 天前
人工智能·笔记·ai·whisper·音视频·语音识别·腾讯会议
培训视频转文字后怎么做团队复盘?把本地视频整理成AI笔记的实操方案培训视频转文字这件事,很多团队其实只做了一半。会开完了,录屏存下来了,新人培训也录了,结果文件一扔网盘,后面几乎没人再看。
Wenzar_5 天前
java·人工智能·whisper
VITS+Whisper微调:低延迟TTS实战在语音合成(TTS)工程落地中,高保真、低延迟、强可控、易部署四大目标长期存在张力。传统拼接式(如HTS)或参数式(如Tacotron2)方案在音质与实时性间反复权衡;而近期大模型驱动的TTS(如XTTS v2)虽效果惊艳,却常因GPU显存占用高、推理延迟超300ms、缺乏细粒度韵律干预能力,难以嵌入边缘设备或交互式场景。
PersistJiao6 天前
whisper
faster-whisper 字幕识别模型base/medium/large-v3-turbobase 模型(约 1.4 亿参数)只能算是“日常够用”,遇到吴恩达老师课程里大量的专业术语(如 Gradient Descent, Neural Network, Overfitting),它的拼写错误率会明显上升。
searchforAI6 天前
人工智能·笔记·gpt·ai·whisper·音视频·语音识别
2026年AI笔记工具对比实测:NotebookLM、通义听悟、Ai好记怎么选?如果你最近在找 AI笔记工具,大概率会碰到一个很现实的问题,到底该选会议型工具、知识库型工具,还是偏音视频整理的方案。表面看都在做视频转文字、AI总结、知识管理,真用起来差别其实挺大。
PersistJiao6 天前
whisper
Faster-Whisper对于“视频生成字幕 + 自动中英翻译”这一需求,目前最强大、最主流的方案是 Whisper(由 OpenAI 开发的语音识别模型)及其衍生工具。
PersistJiao6 天前
macos·whisper
针对 Intel Mac 的硬件限制提升faster-whisper字幕识别的方法既然你的 Mac 是 Intel 芯片(比如 i5, i7, i9),那这直接决定了我们的策略需要做重大调整!
sleven fung7 天前
开发语言·人工智能·python·算法·ai·whisper
Whisper库第一章 Whisper 库本文主要整理 Whisper 库相关内容,包括 Whisper 简介、可用模型与语言、模型下载地址、Whisper 安装、zhconv 简繁转换库、Whisper 简单使用、转录与解码方法,以及完整代码示例和运行结果。
杜连涛13 天前
whisper·语音识别·ai应用·多语言处理
5分钟部署Whisper语音识别:多语言大模型一键启动Web服务你有没有遇到过这样的场景?一段会议录音需要整理成文字,但手动听写耗时又容易出错;或者收到一段外语视频,想快速了解内容却找不到翻译工具。现在,这些问题都可以通过一个简单的Web服务解决——基于OpenAI Whisper large-v3的多语言语音识别系统。
siv7716 天前
whisper·tts·asr·nmt·ai视频翻译·视频翻译架构·字幕压制
一站式 AI 视频翻译的技术架构:ASR → NMT → TTS → 字幕压制的全链路设计做一套可落地的 AI 视频翻译系统,关键不是把 ASR、翻译、配音、字幕几个模型简单串起来,而是把“输入、音频切分、转写、说话人、翻译、合成、对齐、导出”做成一条稳定的数据管线。比较稳的架构可以拆成 7 层:输入层、ASR 层、说话人分离层、NMT 层、TTS 层、后处理层和任务编排层。
Fantasy23717 天前
whisper·工具使用
whisper语音转文字配置第一步:卸载旧版 Torch (确保无冲突)Bash第二步:安装支持 RTX 5060 (Blackwell 架构) 的 CUDA 12.8 版本
searchforAI18 天前
人工智能·经验分享·笔记·gpt·whisper·语音识别
AI多模态技术:从语音识别到AI结构化笔记是怎么实现的最近发现一个挺有意思的事。越来越多的人开始用视频转笔记类的工具,把B站视频或者播客丢进去,几分钟就能拿到一份带小标题、有时间戳的图文讲义。
搬砖的小码农_Sky19 天前
人工智能·ai·whisper·gpu算力
如何用Nvidia Geforce RTX 5060 Ti显卡进行本地Whisper语音转文字任务?在Windows平台上,用你的RTX 5060 Ti 16GB显卡搭建本地Whisper语音转文字服务,主要有几种方式:从开箱即用的图形界面,到追求极致速度的命令行,再到能集成其他AI应用的API服务。我整理了详细的步骤,你可以根据自己的技术背景和需求来选择。
abigriver22 天前
linux·运维·whisper
打造 Linux 离线大模型级语音输入法:Whisper.cpp + 3090 显卡加速与 Rime 中英混输终极调优指南📌 引言在 Linux (Ubuntu) 个人生产力环境中,输入法的流畅度与智能化直接决定了开发和办公效率。商业语音输入法不仅存在隐私泄露风险,在 Linux 上的支持也差强人意。
J心流1 个月前
whisper
89ms实时Whisper,显存还降48%有人把 Whisper 做到了 89ms 中位延迟,还顺手把 GPU 峰值内存砍掉 48%。我第一眼看到这个数据的时候,其实有点不敢太兴奋。因为做实时语音识别的人都知道,Whisper 是一个特别拧巴的存在,它离线转写很好用,效果稳,生态也成熟,但你真想把它塞进实时字幕、会议助手、语音 Agent 这种场景里,它马上就会暴露一堆不舒服的地方。
iDao技术魔方1 个月前
人工智能·whisper·语音识别
whisper.cpp 深度解析:从边缘设备到实时语音识别2022 年 9 月,OpenAI 开源了 Whisper 模型,一个在大规模弱监督数据上训练的语音识别系统。模型很强大——接近人类水平的准确度、支持 99 种语言、自动语言检测——但一个明显的问题是:它太重了。官方 Python 实现的 Transformer 架构,仅加载 large 模型就要吃掉 3GB+ 显存,在 CPU 上推理更是以分钟计。
Gc9umsbL11 个月前
ffmpeg·whisper·音视频
从FLAC到WAV:whisper.cpp中的FFmpeg音频预处理全解析在音频处理领域,FFmpeg是一个功能强大且广泛使用的开源工具库。在whisper.cpp中,利用FFmpeg进行音频预处理,尤其是从FLAC到WAV的转换,起到了关键作用。