技术栈
whisper
localbob
3 天前
whisper
·
音视频
·
机器翻译
·
日语字幕翻译
·
日语视频翻译
·
本地ai翻译日语视频
日语视频 SRT 字幕生成软件下载:日语视频本地自动翻译SRT字幕生成、日语视频自动翻译 Faster Whisper v1.7 下载与使用教程(含AMD显卡支持)
关键词:Faster Whisper 教程、Whisper 本地部署、CUDA 12.8 下载、AMD ROCm Whisper、日文转中文 转录工具、Whisper 批处理模式、RTX 50 CUDA 版本选择
挂科边缘
3 天前
人工智能
·
语言模型
·
whisper
·
faster-whisper
·
实时语音输入转文本
手把手教你使用 Faster-Whisper 实时语音输入转文本,本地部署教程
要想实现像豆包、微信等一样的语音输入功能,通常有两种主流方案:云端 API(轻量、准确度极高)和 本地模型(免费、隐私、无需联网)。由于目前开发的系统需要添加一个语音识别功能,刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址
三千军
3 天前
whisper
·
免费
·
语音转文字
·
离线
·
buzz
Buzz语音转文字离线免费版安装使用(含Whisper最新模型)
Buzz1.2.0(2024年12月24日更新的,是2025年7月最新版本)Buzz有python编写的, 在您的个人计算机上离线转录和翻译音频。由 OpenAI 的 Whisper 提供支持。
SUNNY_SHUN
3 天前
人工智能
·
智能手机
·
whisper
·
github
把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star
语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer,几乎每个月都有新模型发布。但对开发者来说,选好模型只是第一步,真正的工程挑战在后面:怎么把它跑在手机上?嵌入式设备上?浏览器里?怎么接入 NPU 加速?怎么在没有网络的环境下运行?
searchforAI
3 天前
人工智能
·
笔记
·
ai
·
whisper
·
音视频
·
语音识别
·
腾讯会议
培训视频转文字后怎么做团队复盘?把本地视频整理成AI笔记的实操方案
培训视频转文字这件事,很多团队其实只做了一半。会开完了,录屏存下来了,新人培训也录了,结果文件一扔网盘,后面几乎没人再看。
Wenzar_
5 天前
java
·
人工智能
·
whisper
VITS+Whisper微调:低延迟TTS实战
在语音合成(TTS)工程落地中,高保真、低延迟、强可控、易部署四大目标长期存在张力。传统拼接式(如HTS)或参数式(如Tacotron2)方案在音质与实时性间反复权衡;而近期大模型驱动的TTS(如XTTS v2)虽效果惊艳,却常因GPU显存占用高、推理延迟超300ms、缺乏细粒度韵律干预能力,难以嵌入边缘设备或交互式场景。
PersistJiao
6 天前
whisper
faster-whisper 字幕识别模型base/medium/large-v3-turbo
base 模型(约 1.4 亿参数)只能算是“日常够用”,遇到吴恩达老师课程里大量的专业术语(如 Gradient Descent, Neural Network, Overfitting),它的拼写错误率会明显上升。
searchforAI
6 天前
人工智能
·
笔记
·
gpt
·
ai
·
whisper
·
音视频
·
语音识别
2026年AI笔记工具对比实测:NotebookLM、通义听悟、Ai好记怎么选?
如果你最近在找 AI笔记工具,大概率会碰到一个很现实的问题,到底该选会议型工具、知识库型工具,还是偏音视频整理的方案。表面看都在做视频转文字、AI总结、知识管理,真用起来差别其实挺大。
PersistJiao
6 天前
whisper
Faster-Whisper
对于“视频生成字幕 + 自动中英翻译”这一需求,目前最强大、最主流的方案是 Whisper(由 OpenAI 开发的语音识别模型)及其衍生工具。
PersistJiao
6 天前
macos
·
whisper
针对 Intel Mac 的硬件限制提升faster-whisper字幕识别的方法
既然你的 Mac 是 Intel 芯片(比如 i5, i7, i9),那这直接决定了我们的策略需要做重大调整!
sleven fung
7 天前
开发语言
·
人工智能
·
python
·
算法
·
ai
·
whisper
Whisper库
第一章 Whisper 库本文主要整理 Whisper 库相关内容,包括 Whisper 简介、可用模型与语言、模型下载地址、Whisper 安装、zhconv 简繁转换库、Whisper 简单使用、转录与解码方法,以及完整代码示例和运行结果。
杜连涛
13 天前
whisper
·
语音识别
·
ai应用
·
多语言处理
5分钟部署Whisper语音识别:多语言大模型一键启动Web服务
你有没有遇到过这样的场景?一段会议录音需要整理成文字,但手动听写耗时又容易出错;或者收到一段外语视频,想快速了解内容却找不到翻译工具。现在,这些问题都可以通过一个简单的Web服务解决——基于OpenAI Whisper large-v3的多语言语音识别系统。
siv77
16 天前
whisper
·
tts
·
asr
·
nmt
·
ai视频翻译
·
视频翻译架构
·
字幕压制
一站式 AI 视频翻译的技术架构:ASR → NMT → TTS → 字幕压制的全链路设计
做一套可落地的 AI 视频翻译系统,关键不是把 ASR、翻译、配音、字幕几个模型简单串起来,而是把“输入、音频切分、转写、说话人、翻译、合成、对齐、导出”做成一条稳定的数据管线。比较稳的架构可以拆成 7 层:输入层、ASR 层、说话人分离层、NMT 层、TTS 层、后处理层和任务编排层。
Fantasy237
17 天前
whisper
·
工具使用
whisper语音转文字配置
第一步:卸载旧版 Torch (确保无冲突)Bash第二步:安装支持 RTX 5060 (Blackwell 架构) 的 CUDA 12.8 版本
searchforAI
18 天前
人工智能
·
经验分享
·
笔记
·
gpt
·
whisper
·
语音识别
AI多模态技术:从语音识别到AI结构化笔记是怎么实现的
最近发现一个挺有意思的事。越来越多的人开始用视频转笔记类的工具,把B站视频或者播客丢进去,几分钟就能拿到一份带小标题、有时间戳的图文讲义。
搬砖的小码农_Sky
19 天前
人工智能
·
ai
·
whisper
·
gpu算力
如何用Nvidia Geforce RTX 5060 Ti显卡进行本地Whisper语音转文字任务?
在Windows平台上,用你的RTX 5060 Ti 16GB显卡搭建本地Whisper语音转文字服务,主要有几种方式:从开箱即用的图形界面,到追求极致速度的命令行,再到能集成其他AI应用的API服务。我整理了详细的步骤,你可以根据自己的技术背景和需求来选择。
abigriver
22 天前
linux
·
运维
·
whisper
打造 Linux 离线大模型级语音输入法:Whisper.cpp + 3090 显卡加速与 Rime 中英混输终极调优指南
📌 引言在 Linux (Ubuntu) 个人生产力环境中,输入法的流畅度与智能化直接决定了开发和办公效率。商业语音输入法不仅存在隐私泄露风险,在 Linux 上的支持也差强人意。
J心流
1 个月前
whisper
89ms实时Whisper,显存还降48%
有人把 Whisper 做到了 89ms 中位延迟,还顺手把 GPU 峰值内存砍掉 48%。我第一眼看到这个数据的时候,其实有点不敢太兴奋。因为做实时语音识别的人都知道,Whisper 是一个特别拧巴的存在,它离线转写很好用,效果稳,生态也成熟,但你真想把它塞进实时字幕、会议助手、语音 Agent 这种场景里,它马上就会暴露一堆不舒服的地方。
iDao技术魔方
1 个月前
人工智能
·
whisper
·
语音识别
whisper.cpp 深度解析:从边缘设备到实时语音识别
2022 年 9 月,OpenAI 开源了 Whisper 模型,一个在大规模弱监督数据上训练的语音识别系统。模型很强大——接近人类水平的准确度、支持 99 种语言、自动语言检测——但一个明显的问题是:它太重了。官方 Python 实现的 Transformer 架构,仅加载 large 模型就要吃掉 3GB+ 显存,在 CPU 上推理更是以分钟计。
Gc9umsbL1
1 个月前
ffmpeg
·
whisper
·
音视频
从FLAC到WAV:whisper.cpp中的FFmpeg音频预处理全解析
在音频处理领域,FFmpeg是一个功能强大且广泛使用的开源工具库。在whisper.cpp中,利用FFmpeg进行音频预处理,尤其是从FLAC到WAV的转换,起到了关键作用。