基于fastapi和faster-whisper打造在线语音识别文字

语音转录文字,faster-whisper 效果是很不错的,不过部署、安装、配置问题不少,尤其是需要CUDA加速时,不仅要安装CUDA 还需要额外安装cuDNN和cuBLAS等,在安装之前还要升级显卡驱动,这难到不少小白用户。基于此,利用 fastAPI和faster-whipser 搞了一个在线语音识别文字网站。使用简单,直接上传 音频、视频等即可开始识别,无需注册无需登录。

在线免费语音转文字 stt.pyvideotrans.com

实现原理

fastAPI搭建路由服务,起一个模板页面,前端使用Layui做个简单样式。

直接上传 音频、视频文件,后端将使用ffmpeg 将文件转为 wav 格式的音频,再传递给 faster-whisper 模型处理,等待识别完成后,将结果返回给前端,前端获取到结果后,将在页面渲染显示并提供下载按钮。

使用方法

准备待识别的音频或视频

  1. 选择想要转录为文字的音频或视频,如果背景声较大,建议预先分离出背景声,只保留单纯人声,识别效果会更好。推荐背景分离工具请查看 juejin.cn/post/734161...
  2. 目前限制允许上传的文件最大尺寸为 30MB,建议预先从视频里提出音频文件,单独只上传音频,这样能大幅降低尺寸,原本100MB的视频提取出音频后,可能不到30MB。

上传进行识别

点击选择文件或者直接拖拽到上传区域,然后选择"视频里的说话语言",要特别注意,必须选择和视频里说话语言完全一致的语言,否则会出错。

选择后,点击"开始上传并识别"按钮。会自动开始上传,上传完毕后进入排队状态,右侧区域将显示当前排队情况。

识别完成后下载

当识别完成后,右侧区域将显示"已完成"字样,点击就会在下方显示当前识别出的字幕内容和字幕下载按钮。

点击可下载

特别需要注意的几点

  1. 音视频文件尽量干净,无背景噪声,如果有,尽量提前分离,确保人声足够清晰。
  2. 所选视频语言必须与视频里人类说话语言完全一致,否则无法识别
  3. 请等待前一个任务完成后再继续下一个

当前限制

很显然,免费服务必须有所限制,尤其是这类重资源消耗的AI服务,我的服务器资源非常有限,因此限制上传尺寸不大于30MB,上传后排队挨个处理。

如果你上传后在排队阶段不想识别了,请点击右侧删除按钮移除该任务,以减少排队数量。

相关推荐
斐夷所非21 分钟前
人工智能 AI. 机器学习 ML. 深度学习 DL. 神经网络 NN 的区别与联系
人工智能
Funny_AI_LAB2 小时前
OpenAI DevDay 2025:ChatGPT 进化为平台,开启 AI 应用新纪元
人工智能·ai·语言模型·chatgpt
深瞳智检2 小时前
YOLO算法原理详解系列 第002期-YOLOv2 算法原理详解
人工智能·算法·yolo·目标检测·计算机视觉·目标跟踪
深眸财经3 小时前
机器人再冲港交所,优艾智合能否破行业困局?
人工智能·机器人
小宁爱Python3 小时前
从零搭建 RAG 智能问答系统1:基于 LlamaIndex 与 Chainlit实现最简单的聊天助手
人工智能·后端·python
新知图书4 小时前
Encoder-Decoder架构的模型简介
人工智能·架构·ai agent·智能体·大模型应用开发·大模型应用
大模型真好玩4 小时前
低代码Agent开发框架使用指南(一)—主流开发框架对比介绍
人工智能·低代码·agent
tzc_fly4 小时前
AI作为操作系统已经不能阻挡了,尽管它还没来
人工智能·chatgpt
PKNLP4 小时前
深度学习之神经网络1(Neural Network)
人工智能·深度学习·神经网络
文火冰糖的硅基工坊5 小时前
《投资-99》价值投资者的认知升级与交易规则重构 - 什么是周期性股票?有哪些周期性股票?不同周期性股票的周期多少?周期性股票的买入和卖出的特点?
大数据·人工智能·重构·架构·投资·投机