犀牛派A1上使用Faster Whisper完成音频转文字

项目介绍:Faster Whisper 是一个基于 CTranslate2 的 OpenAI Whisper 模型的高效实现。它是一个快速推理引擎,用于 Transformer 模型,相比 OpenAI 的 Whisper 模型,速度提升了 4 倍。该项目支持 Windows、Linux 和 macOS 平台,并且提供了多种优化选项,如 FP16 和 INT8 计算类型,以适应不同的硬件环境。

硬件:犀牛派A1

平台:QCS6490


一、环境准备

打开终端,在命令行界面中输入如下命令来安装Faster Whisper

复制代码
sudo apt update && sudo apt install -y python3-pip ffmpeg
#因为这里使用CPU进行推理,安装 CPU 优化的 CTranslate2 和 Faster-Whisper
pip install faster-whisper
pip install ctranslate2 --no-deps # 确保不安装 GPU 相关依赖 
pip install faster-whisper

二、准备推理脚本

编写或拉取一个脚本,可命名为 test.py

python 复制代码
from faster_whisper import WhisperModel
import sys
import time
def main():
    # 获取音频文件名
    if len(sys.argv) > 1:
        filename = sys.argv[1]
    else:
        filename = input("请输入要转录的音频文件名:")
    # 选择模型大小,例如 "base", "small", "medium", "large-v3"
    model_size = "small"

    # 加载模型并统计加载时间
    load_start = time.perf_counter()
    model = WhisperModel(
        model_size,
        device="cpu",
        compute_type="int8"
    )
    load_duration = time.perf_counter() - load_start
    print(f"模型加载耗时: {load_duration:.2f}秒")

    # 开始转录计时
    transcribe_start = time.perf_counter()

    # 自动检测语言转录
    segments, info = model.transcribe(filename, beam_size=5)

    # 立即处理所有分段以确保准确计时
    segments = list(segments)

    # 结束计时
    transcribe_duration = time.perf_counter() - transcribe_start

    # 输出结果
    print(f"\n检测到的语言: {info.language} (置信度: {info.language_probability:.2f})")
    print(f"音频时长: {info.duration:.2f}秒")
    print(f"转录处理耗时: {transcribe_duration:.2f}秒")
    print(f"总耗时(含加载): {load_duration + transcribe_duration:.2f}秒\n")

    # 输出逐句转录结果
    for segment in segments:
        print(f"[{segment.start:6.2f}s -> {segment.end:6.2f}s] {segment.text.strip()}")

if __name__ == "__main__":
	main()

三、运行测试

可在浏览器上任意下载一个音频文件

将音频放入测试脚本的同级目录进行测试,脚本可自动检测语言

复制代码
python3 test.py youshengshu.wma
相关推荐
小白|8 分钟前
tensorflow:昇腾CANN的TensorFlow适配层
人工智能·python·tensorflow
武汉唯众智创10 分钟前
全栈物联网实训平台拆解:通信协议+边缘AI+实战源码
人工智能·物联网·嵌入式开发·物联网实训平台·高校实训·python物联网
神秘的摄影师16 分钟前
2026年AE音乐素材下载网站TOP5评测——短视频与自媒体创作者专属指南
音视频·媒体
码点滴20 分钟前
CRI-O选型与容器运行时标准
开发语言·人工智能·架构·kubernetes·cri-o
一起聊电气20 分钟前
智能断路器:守护智能照明系统的AI电气安全闸门
网络·人工智能·安全
莱歌数字21 分钟前
电池-底盘一体化的热均匀性:集成时代的“均温难题”
人工智能·科技·汽车·制造·cae
LT101579744425 分钟前
2026年超自动化平台选型指南:全流程智能协同适配
运维·人工智能·自动化
科技那些事儿30 分钟前
流量红利消退,可酷 AI 智能音乐破局,引领行业进入效率竞争新时代
人工智能
l1t33 分钟前
DeepSeek总结的在 DuckDB 中试驾 Lance 数据湖仓格式
数据库·人工智能·机器学习·duckdb
试剂界的爱马仕34 分钟前
《古董局·终局5:潮生》第 2 章:镜子的天赋
大数据·人工智能·算法