【python ASR】win11-从0到1使用funasr实现本地离线音频转文本

文章目录


前言

python本地离线跑模型,需要下载许多依赖以及依赖版本都要互相对应。本文总结从0到1到运行funasr的过程。希望帮助友友们,能够快速上手,避免浪费时间在环境和依赖版本的校对上。


一、前提条件

安装环境

仓库

txt 复制代码
可以看到一些前提条件
python>=3.8
torch>=1.13
torchaudio

Python 安装

3.8 比较旧了,这里我取中间,安装 Python3.11

安装依赖,使用工业预训练模型

bash 复制代码
pip3 install -U modelscope huggingface

最后安装 - torch

1. 安装前查看显卡支持的最高CUDA的版本,以便下载torch 对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。
bash 复制代码
nvidia-smi.exe


如果你发现你的CUDA是10.1或者11以下比较旧的,建议升级下显卡驱动就可以了。

2. 前往网站下载Pytorch

由于我最高支持12.6

所以我这里下载12.4

bash 复制代码
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

如果你像下面被限速了

科学就行,最好重新打开终端。

二、使用步骤

python 复制代码
from funasr import AutoModel
model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad", punc_model="ct-punc" )
res = model.generate(input="demo.mp3", 
            batch_size_s=300, 
            hotword='魔搭')
print(res)

源音频URL对比

txt 复制代码
[{'key': 'demo', 'text': '是有哪些学校的GPA特别难拿?行,我跟大家盘一盘吧,也刚好避一个坑。那第一个说一说BU吧,它处于波士顿的核心地带,常年都会在这个final最难的几所美国大学的排行榜上榜上有名。还有呢,就是像这个MIT申请的时候,难度也就特别高,考试难度拿GP的难度也非常高。还有呢就是像普林斯顿,虽然说很多藤校会有GPA inflation,但是呢普林斯顿在这一点上卡的很严严,我们 的GPA一点活路都不留。还有呢就是像普渡大学工科相关的专业,学起来难度也比较大。还有就是哈维姆德,它其实是一个科学和工程专业的强校,录取难度也很高,读下来拿高GP的难度也很高。', 'timestamp': [[130, 310], [310, 430], [430, 670], [730, 830], [830, 950], [950, 1070], [1070, 1190], [1190, 1550], [1550, 1630], [1630, 1730], [1730, 1970], [2450, 2690], [2690, 2810], [2810, 2930], [2930, 3050], [3050, 3130], [3130, 3290], [3290, 3410], [3410, 3590], [3590, 3710], [3710, 3830], [3830, 3950], [3950, 4070], [4070, 4190], [4190, 4310], [4310, 4410], [4410, 4650], [4650, 4770], [4770, 4890], [4890, 5010], [5010, 5210], [5210, 5310], [5310, 5430], [5430, 5610], [5610, 5790], [5790, 6210], [6210, 6450], [6510, 6690], [6690, 6930], [6930, 7050], [7050, 7170], [7170, 7290], [7290, 7430], [7430, 7510], [7510, 7710], [7710, 7870], [7870, 8070], [8070, 8290], [8290, 8530], [8550, 8650], [8650, 8830], [8830, 9070], [9090, 9190], [9190, 9290], [9290, 9490], [9490, 9970], [9970, 10210], [10210, 10450], [10470, 10630], [10630, 10850], [10850, 10990], [10990, 11190], [11190, 11350], [11350, 11470], [11470, 11610], [11610, 11710], [11710, 11890], [11890, 12130], [12130, 12330], [12330, 12490], [12490, 12610], [12610, 12790], [12790, 13030], [13090, 13170], [13170, 13330], [13330, 13450], [13450, 13570], [13570, 13650], [13650, 13850], [13850, 13990], [13990, 14110], [14110, 14230], [14230, 14950], [14950, 15070], [15070, 15210], [15210, 15310], [15310, 15430], [15430, 15550], [15550, 15670], [15670, 15770], [15770, 15910], [15910, 16010], [16010, 16129], [16129, 16370], [16510, 16610], [16610, 16810], [16810, 17030], [17030, 17150], [17150, 17350], [17350, 17450], [17450, 17670], [17670, 17790], [17790, 17890], [17890, 18010], [18010, 18210], [18210, 18310], [18310, 18550], [18550, 18730], [18730, 18850], [18850, 19030], [19030, 19150], [19150, 19270], [19270, 19350], [19350, 19530], [19530, 19630], [19630, 19770], [19770, 19930], [19930, 20130], [20130, 20290], [20290, 20470], [20470, 20710], [20750, 20890], [20890, 21090], [21090, 21250], [21250, 21490], [21630, 21790], [21790, 22030], [22150, 22530], [22530, 23170], [23250, 23410], [23410, 23570], [23570, 23710], [23710, 23810], [23810, 23990], [23990, 24170], [24170, 24410], [24490, 24730], [24790, 24950], [24950, 25070], [25070, 25310], [25310, 25510], [25510, 25610], [25610, 25730], [25730, 25850], [25850, 26090], [26230, 26390], [26390, 26470], [26470, 26570], [26570, 26650], [26650, 27070], [27070, 27170], [27170, 27350], [27350, 27470], [27470, 27650], [27650, 27770], [27770, 27850], [27850, 28090], [28210, 28310], [28310, 28490], [28490, 28610], [28610, 28730], [28730, 28810], [28810, 29050], [29050, 29210], [29210, 29410], [29410, 29570], [29570, 29810], [29930, 30050], [30050, 30250], [30250, 30470], [30470, 30650], [30650, 30790], [30790, 30890], [30890, 31130], [31150, 31310], [31310, 31430], [31430, 31570], [31570, 31730], [31730, 31850], [31850, 31970], [31970, 32070], [32070, 32189], [32189, 32430], [32470, 32549], [32549, 32730], [32730, 32830], [32830, 32910], [32910, 33030], [33030, 33210], [33210, 33390], [33390, 33630], [33770, 33910], [33910, 34050], [34050, 34230], [34230, 34330], [34330, 34410], [34410, 34610], [34610, 34830], [34830, 35010], [35010, 35230], [35230, 35430], [35430, 35670], [35710, 35850], [35850, 36030], [36030, 36170], [36170, 36410], [36450, 36690], [36950, 37050], [37050, 37230], [37230, 37350], [37350, 37470], [37470, 37650], [37650, 37770], [37770, 38010], [38070, 38190], [38190, 38310], [38310, 38490], [38490, 38610], [38610, 38810], [38810, 39090], [39090, 39210], [39210, 39310], [39310, 39410], [39410, 39590], [39590, 39710], [39710, 40015]]}]

总结

以上是使用Python跑 funasr 模型的过程。

总的来说就是 torch安装需要对应你的显卡版本,要小于你的显卡CUDA最大支持版本。
后续会记录Python爬取抖音主页的数据,拿到点赞量及无水印视频等。

相关推荐
Code out the future21 分钟前
【C++——临时对象,const T&】
开发语言·c++
taoyong00125 分钟前
Java线程核心01-中断线程的理论原理
java·开发语言
一雨方知深秋25 分钟前
智慧商城:封装getters实现动态统计 + 全选反选功能
开发语言·javascript·vue2·foreach·find·every
海威的技术博客28 分钟前
关于JS中的this指向问题
开发语言·javascript·ecmascript
觅远29 分钟前
python实现word转html
python·html·word
froginwe111 小时前
PostgreSQL表达式的类型
开发语言
悠然的笔记本1 小时前
python2和python3的区别
python
委婉待续1 小时前
java抽奖系统(八)
java·开发语言·状态模式
deja vu水中芭蕾1 小时前
嵌入式C面试
c语言·开发语言
爱码小白1 小时前
PyQt5 学习方法之悟道
开发语言·qt·学习方法