文章目录
-
-
- 一、实现目标
- [二、安装 Montreal-Forced-Aligner](#二、安装 Montreal-Forced-Aligner)
-
- [1、使用 Anaconda 虚拟环境](#1、使用 Anaconda 虚拟环境)
- 2、修改默认下载路径
- [3、安装 montreal-forced-aligner 及相关第三方包](#3、安装 montreal-forced-aligner 及相关第三方包)
- 4、验证是否安装成功
- 三、下载声学模型和发音词典
- 四、强制对齐
- [五、使用 Praat 工具查看对齐效果](#五、使用 Praat 工具查看对齐效果)
- 六、参考资料
-
一、实现目标
一份音频文件(audio.wav
),一份音频对应的文本文件(audio.txt
),希望能够列出文本中每个单词在音频当中出现的时间点。
二、安装 Montreal-Forced-Aligner
需要在 Anaconda
中创建虚拟环境后安装使用,所以需要先安装 Anaconda
,此处已经安装完成,不再说明相关安装流程。
1、使用 Anaconda 虚拟环境
点击 Anaconda Prompt:
![](https://file.jishuzhan.net/article/1788427799527165954/0b0b3fe6e3479c46eba13a13c4cca9ab.webp)
创建虚拟环境:
conda create -n aligner
注:此处指定虚拟环境名称为 aligner,可自定义。
激活该虚拟环境:
conda activate aligner
2、修改默认下载路径
在下载对应模型及词典前,可通过添加环境变量 MFA_ROOT_DIR
修改默认下载路径:
![](https://file.jishuzhan.net/article/1788427799527165954/78b645c48fb45bd5cd1cdab4a0985b1c.webp)
更多详情参见:https://montreal-forced-aligner.readthedocs.io/en/latest/user_guide/configuration/index.html
3、安装 montreal-forced-aligner 及相关第三方包
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
注:可能因为网络问题需要等待很长时间。
安装详情参见:https://montreal-forced-aligner.readthedocs.io/en/latest/installation.html
4、验证是否安装成功
mfa
验证是否安装成功:
![](https://file.jishuzhan.net/article/1788427799527165954/6369036bcd36c739ac8196220456aa78.webp)
三、下载声学模型和发音词典
1、命令行方式下载
- 声学模型:
mfa model download acoustic english_us_arpa
- 发音词典:
mfa model download dictionary english_us_arpa
注:此处安装的是 english_us_arpa
,可根据需要自行跟换。下载完成后的压缩包不要解压。
查看可安装的声学模型列表:
mfa model download acoustic
此处以下载 english_mfa
为例,展示下载完成界面:
![](https://file.jishuzhan.net/article/1788427799527165954/fd5a059053bf6e1b269a5856ad7cf5a7.webp)
网络问题可能无法下载成功,尝试手动下载。
2、手动方式下载
下载地址:https://mfa-models.readthedocs.io/en/latest/
![](https://file.jishuzhan.net/article/1788427799527165954/33b5a9e46153d866affafac53d9a95a7.webp)
此处以下载发音词典 dictionary
为例,展示下载过程,声学模型 acoustic models
下载方式同理:
(1) 点击图片中的 Browse dictionaries
,进入下载界面,通过关键字检索:
![](https://file.jishuzhan.net/article/1788427799527165954/d6731e731331969f0ae3acbcc9a2ec5c.webp)
(2) 进入详情页后,点击跳转至 github
下载:
![](https://file.jishuzhan.net/article/1788427799527165954/0ae79f522003fb87d9453869677a7521.webp)
(3) 拉至页面底部,点击下载
![](https://file.jishuzhan.net/article/1788427799527165954/f33dc927daa337f67fe7d9f160dd51df.webp)
(4) 将文件放至环境变量对应的目录下
如果是 dictionary
就放在 pretrained_models/dictionary
文件夹下,同理,如果下载声学模型 acoustic
则放在 pretrained_models/acoustic
文件夹下:
![](https://file.jishuzhan.net/article/1788427799527165954/ef8aeb6a976b9457b71cd278cc4afa75.webp)
注:下载的声学模型压缩包不要解压。pretrained_models
文件夹是安装完 MFA 后自动生成的不用自行创建。
四、强制对齐
1、准备音频及对应文本
创建 corpus_path
和 target_path
文件夹:
![](https://file.jishuzhan.net/article/1788427799527165954/910f93b97731f964d5103affe5895ec4.webp)
将音频及文本文件放置 corpus_path
文件夹中:
![](https://file.jishuzhan.net/article/1788427799527165954/44eb14fe3fc70b356f869b04a921e53d.webp)
2、开始对齐
mfa align D:\AnacondaCLI\mfa_model_dic\pretrained_models\corpus_path english_us_arpa english_us_arpa D:\AnacondaCLI\mfa_model_dic\pretrained_models\target_path
参数说明:
mfa align [OPTIONS] CORPUS_DIRECTORY DICTIONARY_PATH ACOUSTIC_MODEL_PATH OUTPUT_DIRECTORY
CORPUS_DIRECTORY
:需要对齐的音频及文本的文件夹路径DICTIONARY_PATH
:发音词典路径ACOUSTIC_MODEL_PATH
:声学模型路径OUTPUT_DIRECTORY
:对齐后生成的文件的存放路径
可在命令行后面追加 --clean
参数清除上一次使用的缓存,否则即便清空 corpus_path
文件夹下的内容后添加新的数据,执行命令后依然显示之前对齐的结果。
此处可直接使用 english_us_arpa
是因为模型及词典放置在了默认文件夹下,所以无需填写完整路径。
对齐:
![](https://file.jishuzhan.net/article/1788427799527165954/303c7eaa2f9ef108eb3c4034c2745218.webp)
查看文件:
![](https://file.jishuzhan.net/article/1788427799527165954/056bb310124996412a9848cfb89f5033.webp)
五、使用 Praat 工具查看对齐效果
Praat 工具下载链接:https://www.fon.hum.uva.nl/praat/
添加对齐后的文件和音频文件至目标区域:
![](https://file.jishuzhan.net/article/1788427799527165954/3efd725749e369380d6f98037770b9ff.webp)
添加对齐后的文件:
![](https://file.jishuzhan.net/article/1788427799527165954/371e91e11230adadce20a0ab79130c46.webp)
添加对应的音频文件:
![](https://file.jishuzhan.net/article/1788427799527165954/f7bedd3726507281645bfed0f2dc5978.webp)
同时选中后点击 View & Edit 按钮:
![](https://file.jishuzhan.net/article/1788427799527165954/7919a175ec96c7add49b2eaf3da009b4.webp)
查看对齐结果:
![](https://file.jishuzhan.net/article/1788427799527165954/1b2c62629a55bace178a497521e4590e.webp)
六、参考资料
官方资料:
相关博客:
- 安装与使用Montreal Forced Aligner(MFA)
- Montreal Forced Aligner Windows笔记
- Montreal Forced Aligner使用教程(中文语音文本对齐)
- Montreal Forced Aligner (MFA)安装教程及异常处理
- 中文语音文本对齐-MFA-不需要配环境的傻瓜教程
- Forced Alignment 踩坑日志
其他: