【读论文】CONTINUOUS SPEECH RECOGNITION OF KAZAKH LANGUAGE

0. 概要

该研究针对哈萨克语低资源的特点，通过自建多样化连续语音数据库，结合传统模型与深度学习模型的优势，构建了首个（或早期）哈萨克语连续语音识别系统，取得 30.01% 的 WER 基线结果，为该语言的语音识别技术发展奠定了数据和模型基础。

研究背景：哈萨克语的低资源属性
- 低资源语言定义：指标注数据稀缺、相关技术工具不完善的语言，这类语言的语音识别系统构建核心难点在于缺乏足量的高质量语音 - 文本对齐数据。
核心基础：哈萨克语语音数据库构建
- 对于低资源语言，自建数据库是解决 "数据匮乏" 问题的关键前提，直接决定模型训练的有效性。
模型选择：传统模型 + 深度神经网络

1. 引言

主流语言的 ASR 技术成熟依赖充足的标准化资源，但哈萨克语作为低资源黏着语，既面临 "数据短缺" 的共性问题，又要应对 "形态学复杂" 的个性挑战；当前的资源建设工作虽有突破，但距离支撑高性能 ASR 系统仍有较大差距。

语音识别技术的普适价值与区域发展失衡

技术价值：语音识别重构信息获取方式、提升任务效率、减轻人力成本，近年应用增长迅猛。
应用现状：在英语、汉语等资源丰富的主流语言中已广泛落地，核心依托是充足的语言资源（标注数据、工具链等）。
区域短板：中亚地区因语言资源短缺 / 不可得，该技术普及率远低于主流语言区域。

现代 ASR 系统的核心基础：声学语料库

统计建模（如 GMM-HMM、DNN-HMM）是现代 ASR 的核心方法，而声学语料库（带文本转录的语音数据）是训练声学模型的 "原材料"，数据规模和质量直接决定模型性能。

哈萨克语语音识别的核心难点（低资源黏着语的典型困境）

哈萨克语作为低资源语言，面临的问题远超单纯的数据短缺，而是语言特性 + 资源短板的复合型挑战：

黏着语的形态学结构难题
- 黏着语定义：通过添加后缀 / 词尾构成新词的语言类型（所有突厥语族语言均属此类）。比如一个核心词可叠加多个后缀，衍生出不同语义的词汇（如名词变格、动词变位）。
- 对 ASR 的影响：黏着语的词汇派生能力极强，会导致词汇表规模爆炸------ 同样的语义表达，在英语中可能是一个短语，在哈萨克语中可能是一个长复合词，大幅增加语言模型的训练难度。
声学资源的三重短缺
- 缺乏公开可用的大规模声学数据：训练高性能 ASR 系统通常需要数百甚至数千小时的标注语音，而哈萨克语相关资源严重不足；
- 缺乏统一的发音标准：没有公认的音素、双音素、三音素标注规范，导致不同研究团队的数据集无法互通，重复造轮子；
- 缺乏语音学丰富的数据库：无法像 TIMIT 那样支撑精细化的声学特征研究，模型优化缺乏基础数据支撑。

正在推进大型哈萨克语语料库建设项目

2. 语音识别系统

Kaldi

Kaldi 是 C++ 编写的开源语音识别工具，兼具高性能（速度快）和全功能（覆盖特征、模型、自适应全流程）；
- 核心依赖库：
  - OpenFst：提供有限状态变换器（FST）基础设施，是语音识别解码环节的核心（用于构建词典、语言模型的状态转移图）；
  - BLAS/LAPACK：线性代数库，支撑声学模型训练中的矩阵运算（如 DNN/GMM 的参数优化）。
其高度定制化的 HMM 拓扑和决策树设计，适配哈萨克语这类低资源语言的连续语音识别开发；
完善的文档和成熟的依赖库（OpenFst/BLAS/LAPACK）是其成为选型最优解的关键。

3. 语音及语言处理

DNN-HMM 混合系统的本质是 用 DNN 替代 GMM 来计算 HMM 的状态发射概率 ，而基于 Kaldi 的训练流程遵循 "从简单到复杂、从基础到优化" 的原则：先通过 GMM-HMM 完成状态对齐，再用 DNN 学习更精准的状态后验概率，最终实现比传统 GMM-HMM 更优的识别性能。

语言模型（Language Model, LM）的核心作用与跨语言设计差异

语言模型的核心任务是计算单词序列的出现概率，公式可表示为 P(w1,w2,...,wn)P(w_1,w_2,...,w_n)P(w1,w2,...,wn)，作用是在语音识别解码阶段，从多个可能的候选词序列中挑选出 "最符合语言习惯" 的结果。
语言特性决定模型复杂度
- 孤立语（如英语）：单词形态变化少，直接使用统计模型（如 N-gram）即可取得不错效果。N-gram 基于大量文本语料统计相邻 n 个单词的共现概率，实现简单且高效。
- 屈折语（如俄语）：单词存在丰富的词形变化（如名词变格、动词变位），同一个词根会衍生出数十种不同形式。仅用统计模型的问题在于：
  - 语料中难以覆盖所有词形，导致低频词形的概率估计不准；
  - 忽略了 "词根 - 词缀" 的语法规则，模型泛化能力差。
屈折语的解决方案：混合语言模型
- 纯统计模型的痛点：需要海量标注语料才能准确统计词序列概率，这对很多屈折语来说成本极高。
- 混合模型的优势：融合统计信息（N-gram）和语言规则信息（如形态学、句法规则），既利用语料的统计规律，又通过语法规则补全低频词形的概率，大幅提升模型在屈折语上的性能。
语言模型的作用层级是单词层面，负责约束 "哪些词序列是合理的"，与负责 "音素 - 单词" 映射的声学模型（AM）配合，共同完成语音识别。

词典的音素划分规则与哈萨克语音素体系

词典的音素编码功能

核心是：词典需要将语言模型中的每一个单词，拆解为最小的语音单元（音素）序列。例如哈萨克语单词 ұстаушы 被拆解为音素序列 u s t a u sh y，这是语音识别中 "声学特征→音素→单词" 映射的关键桥梁。

音素的定义

最小语音单元：不能再拆分为更小的、有区别意义的语音片段；
辨义功能：本身无词汇 / 语法含义，但替换音素会改变单词意义。例如英语中 /p/ 和 /b/ 替换，会让 park 变成 bark。

哈萨克语的音素分类

元音音素：а, ә, о, ө, е, ы, і, ү, ұ（共 9 个，包含独特的前后元音区分，是阿尔泰语系的典型特征）；
辅音音素：б, г, ғ, д, ж, з, й, к, қ, л, м, н, ң, п, р, с, т, х, ш, у（共 20 个，包含浊辅音、清辅音和独特的腭化辅音）。

音素变体的处理规则

音素变体：同一音素在不同语境下的发音差异，例如单词 kitap 中的 /a/ 实际读作 /ә/，hatshy 中的 /h/ 读作 /ch/；
处理原则：这些变体不具备辨义功能，因此在语音识别的音素标注和建模中，统一归为同一个音素，无需单独建模（避免模型复杂度不必要的增加）。

数据

声学模型（Acoustic Model, AM）的核心设计

声学模型的本质功能功能

声学模型是实现连续语音识别的核心组件，其核心任务是：

定义声学建模单元（文中选择音素作为基本单元）；
将输入的语音特征向量序列（如 MFCC、fbank）映射为音素序列，完成 "声音→语音单元" 的转换。

音素的三状态建模方案

语音识别中经典的音素状态建模方法（与 HMM 结合）：

每个音素被拆分为 3 个状态：起始态（音素发音的起始阶段）、中间态（音素发音的稳定阶段）、结束态（音素发音的收尾阶段）；
状态转移约束：只能从 "起始态→中间态→结束态" 单向转移，禁止逆向转移（符合语音发音的时序性）；
状态时长灵活性：允许单个状态持续多帧特征（对应发音的延长，比如长元音的稳定阶段），保证模型对不同语速的适应性。

大词汇量系统的建模策略

大词汇量语音识别系统不直接对单词建模（单词数量太多，数据稀疏性问题严重），而是对音素建模------ 因为音素数量有限（如哈萨克语只有 29 个音素），能通过音素的组合覆盖所有单词，大幅降低模型训练难度。

语音数据采集与数据集划分

采集细节

划分数据集

词典数据库的构建流程

词典是连接声学模型（音素）和语言模型（单词）的关键桥梁，构建步骤如下：

文本预处理：将所有录制的句子文本合并为一个文件，删除重复单词，并按字母顺序排序；
音素转写：将每个单词音译为对应的音素序列（音译规则见表 1）；
词典生成：最终词典由 "单词 - 音素序列" 的一一对应关系构成（示例见图 3），无重复词条。

Kaldi 搭建哈萨克语语音识别系统的数据层 + 语言层核心配置

data文件夹通过结构化文件管理语音数据的元信息（音频 - 文本、音频 - 发音人映射），辅助文件自动生成降低手动成本；
data/lang文件夹基于语言模型构建，核心是lexicon.txt词典（2 万单词 + 音素转写）和音素分类文件；
语言模型采用 trigram+Kneser-Ney 平滑，适配哈萨克语的语料特点，保证单词序列概率估计的准确性。

5. 实验

词识别率（WRR）和词错误率（WER）

词识别率（WRR, Word Recognition Rate）：正确识别的单词数量占总单词数的百分比，公式为

WRR(%)=正确识别单词数总单词数×100%WRR(\%)=\frac{\text{正确识别单词数}}{\text{总单词数}}\times100\%WRR(%)=总单词数正确识别单词数×100%

词错误率（WER, Word Error Rate）：错误识别的单词数量占总单词数的百分比，是目前衡量 ASR 系统性能的主流指标

WER 成为主流指标的原因

随着语音技术的发展，ASR 系统的识别精度越来越高，WRR 会无限趋近于 100%，此时 WRR 的微小提升很难体现模型的优化效果；而 WER 趋近于 0，其数值的下降（如从 5% 降到 3%）能更直观、更显著地反映模型性能的进步。同时，WER 支持绝对数值对比（单系统性能）和相对数值对比（多系统性能横向比较），适用性更强。

WER 的核心原理和计算公式

计算的核心步骤：动态规划 + 莱文斯坦距离（Levenshtein Distance）

对比对象：识别结果文本（模型输出）和参考文本（真实发音内容）；
核心算法：动态规划------ 用于高效计算两个文本序列的最优对齐；
距离定义：莱文斯坦距离------ 将识别文本转换为参考文本所需的最少编辑操作次数，编辑操作仅包含 3 种：
- 替换（S, Substitution）：识别文本中的单词被错误替换为另一个单词（如把 "apple" 识别成 "apply"）；
- 删除（D, Deletion）：参考文本中的单词在识别结果中缺失（如漏识别 "the"）；
- 插入（I, Insertion）：识别结果中出现了参考文本没有的单词（如多识别出 "a"）。

WER 计算公式为：

WER(%)=S+D+IN×100%WER(\%)=\frac{S+D+I}{N}\times100\%WER(%)=NS+D+I×100%

符号说明：
- S：替换操作的次数；
- D：删除操作的次数；
- I：插入操作的次数；
- N：参考文本的总单词数（注意不是识别文本的单词数，这是计算的关键前提）。
示例：参考文本为 "this is a test"（4 个单词），识别文本为 "this is test"，则 D=1D=1D=1，S=0S=0S=0，I=0I=0I=0，WER=14×100%=25%WER=\frac{1}{4}\times100\%=25\%WER=41×100%=25%。

哈萨克语语音识别系统的实验流程与核心结果

实验整体流程：从基础模型到优化模型的 WER 迭代

实验遵循 "单音子模型→三音子模型→DNN 混合模型" 的递进优化思路

DNN 的训练细节（基于 CUDA GPU 加速）

DNN 训练分为预训练（RBM）+ 微调（Backpropagation）两阶段，符合深度神经网络的经典训练策略（避免随机初始化导致的梯度消失）：

第一阶段：RBM 预训练（无监督初始化）

核心算法：对比散度（Contrastive Divergence, CD），结合马尔可夫链的蒙特卡洛 1 步采样（简化计算，提升训练效率）；
输入特征：与 GMM-HMM 一致（MFCC + 能量 + 一阶 / 二阶差分特征），保证特征体系统一；
RBM 单元类型：
- 第一层 RBM：高斯 - 伯努利单元（Gauss-Bernoulli），适配连续值的声学特征；
- 其他 RBM：伯努利 - 伯努利单元（Bernoulli-Bernoulli），适配离散化的隐藏层输出；
训练参数：
- 初始学习率：第一层 0.01，其他层 0.4（分层调整学习率，适配不同单元特性）；
- 迭代次数：3 次；
- 隐藏层数量：最多 6 层；
- 每层单元数：最多 2048 个；
- 训练方式：无监控训练（纯无监督，仅学习特征分布）。

2. 第二阶段：DNN 微调（有监督优化）

数据划分：90% 训练数据用于参数更新，10% 用于验证（避免过拟合）；
初始化方式：将预训练的 RBM 折叠为 DNN 的初始权重（比随机初始化收敛更快、效果更好）；
损失函数：交叉熵（Cross-Entropy），目标是将单帧特征分类到三音子状态；
优化器：小批量随机梯度下降（Mini-batch SGD）+ 误差反向传播（Backpropagation）；
防过拟合策略：
- 交叉验证集监控目标函数；
- 早停准则（Early Stop）：当验证集性能不再提升时停止训练，避免模型过拟合。

关键结果与核心结论

模型优化效果：从单音子模型（WER≈62%）到最优 DNN 模型（WER=31.78%），WER 下降约 49%，优化效果显著；
关键优化手段：
- GMM-HMM 阶段：SAT（说话人自适应）是降 WER 最明显的手段（测试集降 4.14%）；
- DNN 阶段：RBM 预训练 + 早停策略保证了模型的泛化能力，6 层隐藏层是最优结构；
实验细节：所有 DNN 训练基于单块 CUDA GPU 完成，Modified Karel 配置是 Kaldi 中针对 DNN-HMM 的经典配置，保证了实验的可复现性。