语音识别学习笔记

目录

开源的语音识别项目

端到端的多说话人语音识别序列化训练方法简介

[新一代 Kaldi: Two-pass 实时语音识别](#新一代 Kaldi: Two-pass 实时语音识别)


开源的语音识别项目

有哪些语音识别的开源项目? - 知乎

端到端的多说话人语音识别序列化训练方法简介

端到端的多说话人语音识别序列化训练方法简介 - 知乎

2.2 基于排列不变性训练Permutation Invariant Training (PIT)的多说话人语音识别

所谓排列不变性训练是在AED的基础之上,添加多个output分支(通常支持几个人就有几个分支),文本序列和输出序列经过排列组合,两两计算损失,如图1(b)所示。

2.3 基于SOT的多说话人语音识别

SOT方法网络结构与AED完全相同,只有一个output分支,不同的是标签序列化方式。SOT引入了一个新标签speaker change<sc>,用于标记上下文中说话人的改变,如图1(c,d)所示,标签的生成可以简单的以说话人出现的顺序作为依据,依次序列化,碰到说话人切换就添加一个<sc>特殊标签,损失依然采用交叉熵。这样一个output就能输出多个说话人识别结果,实现简单,效果提升明显。

新一代 Kaldi: Two-pass 实时语音识别

2nd-pass: 使用一个非流式模型。当 1st-pass 检测到一个 endpoint 之后,把上一个 segment 的音频送给非流式模型解码,然后把结果做为这个 segment 最终的结果.

Two-pass 既可以结合流式模型延迟小的优点,又可以利用非流式模型识别率高的优点。

新一代 Kaldi: Two-pass 实时语音识别 - 知乎

相关推荐
MY_TEUCK27 分钟前
Sealos 平台部署实战指南:结合 Cursor 与版本发布流程
java·人工智能·学习·aigc
handler012 小时前
Linux: 基本指令知识点(2)
linux·服务器·c语言·c++·笔记·学习
炽烈小老头3 小时前
【每天学习一点算法 2026/04/20】除自身以外数组的乘积
学习·算法
破浪前行·吴4 小时前
数据结构概述
数据结构·学习
.千余6 小时前
【Linux】基本指令3
linux·服务器·开发语言·学习
南境十里·墨染春水6 小时前
C++ 笔记 thread
java·开发语言·c++·笔记·学习
南境十里·墨染春水6 小时前
C++ 笔记 高级线程同步原语与线程池实现
java·开发语言·c++·笔记·学习
lkforce6 小时前
MiniMind学习笔记(二)--model_minimind.py
笔记·python·学习·minimind·minimindconfig
三品吉他手会点灯8 小时前
C语言学习笔记 - 1.C概述 - 本讲内容概述
c语言·笔记·学习
嵌入式小企鹅8 小时前
国产大模型与芯片加速融合,RISC-V生态多点开花,AI编程工具迈入自动化新纪元
人工智能·学习·ai·嵌入式·算力·risc-v·半导体