语音识别学习笔记

目录

开源的语音识别项目

端到端的多说话人语音识别序列化训练方法简介

[新一代 Kaldi: Two-pass 实时语音识别](#新一代 Kaldi: Two-pass 实时语音识别)


开源的语音识别项目

有哪些语音识别的开源项目? - 知乎

端到端的多说话人语音识别序列化训练方法简介

端到端的多说话人语音识别序列化训练方法简介 - 知乎

2.2 基于排列不变性训练Permutation Invariant Training (PIT)的多说话人语音识别

所谓排列不变性训练是在AED的基础之上,添加多个output分支(通常支持几个人就有几个分支),文本序列和输出序列经过排列组合,两两计算损失,如图1(b)所示。

2.3 基于SOT的多说话人语音识别

SOT方法网络结构与AED完全相同,只有一个output分支,不同的是标签序列化方式。SOT引入了一个新标签speaker change<sc>,用于标记上下文中说话人的改变,如图1(c,d)所示,标签的生成可以简单的以说话人出现的顺序作为依据,依次序列化,碰到说话人切换就添加一个<sc>特殊标签,损失依然采用交叉熵。这样一个output就能输出多个说话人识别结果,实现简单,效果提升明显。

新一代 Kaldi: Two-pass 实时语音识别

2nd-pass: 使用一个非流式模型。当 1st-pass 检测到一个 endpoint 之后,把上一个 segment 的音频送给非流式模型解码,然后把结果做为这个 segment 最终的结果.

Two-pass 既可以结合流式模型延迟小的优点,又可以利用非流式模型识别率高的优点。

新一代 Kaldi: Two-pass 实时语音识别 - 知乎

相关推荐
p666666666831 分钟前
STM32-bootloader引导程序跳转机制笔记
笔记·stm32·嵌入式硬件
Fantasydg1 小时前
Servlet学习
学习·servlet
雍凉明月夜1 小时前
Ⅰ人工智能学习的核心概念概述+线性回归(1)
人工智能·学习
智者知已应修善业1 小时前
【c语言蓝桥杯计算卡片题】2023-2-12
c语言·c++·经验分享·笔记·算法·蓝桥杯
2301_783360132 小时前
R语言 | 带重要性相关热图和贡献图如何解释?如何绘制随机森林计算结果重要性及相关性图?[学习笔记]
学习·随机森林·r语言
潲爺2 小时前
Java IDEA学习之路:第九周课程笔记归纳
java·学习·intellij-idea
石像鬼₧魂石2 小时前
192.168.1.4(Windows 靶机)渗透测试练习全流程(详细步骤)
windows·学习
GLAB-Mary3 小时前
HCIE最优规划路线:如何系统性学习华为认证?
学习·华为·华为认证·hcie·数通
月下倩影时3 小时前
视觉学习——卷积与神经网络:从原理到应用(量大管饱)
人工智能·神经网络·学习
长空任鸟飞_阿康3 小时前
AI 多模态全栈应用项目描述
前端·vue.js·人工智能·node.js·语音识别