语音识别学习笔记

目录

开源的语音识别项目

端到端的多说话人语音识别序列化训练方法简介

[新一代 Kaldi: Two-pass 实时语音识别](#新一代 Kaldi: Two-pass 实时语音识别)


开源的语音识别项目

有哪些语音识别的开源项目? - 知乎

端到端的多说话人语音识别序列化训练方法简介

端到端的多说话人语音识别序列化训练方法简介 - 知乎

2.2 基于排列不变性训练Permutation Invariant Training (PIT)的多说话人语音识别

所谓排列不变性训练是在AED的基础之上,添加多个output分支(通常支持几个人就有几个分支),文本序列和输出序列经过排列组合,两两计算损失,如图1(b)所示。

2.3 基于SOT的多说话人语音识别

SOT方法网络结构与AED完全相同,只有一个output分支,不同的是标签序列化方式。SOT引入了一个新标签speaker change<sc>,用于标记上下文中说话人的改变,如图1(c,d)所示,标签的生成可以简单的以说话人出现的顺序作为依据,依次序列化,碰到说话人切换就添加一个<sc>特殊标签,损失依然采用交叉熵。这样一个output就能输出多个说话人识别结果,实现简单,效果提升明显。

新一代 Kaldi: Two-pass 实时语音识别

2nd-pass: 使用一个非流式模型。当 1st-pass 检测到一个 endpoint 之后,把上一个 segment 的音频送给非流式模型解码,然后把结果做为这个 segment 最终的结果.

Two-pass 既可以结合流式模型延迟小的优点,又可以利用非流式模型识别率高的优点。

新一代 Kaldi: Two-pass 实时语音识别 - 知乎

相关推荐
刘大浪1 小时前
uniapp 小程序 学习(一)
学习·小程序·uni-app
嵌入式@秋刀鱼1 小时前
《第四章-筋骨淬炼》 C++修炼生涯笔记(基础篇)数组与函数
开发语言·数据结构·c++·笔记·算法·链表·visual studio code
嵌入式@秋刀鱼2 小时前
《第五章-心法进阶》 C++修炼生涯笔记(基础篇)指针与结构体⭐⭐⭐⭐⭐
c语言·开发语言·数据结构·c++·笔记·算法·visual studio code
m0_678693332 小时前
深度学习笔记26-天气预测(Tensorflow)
笔记·深度学习·tensorflow
桂?2 小时前
使用离线依赖解决Android Studio编译报错(下载不了jar)——笔记
笔记·android studio·jar
正儿八经的数字经2 小时前
人工智能100问☞第46问:AI是如何“学习”的?
人工智能·学习
xiaohanbao092 小时前
day54 python对抗生成网络
网络·python·深度学习·学习
EQ-雪梨蛋花汤3 小时前
【Unity笔记】Unity Animation组件使用详解:Play方法重载与动画播放控制
笔记·unity·游戏引擎
scdifsn3 小时前
动手学深度学习13.3. 目标检测和边界框-笔记&练习(PyTorch)
笔记·深度学习·目标检测·目标识别·标注边界框
霸王蟹4 小时前
前端项目Excel数据导出同时出现中英文表头错乱情况解决方案。
笔记·学习·typescript·excel·vue3·react·vite