【说话人日志】从固定输出到可变说话人数：EEND-EDA

论文：Encoder-Decoder Based Attractors for End-to-End Neural Diarization

简称：EEND-EDA

作者：Shota Horiguchi, Yusuke Fujita, Shinji Watanabe, Yawen Xue, Paola Garcia

时间：2021 arXiv v1，2022 期刊版整理

任务：Speaker Diarization，回答"谁在什么时候说话"

前言

本文拓展了 EEND，解决可变说话人数问题：推理前不知道录音里有多少个说话人。

原始 EEND 和 SA-EEND，有一个共同限制：它们可以很好地处理重叠说话，但它们的输出维度通常是固定的，模型在回答"这段音频里预设好的这几个 speaker 槽位谁在说话"，而不是回答"这段音频里到底有几个人，以及每个人何时在说话"。

一、EEND

1.1 EEND 的数学表达

给定一段音频提取出来的声学特征序列

x 1 , x 2 , ... , x T , x t ∈ R F , \mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_T, \quad \mathbf{x}_t \in \mathbb{R}^{F}, x1,x2,...,xT,xt∈RF,

EEND 要估计每一帧上每个 speaker 的说话状态。

假设有 S S S 个 speaker，那么第 t t t 帧的标签可以写成

y t = [ y 1 , t , y 2 , t , ... , y S , t ] ⊤ , \mathbf{y}t = [y{1,t}, y_{2,t}, \ldots, y_{S,t}]^{\top}, yt=[y1,t,y2,t,...,yS,t]⊤,

其中

y s , t = { 0 , speaker s 在 t 时刻不说话 , 1 , speaker s 在 t 时刻说话 . y_{s,t} = \begin{cases} 0, & \text{speaker } s \text{ 在 } t \text{ 时刻不说话}, \\ 1, & \text{speaker } s \text{ 在 } t \text{ 时刻说话}. \end{cases} ys,t={0,1,speaker s 在 t 时刻不说话,speaker s 在 t 时刻说话.

于是，speaker diarization 被改写成逐帧多标签分类。

论文采用的条件独立假设是：

P ( y 1 , ... , y T ∣ x 1 , ... , x T ) = ∏ t = 1 T ∏ s = 1 S P ( y s , t ∣ x 1 , ... , x T ) . P(\mathbf{y}_1, \ldots, \mathbf{y}T \mid \mathbf{x}1, \ldots, \mathbf{x}T) = \prod{t=1}^{T} \prod{s=1}^{S} P(y{s,t} \mid \mathbf{x}_1, \ldots, \mathbf{x}_T). P(y1,...,yT∣x1,...,xT)=t=1∏Ts=1∏SP(ys,t∣x1,...,xT).

于是网络输出可以写成

( p 1 , ... , p T ) = f E E N D ( x 1 , ... , x T ) , (\mathbf{p}_1, \ldots, \mathbf{p}T) = f{\mathrm{EEND}}(\mathbf{x}_1, \ldots, \mathbf{x}_T), (p1,...,pT)=fEEND(x1,...,xT),

其中

p t = [ p 1 , t , p 2 , t , ... , p S , t ] ⊤ ∈ ( 0 , 1 ) S . \mathbf{p}t = [p{1,t}, p_{2,t}, \ldots, p_{S,t}]^{\top} \in (0,1)^{S}. pt=[p1,t,p2,t,...,pS,t]⊤∈(0,1)S.

最终用阈值得到预测标签：

y ^ s , t = 1 ( p s , t > 0.5 ) . \hat{y}{s,t} = \mathbf{1}(p{s,t} > 0.5). y^s,t=1(ps,t>0.5).

EEND 不是先算 speaker embedding 再聚类，而是直接输出"每一帧谁在说话"的后验概率。

1.2 EEND 卡在固定说话人数

EEND 可以写成

f E E N D = h ∘ g , f_{\mathrm{EEND}} = h \circ g, fEEND=h∘g,

其中：

g g g 是 embedding part，把输入特征编码成 frame-wise embeddings
h h h 是 classification part，把 embeddings 映射成每一帧每个 speaker 的 posterior

embedding 部分可写成

e t ( 0 ) = x t , \mathbf{e}_t^{(0)} = \mathbf{x}_t, et(0)=xt,

( e 1 ( n ) , ... , e T ( n ) ) = g ( n ) ( e 1 ( n − 1 ) , ... , e T ( n − 1 ) ) , (\mathbf{e}_1^{(n)}, \ldots, \mathbf{e}_T^{(n)}) = g^{(n)}(\mathbf{e}_1^{(n-1)}, \ldots, \mathbf{e}_T^{(n-1)}), (e1(n),...,eT(n))=g(n)(e1(n−1),...,eT(n−1)),

最后一层输出记作

e t : = e t ( N ) . \mathbf{e}_t := \mathbf{e}_t^{(N)}. et:=et(N).

问题出在分类头：

这意味着模型被反复教的是：

第 1 个 attractor 有效
第 2 个 attractor 有效
第 3 个 attractor 有效
第 4 个 attractor 有效
第 5 个 attractor 应该停止

如果训练里从来没见过 5 人样本，那么模型从来没有被教过"第 5 个 attractor 也可能是有效的"。

也就是说：

对它来说，q_5 经常应该是 0
它会形成一个很强的偏置：4 个已经够了，第 5 个该停了

所以虽然结构允许继续往后解码，模型本身却没有学会如何稳定地产生第 5 个、第 6 个有效 attractor。也就是结构上灵活，经验上有限。

于是论文提出 iterative inference：

图 2 iterative inference

如图 2 所示，每次只解码一批 speaker，解码完之后，把这些 speaker 已经说话的帧去掉，再在剩下的"静音帧集合"里继续找后面的 speaker。

设当前还要处理的帧集合是 T \mathcal{T} T，第 n n n 轮解码为：

( p t ( n ) ) t ∈ T ← f E E N D ( ( x t ) t ∈ T ) , (\mathbf{p}t^{(n)}){t \in \mathcal{T}} \leftarrow f_{\mathrm{EEND}}\big((\mathbf{x}t){t \in \mathcal{T}}\big), (pt(n))t∈T←fEEND((xt)t∈T),

而不在集合里的帧直接补零：

p t ( n ) ← 0 , t ∈ { 1 , ... , T } ∖ T . \mathbf{p}_t^{(n)} \leftarrow \mathbf{0}, \quad t \in \{1,\ldots,T\} \setminus \mathcal{T}. pt(n)←0,t∈{1,...,T}∖T.

得到第 n n n 轮 diarization 结果后，只保留那些当前仍然没有 speaker 激活的帧：

T ← { t ∣ t ∈ T , ∥ y ^ t ( n ) ∥ 1 = 0 } . \mathcal{T} \leftarrow \{ t \mid t \in \mathcal{T}, \ \|\hat{\mathbf{y}}_t^{(n)}\|_1 = 0 \}. T←{t∣t∈T, ∥y^t(n)∥1=0}.

这样一轮一轮往下做，直到：

当前轮输出 speaker 数不足模型上限
或者剩余帧集合为空

iterative inference 有一个缺陷：

不同迭代轮次解出来的 speaker 之间，没法天然产生 overlap。

因为第二轮只看第一轮没人说话的帧，第一轮和第二轮的 speaker 自然不会重叠。

3.4.3 iterative inference+

为了缓解上面的问题，论文在 iterative inference 上又套了一层 DOVER-Lap。

做法是：

不只用一个固定的首轮 speaker 限制
而是令 S l i m i t = 1 , 2 , ... , S max ⁡ S_{\mathrm{limit}} = 1,2,\ldots,S_{\max} Slimit=1,2,...,Smax
跑出多组不同的 diarization 假设
最后用 DOVER-Lap 做 overlap-aware 的融合

四、实验结果

4.1 训练数据

4.1.1 模拟数据

论文用下面这些单说话人语料合成多说话人混合：

Switchboard-2
Switchboard Cellular
NIST SRE 2004/2005/2006/2008

然后按如下流程做模拟：

先随机选 N N N 个 speaker
每个 speaker 拼接自己的语音段和静音段
随机加房间脉冲响应
多路混合再加噪声

论文构造了 Sim1spk 到 Sim5spk 的训练/测试集。

其中 overlap ratio 通过静音间隔参数 β \beta β 控制。

4.1.2 真实数据

真实评测集包括：

CALLHOME
CSJ
AMI headset mix
DIHARD II
DIHARD III

这几个数据集覆盖了：

电话对话
日语对话
会议录音
多域困难场景

4.2 模型配置

论文中 EEND-EDA 的主要配置是：

4 层 Transformer encoder
每层 4 个 attention heads
embedding 维度 256
输入特征是 23 维 log Mel filterbank
再拼接前后 7 帧
最终每 100 ms 得到一个 345 维特征

在训练策略上：

先在模拟数据上预训练
再在目标真实数据集上做 adaptation

评测指标是 DER 和 JER。

4.3 固定两人、三人场景下，EEND-EDA 也更强

场景	SA-EEND	EEND-EDA（Chronol.）	EEND-EDA（Shuffled）	结论
Sim2spk (`β=2`)	4.56	3.07	2.69	两人模拟场景，EDA 明显优于 SA-EEND
CALLHOME-2spk	9.54	8.24	8.07	真实电话双人对话，EDA 依然更强
CSJ	20.48	18.89	16.27	跨语言、长录音条件下仍有优势
Sim3spk (`β=5`)	6.92	10.41	6.21	三人模拟场景下，Shuffled EDA 最好
CALLHOME-3spk	14.00	15.86	13.92	三人真实电话场景也略优于 SA-EEND

4.4 shuffled order 比 chronological order 更好

论文专门分析了 EDA 对输入顺序的敏感性：

训练顺序	整段-按时序测试	整段-打乱测试	子采样 `1/32`	仅保留最后 `1/32`
Chronological 训练	3.07	30.04	27.18	7.68
Shuffled 训练	2.69	2.69	5.08	10.65

这里的数据来自 Sim2spk (β=2)。

如果模型按时间顺序训练，它在"按时间顺序输入"时还行，但一旦换成 shuffled 输入，DER 直接飙到 30.04
而 shuffled 训练的模型，对 chronological 和 shuffled 测试都基本稳定在 2.69
在强子采样时，shuffled 训练也明显更稳

4.5 在未知说话人数训练里， L e x i s t L_{\mathrm{exist}} Lexist 不能全量回传

论文在 Sim1spk 到 Sim5spk 上做了逐步改进：

训练设置	训练 speaker 数	Epoch	`L_exist` 更新范围	Sim4spk DER	Sim5spk DER
原始 EEND-EDA 设定	`k∈{1,2,3,4}`	25	更新整个网络	13.76	N/A
改进 1	`k∈{1,2,3,4}`	25	只更新 existence head	10.12	23.08
改进 2	`k∈{1,2,3,4,5}`	25	只更新 existence head	10.75	13.70
改进 3	`k∈{1,2,3,4,5}`	50	只更新 existence head	9.97	11.95
SA-EEND（可变人数训练）	`k∈{1,2,3,4,5}`	50	不适用	12.24	17.42

两个结论：

第一， L e x i s t L_{\mathrm{exist}} Lexist 如果直接回传到整个网络，会干扰 diarization 主任务；只更新 existence head 更好
第二，EEND-EDA 虽然结构上支持可变人数，但经验上仍然受训练数据最大 speaker 数限制

4.6 在 CALLHOME 上，EEND-EDA 明显优于此前 EEND 变体

CALLHOME 交叉验证	最强 x-vector 系	SA-EEND	EEND-EDA	结论
不用外部 SAD	-	19.82	14.81	纯端到端条件下，EDA 明显优于 SA-EEND
TDNN-SAD	17.80	17.41	13.36	同一外部 SAD 下，EDA 明显更强
Oracle SAD	14.21	15.90	11.72	即使用 oracle SAD，EDA 仍然最好

论文最常被引用的 CALLHOME Part 2 对比。

CALLHOME Part 2	DER
SC-EEND	15.75
SAD-OD-fiert SC-EEND	15.32
EEND-EDA（旧版设定）	15.29
EEND-EDA（本文）	12.88

speaker counting:

方法	CALLHOME Part 2 说话人数计数准确率
x-vector + AHC	56.4%
x-vector + AHC + VBx	72.0%
SC-EEND	76.4%
EEND-EDA	84.4%

4.7 在 AMI 上，EEND-EDA 能泛化到长会议

AMI 是长会议录音，域差异明显。

AMI headset mix（Eval）	无外部 SAD DER	Oracle SAD DER	结论
SA-EEND	27.70	20.88	固定人数 EEND 基线
最强 x-vector 系（VBx）	-	18.99	强传统基线
EEND-EDA	21.56	15.80	无外部 SAD、Oracle SAD 下更强

EEND-EDA 对 30 分钟量级的长会议录音也能较好泛化

4.8 在 DIHARD 上，iterative inference+ 有帮助，但大人数仍然难

DIHARD 是更难的多域场景，表中指标是DER / JER 。

数据集	设置	Plain EEND-EDA	EEND-EDA + Iterative+	最强 x-vector 系	结论
DIHARD II	Oracle SAD	20.54 / 46.92	20.24 / 45.62	18.21 / N/A	Iterative+ 有帮助，但传统系统仍更强
DIHARD III Core	Oracle SAD	18.38 / 43.69	17.86 / 41.69	16.56 / 38.72	Core 条件下仍落后于最强 x-vector
DIHARD III Full	Oracle SAD	14.91 / 36.93	14.42 / 35.30	15.65 / 33.71	Full 条件下 EEND-EDA 在 DER 上反超
DIHARD III Full	无外部 SAD	21.55 / 41.15	20.69 / 39.07	21.48 / 37.83	Iterative+ 稳定提升，且 DER 已有竞争力

iterative inference+ 确实有效，尤其对 JER 更稳定
EEND-EDA 在 DIHARD III Full 这类更复杂、更长尾的场景里有竞争力
但在大人数、多域、超难场景上，它还没有完全超越强 x-vector/VBx 系统

五、局限与后续

大人数场景仍然困难，即使有 iterative inference，模型表现仍然会受到训练分布限制。
训练大人数模拟数据成本很高，想让 EEND-EDA 更好处理 6 人、8 人、10 人场景，就得构造更多人数模拟混合。
现在的 EDA 用的是 vanilla LSTM encoder-decoder，未来可以探索更强的 attention-based 结构。