摘要
在这篇论文中,我们考虑了一种新颖的M元顺序假设检验问题,其中存在一个对手,在决策者观察样本之前扰动样本的分布。这个问题被构建成一个顺序对抗假设检验博弈,由决策者和对手之间进行。这个博弈是一个零和博弈和战略博弈。我们假设对手在所有假设下都是活跃的,并且知道观察样本的潜在分布。我们采用这个框架,因为从决策者的角度来看,这是最坏的情况。决策者的目标是最小化停止时间的期望,以确保测试尽可能有效;相反,对手的目标是最大化停止时间。我们推导出了一对策略,在这些策略下,博弈的渐近纳什均衡被实现。我们还考虑了对手不知道潜在假设的情况,因此被限制为在哪种假设生效时应用相同的策略。数值结果证实了我们的理论发现。
I. INTRODUCTION
假设检验是统计学和信息论中的一个基本问题。有许多著作为假设检验的基本限制奠定了坚实的理论基础。在本文中,我们考虑了一种新的情况,即存在一个对手,它故意采取恶意行为,导致决策者实施的顺序检验失败。在这里,我们考虑的是对抗性顺序情况,因为很多时候,收集样本的成本很高,所以决策者应该尽量减少样本数量,以做出准确的决策,而对抗者的目标是尽量增加样本数量。我们将这种新的情况称为对抗性顺序假设检验博弈。
我们考虑这种情况的动机是互联网和通信网络中的恶意攻击,以及现代机器学习算法的安全性和可信性问题。在过去的几十年里,人们对这些问题进行了广泛的研究。互联网网络通常面临着包括网络威胁在内的多种漏洞。网络威胁在网络上的传播可被视为对手的恶意行为。防御者试图通过采取适当的应对措施来减轻威胁。因此,防御网络中的网络威胁可以表述为对手和防御者之间的博弈 。此外,众所周知,机器学习算法也极易受到对抗性扰动的影响 。例如,在图像分类问题中,可能存在对分类任务性能产生不利影响的对抗样本。对手可能会对不同类别的图像采取不同的攻击策略。在这种情况下,即使在对手的扰动下,学习测试图像的真实类别也非常重要。在这些例子中,当观测样本的分布已知时,我们可以将这一问题置于博弈论框架下,将其表述为决策者与对手之间的假设检验博弈。
II. PRELIMINARIES
A. M-Ary Sequential Hypothesis Testing
对于 n ≥ 1,我们将分布 Pi 和 Pj 的对数似然比定义为
对于一个阈值或边界矩阵B = [ <math xmlns="http://www.w3.org/1998/Math/MathML"> B i j B_{ij} </math>Bij],其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> B i j B_{ij} </math>Bij > 0且 <math xmlns="http://www.w3.org/1998/Math/MathML"> B i i B_{ii} </math>Bii = 0,定义基于(M + 1)M/2个单侧SPRTs(顺序假设检验)之间的假设 <math xmlns="http://www.w3.org/1998/Math/MathML"> H i H_i </math>Hi和 <math xmlns="http://www.w3.org/1998/Math/MathML"> H j H_j </math>Hj的MSPRT <math xmlns="http://www.w3.org/1998/Math/MathML"> δ M ∗ = ( T M ∗ , d M ∗ ) \delta_{M}^{*}=(T_{M}^{*},d_{M}^{*}) </math>δM∗=(TM∗,dM∗)如下:停止规则是
对于所有检验 <math xmlns="http://www.w3.org/1998/Math/MathML"> δ M = ( T M , d M ) \delta_{M}=(T_{M},d_{M}) </math>δM=(TM,dM) 且所有误差概率的上界均为 <math xmlns="http://www.w3.org/1998/Math/MathML"> α m a x ∈ ( 0 , 1 ) α_{max} ∈ (0, 1) </math>αmax∈(0,1),我们有
,
<math xmlns="http://www.w3.org/1998/Math/MathML"> T M ∗ T_{M}^{*} </math>TM∗是停止时间
B. Two Player Games
一个双人博弈被定义为一个四元组 (S1, S2, u1, u2),其中 S1 和 S2 是第一和第二玩家可以选择的策略(行动)的集合,而 ui(s1, s2)(其中 s1 ∈ S1 且 s2 ∈ S2)是当第一玩家选择策略 s1 ∈ S1 而第二玩家选择 s2 ∈ S2 时,对于玩家 i ∈ {1, 2} 的收益(即,利益)。一个策略对 (s1, s2) 被称为一个配置(profile)。在零和博弈中,两个收益之和等于0,即,对于所有 (s1, s2) ∈ S1 × S2,有 u1(s1, s2) + u2(s1, s2) = 0。换句话说,一个玩家的收益等于另一个玩家的损失。我们定义零和博弈的收益函数为 u = u1 = −u2。战略博弈是一个互动模型,在这个模型中,每个玩家在未被告知另一个玩家行动的情况下选择一个行动。我们可以将玩家的行动看作是"同时"进行的。一个常见的目标是获得零和战略博弈的纳什均衡,其定义如下。如果一个配置 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( s 1 ∗ , s 2 ∗ ) (s^∗_1, s^∗_2) </math>(s1∗,s2∗) 满足以下条件,那么它是一个纳什均衡:
换句话说,如果没有一方可以通过单方面改变策略来增加自己的收益,那么这个profile就是纳什均衡。
PROBLEM FORMULATION
我们给出对手意识情况下 Mary SEQuential 对抗假设检验问题的正式定义。我们将这个问题命名为 MSEQ-AHT <math xmlns="http://www.w3.org/1998/Math/MathML"> ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) </math>(SD(α),SA(Δ),uλ(α))。
其中, <math xmlns="http://www.w3.org/1998/Math/MathML"> λ = ( λ 1 , ... , λ M ) \lambda=(\lambda_{1},\ldots,\lambda_{M}) </math>λ=(λ1,...,λM) 是一个具有正元素(权重)的向量,反映了所有 i∈[M] 的预期停止时间 <math xmlns="http://www.w3.org/1998/Math/MathML"> E i [ T ] \mathbb{E}_i[T] </math>Ei[T] 的相对重要性。
在 MSEQ-AHT <math xmlns="http://www.w3.org/1998/Math/MathML"> ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) </math>(SD(α),SA(Δ),uλ(α)) 的定义中,对手的策略集由满足失真约束条件的所有过渡矩阵组成。决策制定者的策略集由误差概率上界为共同 α 的所有测试组成。报酬是误差概率 αi,i∈ [M] 的误差指数的线性组合,决策制定者追求报酬最大化,以提高检测的准确性和效率(使用最少的样本),而敌方则追求报酬最小化。对于 MSEQ-AHT <math xmlns="http://www.w3.org/1998/Math/MathML"> ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) </math>(SD(α),SA(Δ),uλ(α)),我们的目标是获得一个配置文件 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( Φ ∗ , A ∗ ) (\Phi^{*},\mathbb{A}^{*}) </math>(Φ∗,A∗),当 <math xmlns="http://www.w3.org/1998/Math/MathML"> α α </math>α 趋近于零时达到渐进纳什均衡,其形式定义如下
MAIN RESULTS
在阐述有关渐近纳什均衡的主要定理之前,我们首先解释一下 <math xmlns="http://www.w3.org/1998/Math/MathML"> Φ ∗ \Phi^{*} </math>Φ∗ 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> A ∗ ) \mathbb{A}^{*}) </math>A∗) 的选择,它们分别作为决策者和对手的拟议策略。我们注意到,∗ 让人联想到复合环境中的霍夫定检验,即我们比较经验分布和生成分布的 KL 发散的最小值与临界值。对于对手的策略,在 (6) 中选择 <math xmlns="http://www.w3.org/1998/Math/MathML"> A i ∗ A^∗_i </math>Ai∗ 背后的直觉是,对手选择 <math xmlns="http://www.w3.org/1998/Math/MathML"> A \mathbb{A} </math>A 中的扰动矩阵是为了迫使任意两个假设之间的分布尽可能接近。这种接近是用 KL 发散来衡量的,以 "匹配 "决策者的策略
定理一
引理 1 :如果 <math xmlns="http://www.w3.org/1998/Math/MathML"> Y 1 , Y 2 , ... , Y n Y_{1},Y_{2},\ldots,Y_{n} </math>Y1,Y2,...,Yn 是根据字母表 <math xmlns="http://www.w3.org/1998/Math/MathML"> X \mathcal{X} </math>X 上的分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> Q \mathcal{Q} </math>Q 独立同分布生成的,那么对于任意 <math xmlns="http://www.w3.org/1998/Math/MathML"> ϵ > 0 \epsilon>0 </math>ϵ>0,我们有
引理2
引理3
引理 4 :对于所有的 <math xmlns="http://www.w3.org/1998/Math/MathML"> i ∈ [ M ] i\in[M] </math>i∈[M],当 <math xmlns="http://www.w3.org/1998/Math/MathML"> α ↓ 0. \alpha\downarrow0. </math>α↓0. 时,满足由 <math xmlns="http://www.w3.org/1998/Math/MathML"> A ~ i ∈ A i \tilde{\mathbf{A}}i\in\mathcal{A}i </math>A~i∈Ai 索引的实数集合 <math xmlns="http://www.w3.org/1998/Math/MathML"> { E i [ T ∗ ] log ( 1 / α ) } 0 < α ≤ 1 \{\frac{\mathbb{E}{i}[T^{*}]}{\log(1/\alpha)}\}{0<\alpha\leq1} </math>{log(1/α)Ei[T∗]}0<α≤1 一致收敛于 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( min j ≠ i min A j ∈ A j D ( P i A i ~ ∥ P j A j ) ) (\min_{j\neq i}\min_{\mathbf{A}_j\in\mathcal{A}_j}D(P_i\tilde{\mathbf{A}_i}\|P_j\mathbf{A}_j)) </math>(minj=iminAj∈AjD(PiAi~∥PjAj))。
将上述三部分结合起来,就完成了定理 1 的证明
V. RESULTS ON THE ADVERSARY NON-AWARENESS SETTING
在本节中,我们将考虑对手不知道观测样本基本分布的情况。在这种情况下,参照图 1,对手只能对所有假设应用共同的扰动机制 A。
我们将 <math xmlns="http://www.w3.org/1998/Math/MathML"> i ∈ [ M ] i\in[M] </math>i∈[M] 时 <math xmlns="http://www.w3.org/1998/Math/MathML"> H i H_i </math>Hi 条件下的停止时间期望定义为 <math xmlns="http://www.w3.org/1998/Math/MathML"> E i [ τ ] \mathbb{E}i[\tau] </math>Ei[τ],(非感知)测试是一对 <math xmlns="http://www.w3.org/1998/Math/MathML"> Φ N A = \Phi{\mathrm{NA}}= </math>ΦNA= <math xmlns="http://www.w3.org/1998/Math/MathML"> ( τ , δ N A ) (\tau,\delta_\mathrm{NA}) </math>(τ,δNA) (其中 NA 代表非感知)。我们还将对手和决策者的策略集分别定义为
决策者的报酬函数为
命题1 :如果 <math xmlns="http://www.w3.org/1998/Math/MathML"> S A ( Δ ) \mathcal{S}_{\mathrm{A}}(\Delta) </math>SA(Δ)是紧集,则对于任意 <math xmlns="http://www.w3.org/1998/Math/MathML"> λ > 0 λ > 0 </math>λ>0,我们都有
我们观察到对手可以选择最小化决策者可实现边界的策略,即:
使用这个策略,我们观察到
这意味着与第四节中研究的对手意识案例相比,决策者至少可以获得同样好的性能(就错误指数而言)。
在命题2中,我们陈述了一个对任何一对策略都成立的逆界。
命题2 :对于任意检验 <math xmlns="http://www.w3.org/1998/Math/MathML"> Φ N A ∈ S ^ D ( α ) \Phi_{\mathrm{NA}}\in\hat{\mathcal{S}}{\mathrm{D}}(\alpha) </math>ΦNA∈S^D(α)和任意 <math xmlns="http://www.w3.org/1998/Math/MathML"> A ~ ∈ S ^ A ( Δ ) \tilde{\mathbf{A}}\in\hat{\mathcal{S}}{\mathrm{A}}(\Delta) </math>A~∈S^A(Δ),我们有