摘要

在这篇论文中，我们考虑了一种新颖的M元顺序假设检验问题，其中存在一个对手，在决策者观察样本之前扰动样本的分布。这个问题被构建成一个顺序对抗假设检验博弈，由决策者和对手之间进行。这个博弈是一个零和博弈和战略博弈。我们假设对手在所有假设下都是活跃的，并且知道观察样本的潜在分布。我们采用这个框架，因为从决策者的角度来看，这是最坏的情况。决策者的目标是最小化停止时间的期望，以确保测试尽可能有效；相反，对手的目标是最大化停止时间。我们推导出了一对策略，在这些策略下，博弈的渐近纳什均衡被实现。我们还考虑了对手不知道潜在假设的情况，因此被限制为在哪种假设生效时应用相同的策略。数值结果证实了我们的理论发现。

I. INTRODUCTION

假设检验是统计学和信息论中的一个基本问题。有许多著作为假设检验的基本限制奠定了坚实的理论基础。在本文中，我们考虑了一种新的情况，即存在一个对手，它故意采取恶意行为，导致决策者实施的顺序检验失败。在这里，我们考虑的是对抗性顺序情况，因为很多时候，收集样本的成本很高，所以决策者应该尽量减少样本数量，以做出准确的决策，而对抗者的目标是尽量增加样本数量。我们将这种新的情况称为对抗性顺序假设检验博弈。

我们考虑这种情况的动机是互联网和通信网络中的恶意攻击，以及现代机器学习算法的安全性和可信性问题。在过去的几十年里，人们对这些问题进行了广泛的研究。互联网网络通常面临着包括网络威胁在内的多种漏洞。网络威胁在网络上的传播可被视为对手的恶意行为。防御者试图通过采取适当的应对措施来减轻威胁。因此，防御网络中的网络威胁可以表述为对手和防御者之间的博弈。此外，众所周知，机器学习算法也极易受到对抗性扰动的影响。例如，在图像分类问题中，可能存在对分类任务性能产生不利影响的对抗样本。对手可能会对不同类别的图像采取不同的攻击策略。在这种情况下，即使在对手的扰动下，学习测试图像的真实类别也非常重要。在这些例子中，当观测样本的分布已知时，我们可以将这一问题置于博弈论框架下，将其表述为决策者与对手之间的假设检验博弈。

II. PRELIMINARIES

A. M-Ary Sequential Hypothesis Testing

对于 n ≥ 1，我们将分布 Pi 和 Pj 的对数似然比定义为

对于一个阈值或边界矩阵B = [ <math xmlns="http://www.w3.org/1998/Math/MathML"> B i j B_{ij} </math>Bij]，其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> B i j B_{ij} </math>Bij > 0且 <math xmlns="http://www.w3.org/1998/Math/MathML"> B i i B_{ii} </math>Bii = 0，定义基于（M + 1）M/2个单侧SPRTs（顺序假设检验）之间的假设 <math xmlns="http://www.w3.org/1998/Math/MathML"> H i H_i </math>Hi和 <math xmlns="http://www.w3.org/1998/Math/MathML"> H j H_j </math>Hj的MSPRT <math xmlns="http://www.w3.org/1998/Math/MathML"> δ M ∗ = ( T M ∗ , d M ∗ ) \delta_{M}^{*}=(T_{M}^{*},d_{M}^{*}) </math>δM∗=(TM∗,dM∗)如下：停止规则是

对于所有检验 <math xmlns="http://www.w3.org/1998/Math/MathML"> δ M = ( T M , d M ) \delta_{M}=(T_{M},d_{M}) </math>δM=(TM,dM) 且所有误差概率的上界均为 <math xmlns="http://www.w3.org/1998/Math/MathML"> α m a x ∈ ( 0 , 1 ) α_{max} ∈ (0, 1) </math>αmax∈(0,1)，我们有

<math xmlns="http://www.w3.org/1998/Math/MathML"> T M ∗ T_{M}^{*} </math>TM∗是停止时间

B. Two Player Games

一个双人博弈被定义为一个四元组 (S1, S2, u1, u2)，其中 S1 和 S2 是第一和第二玩家可以选择的策略（行动）的集合，而 ui(s1, s2)（其中 s1 ∈ S1 且 s2 ∈ S2）是当第一玩家选择策略 s1 ∈ S1 而第二玩家选择 s2 ∈ S2 时，对于玩家 i ∈ {1, 2} 的收益（即，利益）。一个策略对 (s1, s2) 被称为一个配置(profile)。在零和博弈中，两个收益之和等于0，即，对于所有 (s1, s2) ∈ S1 × S2，有 u1(s1, s2) + u2(s1, s2) = 0。换句话说，一个玩家的收益等于另一个玩家的损失。我们定义零和博弈的收益函数为 u = u1 = −u2。战略博弈是一个互动模型，在这个模型中，每个玩家在未被告知另一个玩家行动的情况下选择一个行动。我们可以将玩家的行动看作是"同时"进行的。一个常见的目标是获得零和战略博弈的纳什均衡，其定义如下。如果一个配置 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( s 1 ∗ , s 2 ∗ ) (s^∗_1, s^∗_2) </math>(s1∗,s2∗) 满足以下条件，那么它是一个纳什均衡：

换句话说，如果没有一方可以通过单方面改变策略来增加自己的收益，那么这个profile就是纳什均衡。

PROBLEM FORMULATION

我们给出对手意识情况下 Mary SEQuential 对抗假设检验问题的正式定义。我们将这个问题命名为 MSEQ-AHT <math xmlns="http://www.w3.org/1998/Math/MathML"> ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) </math>(SD(α),SA(Δ),uλ(α))。

其中， <math xmlns="http://www.w3.org/1998/Math/MathML"> λ = ( λ 1 , ... , λ M ) \lambda=(\lambda_{1},\ldots,\lambda_{M}) </math>λ=(λ1,...,λM) 是一个具有正元素（权重）的向量，反映了所有 i∈[M] 的预期停止时间 <math xmlns="http://www.w3.org/1998/Math/MathML"> E i [ T ] \mathbb{E}_i[T] </math>Ei[T] 的相对重要性。

在 MSEQ-AHT <math xmlns="http://www.w3.org/1998/Math/MathML"> ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) </math>(SD(α),SA(Δ),uλ(α)) 的定义中，对手的策略集由满足失真约束条件的所有过渡矩阵组成。决策制定者的策略集由误差概率上界为共同 α 的所有测试组成。报酬是误差概率 αi,i∈ [M] 的误差指数的线性组合，决策制定者追求报酬最大化，以提高检测的准确性和效率（使用最少的样本），而敌方则追求报酬最小化。对于 MSEQ-AHT <math xmlns="http://www.w3.org/1998/Math/MathML"> ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) </math>(SD(α),SA(Δ),uλ(α))，我们的目标是获得一个配置文件 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( Φ ∗ , A ∗ ) (\Phi^{*},\mathbb{A}^{*}) </math>(Φ∗,A∗)，当 <math xmlns="http://www.w3.org/1998/Math/MathML"> α α </math>α 趋近于零时达到渐进纳什均衡，其形式定义如下

MAIN RESULTS

在阐述有关渐近纳什均衡的主要定理之前，我们首先解释一下 <math xmlns="http://www.w3.org/1998/Math/MathML"> Φ ∗ \Phi^{*} </math>Φ∗ 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> A ∗ ) \mathbb{A}^{*}) </math>A∗) 的选择，它们分别作为决策者和对手的拟议策略。我们注意到，∗ 让人联想到复合环境中的霍夫定检验，即我们比较经验分布和生成分布的 KL 发散的最小值与临界值。对于对手的策略，在 (6) 中选择 <math xmlns="http://www.w3.org/1998/Math/MathML"> A i ∗ A^∗_i </math>Ai∗ 背后的直觉是，对手选择 <math xmlns="http://www.w3.org/1998/Math/MathML"> A \mathbb{A} </math>A 中的扰动矩阵是为了迫使任意两个假设之间的分布尽可能接近。这种接近是用 KL 发散来衡量的，以 "匹配 "决策者的策略

定理一

引理 1 ：如果 <math xmlns="http://www.w3.org/1998/Math/MathML"> Y 1 , Y 2 , ... , Y n Y_{1},Y_{2},\ldots,Y_{n} </math>Y1,Y2,...,Yn 是根据字母表 <math xmlns="http://www.w3.org/1998/Math/MathML"> X \mathcal{X} </math>X 上的分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> Q \mathcal{Q} </math>Q 独立同分布生成的，那么对于任意 <math xmlns="http://www.w3.org/1998/Math/MathML"> ϵ > 0 \epsilon>0 </math>ϵ>0，我们有

引理2

引理3

引理 4 ：对于所有的 <math xmlns="http://www.w3.org/1998/Math/MathML"> i ∈ [ M ] i\in[M] </math>i∈[M]，当 <math xmlns="http://www.w3.org/1998/Math/MathML"> α ↓ 0. \alpha\downarrow0. </math>α↓0. 时，满足由 <math xmlns="http://www.w3.org/1998/Math/MathML"> A ~ i ∈ A i \tilde{\mathbf{A}}i\in\mathcal{A}i </math>A~i∈Ai 索引的实数集合 <math xmlns="http://www.w3.org/1998/Math/MathML"> { E i [ T ∗ ] log ⁡ ( 1 / α ) } 0 < α ≤ 1 \{\frac{\mathbb{E}{i}[T^{*}]}{\log(1/\alpha)}\}{0<\alpha\leq1} </math>{log(1/α)Ei[T∗]}0<α≤1 一致收敛于 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( min ⁡ j ≠ i min ⁡ A j ∈ A j D ( P i A i ~ ∥ P j A j ) ) (\min_{j\neq i}\min_{\mathbf{A}_j\in\mathcal{A}_j}D(P_i\tilde{\mathbf{A}_i}\|P_j\mathbf{A}_j)) </math>(minj=iminAj∈AjD(PiAi~∥PjAj))。

将上述三部分结合起来，就完成了定理 1 的证明

V. RESULTS ON THE ADVERSARY NON-AWARENESS SETTING

在本节中，我们将考虑对手不知道观测样本基本分布的情况。在这种情况下，参照图 1，对手只能对所有假设应用共同的扰动机制 A。

我们将 <math xmlns="http://www.w3.org/1998/Math/MathML"> i ∈ [ M ] i\in[M] </math>i∈[M] 时 <math xmlns="http://www.w3.org/1998/Math/MathML"> H i H_i </math>Hi 条件下的停止时间期望定义为 <math xmlns="http://www.w3.org/1998/Math/MathML"> E i [ τ ] \mathbb{E}i[\tau] </math>Ei[τ]，（非感知）测试是一对 <math xmlns="http://www.w3.org/1998/Math/MathML"> Φ N A = \Phi{\mathrm{NA}}= </math>ΦNA= <math xmlns="http://www.w3.org/1998/Math/MathML"> ( τ , δ N A ) (\tau,\delta_\mathrm{NA}) </math>(τ,δNA) （其中 NA 代表非感知）。我们还将对手和决策者的策略集分别定义为

决策者的报酬函数为

命题1 :如果 <math xmlns="http://www.w3.org/1998/Math/MathML"> S A ( Δ ) \mathcal{S}_{\mathrm{A}}(\Delta) </math>SA(Δ)是紧集，则对于任意 <math xmlns="http://www.w3.org/1998/Math/MathML"> λ > 0 λ > 0 </math>λ>0，我们都有

我们观察到对手可以选择最小化决策者可实现边界的策略，即:

使用这个策略，我们观察到

这意味着与第四节中研究的对手意识案例相比，决策者至少可以获得同样好的性能(就错误指数而言)。

在命题2中，我们陈述了一个对任何一对策略都成立的逆界。

命题2 :对于任意检验 <math xmlns="http://www.w3.org/1998/Math/MathML"> Φ N A ∈ S ^ D ( α ) \Phi_{\mathrm{NA}}\in\hat{\mathcal{S}}{\mathrm{D}}(\alpha) </math>ΦNA∈S^D(α)和任意 <math xmlns="http://www.w3.org/1998/Math/MathML"> A ~ ∈ S ^ A ( Δ ) \tilde{\mathbf{A}}\in\hat{\mathcal{S}}{\mathrm{A}}(\Delta) </math>A~∈S^A(Δ)，我们有

Asymptotic Nash Equilibrium for the M-Ary Sequential Adversarial Hypothesis Test

摘要