Asymptotic Nash Equilibrium for the M-Ary Sequential Adversarial Hypothesis Test

摘要

在这篇论文中,我们考虑了一种新颖的M元顺序假设检验问题,其中存在一个对手,在决策者观察样本之前扰动样本的分布。这个问题被构建成一个顺序对抗假设检验博弈,由决策者和对手之间进行。这个博弈是一个零和博弈和战略博弈。我们假设对手在所有假设下都是活跃的,并且知道观察样本的潜在分布。我们采用这个框架,因为从决策者的角度来看,这是最坏的情况。决策者的目标是最小化停止时间的期望,以确保测试尽可能有效;相反,对手的目标是最大化停止时间。我们推导出了一对策略,在这些策略下,博弈的渐近纳什均衡被实现。我们还考虑了对手不知道潜在假设的情况,因此被限制为在哪种假设生效时应用相同的策略。数值结果证实了我们的理论发现。

I. INTRODUCTION

假设检验是统计学和信息论中的一个基本问题。有许多著作为假设检验的基本限制奠定了坚实的理论基础。在本文中,我们考虑了一种新的情况,即存在一个对手,它故意采取恶意行为,导致决策者实施的顺序检验失败。在这里,我们考虑的是对抗性顺序情况,因为很多时候,收集样本的成本很高,所以决策者应该尽量减少样本数量,以做出准确的决策,而对抗者的目标是尽量增加样本数量。我们将这种新的情况称为对抗性顺序假设检验博弈。

我们考虑这种情况的动机是互联网和通信网络中的恶意攻击,以及现代机器学习算法的安全性和可信性问题。在过去的几十年里,人们对这些问题进行了广泛的研究。互联网网络通常面临着包括网络威胁在内的多种漏洞。网络威胁在网络上的传播可被视为对手的恶意行为。防御者试图通过采取适当的应对措施来减轻威胁。因此,防御网络中的网络威胁可以表述为对手和防御者之间的博弈 。此外,众所周知,机器学习算法也极易受到对抗性扰动的影响 。例如,在图像分类问题中,可能存在对分类任务性能产生不利影响的对抗样本。对手可能会对不同类别的图像采取不同的攻击策略。在这种情况下,即使在对手的扰动下,学习测试图像的真实类别也非常重要。在这些例子中,当观测样本的分布已知时,我们可以将这一问题置于博弈论框架下,将其表述为决策者与对手之间的假设检验博弈。

II. PRELIMINARIES

A. M-Ary Sequential Hypothesis Testing

对于 n ≥ 1,我们将分布 Pi 和 Pj 的对数似然比定义为

对于一个阈值或边界矩阵B = B i j B_{ij} Bij,其中 B i j B_{ij} Bij > 0且 B i i B_{ii} Bii = 0,定义基于(M + 1)M/2个单侧SPRTs(顺序假设检验)之间的假设 H i H_i Hi和 H j H_j Hj的MSPRT δ M ∗ = ( T M ∗ , d M ∗ ) \delta_{M}^{*}=(T_{M}^{*},d_{M}^{*}) δM∗=(TM∗,dM∗)如下:停止规则是

对于所有检验 δ M = ( T M , d M ) \delta_{M}=(T_{M},d_{M}) δM=(TM,dM) 且所有误差概率的上界均为 α m a x ∈ ( 0 , 1 ) α_{max} ∈ (0, 1) αmax∈(0,1),我们有

,

T M ∗ T_{M}^{*} TM∗是停止时间

B. Two Player Games

一个双人博弈被定义为一个四元组 (S1, S2, u1, u2),其中 S1 和 S2 是第一和第二玩家可以选择的策略(行动)的集合,而 ui(s1, s2)(其中 s1 ∈ S1 且 s2 ∈ S2)是当第一玩家选择策略 s1 ∈ S1 而第二玩家选择 s2 ∈ S2 时,对于玩家 i ∈ {1, 2} 的收益(即,利益)。一个策略对 (s1, s2) 被称为一个配置(profile)。在零和博弈中,两个收益之和等于0,即,对于所有 (s1, s2) ∈ S1 × S2,有 u1(s1, s2) + u2(s1, s2) = 0。换句话说,一个玩家的收益等于另一个玩家的损失。我们定义零和博弈的收益函数为 u = u1 = −u2。战略博弈是一个互动模型,在这个模型中,每个玩家在未被告知另一个玩家行动的情况下选择一个行动。我们可以将玩家的行动看作是"同时"进行的。一个常见的目标是获得零和战略博弈的纳什均衡,其定义如下。如果一个配置 ( s 1 ∗ , s 2 ∗ ) (s^∗_1, s^∗_2) (s1∗,s2∗) 满足以下条件,那么它是一个纳什均衡:

换句话说,如果没有一方可以通过单方面改变策略来增加自己的收益,那么这个profile就是纳什均衡。

PROBLEM FORMULATION

我们给出对手意识情况下 Mary SEQuential 对抗假设检验问题的正式定义。我们将这个问题命名为 MSEQ-AHT ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) (SD(α),SA(Δ),uλ(α))。

其中, λ = ( λ 1 , ... , λ M ) \lambda=(\lambda_{1},\ldots,\lambda_{M}) λ=(λ1,...,λM) 是一个具有正元素(权重)的向量,反映了所有 i∈M 的预期停止时间 E i T \mathbb{E}_iT EiT 的相对重要性。

在 MSEQ-AHT ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) (SD(α),SA(Δ),uλ(α)) 的定义中,对手的策略集由满足失真约束条件的所有过渡矩阵组成。决策制定者的策略集由误差概率上界为共同 α 的所有测试组成。报酬是误差概率 αi,i∈ M 的误差指数的线性组合,决策制定者追求报酬最大化,以提高检测的准确性和效率(使用最少的样本),而敌方则追求报酬最小化。对于 MSEQ-AHT ( S D ( α ) , S A ( Δ ) , u λ ( α ) ) ({\mathcal S}{\mathrm{D}}(\alpha),{\mathcal S}{\mathrm{A}}(\Delta),u_{\lambda}^{(\alpha)}) (SD(α),SA(Δ),uλ(α)),我们的目标是获得一个配置文件 ( Φ ∗ , A ∗ ) (\Phi^{*},\mathbb{A}^{*}) (Φ∗,A∗),当 α α α 趋近于零时达到渐进纳什均衡,其形式定义如下

MAIN RESULTS

在阐述有关渐近纳什均衡的主要定理之前,我们首先解释一下 Φ ∗ \Phi^{*} Φ∗ 和 A ∗ ) \mathbb{A}^{*}) A∗) 的选择,它们分别作为决策者和对手的拟议策略。我们注意到,∗ 让人联想到复合环境中的霍夫定检验,即我们比较经验分布和生成分布的 KL 发散的最小值与临界值。对于对手的策略,在 (6) 中选择 A i ∗ A^∗_i Ai∗ 背后的直觉是,对手选择 A \mathbb{A} A 中的扰动矩阵是为了迫使任意两个假设之间的分布尽可能接近。这种接近是用 KL 发散来衡量的,以 "匹配 "决策者的策略

定理一

引理 1 :如果 Y 1 , Y 2 , ... , Y n Y_{1},Y_{2},\ldots,Y_{n} Y1,Y2,...,Yn 是根据字母表 X \mathcal{X} X 上的分布 Q \mathcal{Q} Q 独立同分布生成的,那么对于任意 ϵ > 0 \epsilon>0 ϵ>0,我们有

引理2

引理3

引理 4 :对于所有的 i ∈ M i\inM i∈M,当 α ↓ 0. \alpha\downarrow0. α↓0. 时,满足由 A ~ i ∈ A i \tilde{\mathbf{A}}i\in\mathcal{A}i A~i∈Ai 索引的实数集合 { E i T ∗ log ⁡ ( 1 / α ) } 0 < α ≤ 1 \{\frac{\mathbb{E}{i}T\^{\*}}{\log(1/\alpha)}\}{0<\alpha\leq1} {log(1/α)EiT∗}0<α≤1 一致收敛于 ( min ⁡ j ≠ i min ⁡ A j ∈ A j D ( P i A i ~ ∥ P j A j ) ) (\min_{j\neq i}\min_{\mathbf{A}_j\in\mathcal{A}_j}D(P_i\tilde{\mathbf{A}_i}\|P_j\mathbf{A}_j)) (minj=iminAj∈AjD(PiAi~∥PjAj))。

将上述三部分结合起来,就完成了定理 1 的证明

V. RESULTS ON THE ADVERSARY NON-AWARENESS SETTING

在本节中,我们将考虑对手不知道观测样本基本分布的情况。在这种情况下,参照图 1,对手只能对所有假设应用共同的扰动机制 A。

我们将 i ∈ M i\inM i∈M H i H_i Hi 条件下的停止时间期望定义为 E i τ \mathbb{E}i\\tau Eiτ,(非感知)测试是一对 Φ N A = \Phi{\mathrm{NA}}= ΦNA= ( τ , δ N A ) (\tau,\delta_\mathrm{NA}) (τ,δNA) (其中 NA 代表非感知)。我们还将对手和决策者的策略集分别定义为

决策者的报酬函数为

命题1 :如果 S A ( Δ ) \mathcal{S}_{\mathrm{A}}(\Delta) SA(Δ)是紧集,则对于任意 λ > 0 λ > 0 λ>0,我们都有

我们观察到对手可以选择最小化决策者可实现边界的策略,即:

使用这个策略,我们观察到

这意味着与第四节中研究的对手意识案例相比,决策者至少可以获得同样好的性能(就错误指数而言)。

在命题2中,我们陈述了一个对任何一对策略都成立的逆界。

命题2 :对于任意检验 Φ N A ∈ S ^ D ( α ) \Phi_{\mathrm{NA}}\in\hat{\mathcal{S}}{\mathrm{D}}(\alpha) ΦNA∈S^D(α)和任意 A ~ ∈ S ^ A ( Δ ) \tilde{\mathbf{A}}\in\hat{\mathcal{S}}{\mathrm{A}}(\Delta) A~∈S^A(Δ),我们有

相关推荐
通信小呆呆12 小时前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
benben04412 小时前
强化学习之DQN算法族(基于gymnasium开发)
算法
何以解忧,唯有..14 小时前
Go语言循环语句详解:for、range与循环控制
开发语言·算法·golang
想吃火锅100514 小时前
【leetcode】88.合并两个有序数组js
算法
生成论实验室15 小时前
机器人:一个自主运动的系统
人工智能·算法·语言模型·机器人·自动驾驶·agi·安全架构
Qres82115 小时前
算法复键——树状数组
数据结构·算法
H1785350909615 小时前
SolidWorks第四部分_直接实体建模特征9_替换面原理
线性代数·算法·机器学习·3d建模·solidworks
不会就选b15 小时前
算法日常・每日刷题--<二分查找>3
算法
绿算技术16 小时前
Mooncake 与绿算ForinnBase GroundPool如何联手打破推理僵局?
科技·算法·架构