Intriguing properties of neural networks
- 摘要-Abstract
- 引言-Introduction
- 框架-Framework
-
- [ϕ ( x ) \phi(x) ϕ(x)的单元-Units of: ϕ ( x ) \phi(x) ϕ(x)](#ϕ ( x ) \phi(x) ϕ(x)的单元-Units of: ϕ ( x ) \phi(x) ϕ(x))
- [神经网络中的盲点-Blind Spots in Neural Networks](#神经网络中的盲点-Blind Spots in Neural Networks)
-
- [正式说明-Formal description](#正式说明-Formal description)
- [实验结果-Experimental results](#实验结果-Experimental results)
- [不稳定性的频谱分析-Spectral Analysis of Unstability](#不稳定性的频谱分析-Spectral Analysis of Unstability)
- 讨论-Discussion
本文 "Intriguing properties of neural networks" 揭示了深度神经网络中单个单元语义与随机线性组合难以区分以及网络对输入扰动高度敏感(存在对抗样本且具泛化性)这两个反直觉特性,挑战传统认知并为研究其稳定性和泛化性提供依据。
摘要-Abstract
Deep neural networks are highly expressive models that have recently achieved state of the art performance on speech and visual recognition tasks. While their expressiveness is the reason they succeed, it also causes them to learn uninterpretable solutions that could have counter-intuitive properties. In this paper we report two such properties.
First, we find that there is no distinction between individual high level units and random linear combinations of high level units, according to various methods of unit analysis. It suggests that it is the space, rather than the individual units, that contains the semantic information in the high layers of neural networks. Second, we find that deep neural networks learn input-output mappings that are fairly discontinuous to a significant extent. We can cause the network to misclassify an image by applying a certain hardly perceptible perturbation, which is found by maximizing the network's prediction error. In addition, the specific nature of these perturbations is not a random artifact of learning: the same perturbation can cause a different network, that was trained on a different subset of the dataset, to misclassify the same input.
深度神经网络是高度富有表现力的模型,最近在语音和视觉识别任务上取得了最先进的性能。虽然其表现力是它们成功的原因,但这也导致它们学习到难以解释的解决方案,这些方案可能具有反直觉的特性。在本文中,我们报告了两个这样的特性。
首先,根据各种单元分析方法,我们发现单个高层单元与高层单元的随机线性组合之间没有区别。这表明在神经网络的高层中,包含语义信息的是空间而非单个单元。 其次,我们发现深度神经网络学习到的输入 - 输出映射在很大程度上是相当不连续的。我们可以通过施加一种几乎难以察觉的扰动来使网络错误分类图像,这种扰动是通过最大化网络的预测误差找到的。 此外,这些扰动的具体性质不是学习的随机产物:相同的扰动可以导致在数据集不同子集上训练的不同网络对相同输入进行错误分类。
引言-Introduction
-
研究背景与问题提出
深度神经网络在视觉和语音识别任务中表现卓越,其成功源于强大的表达能力,能通过少量大规模并行非线性步骤表达任意计算。然而,这种自动发现的计算过程难以解释,可能存在反直觉特性。
-
研究目的与主要贡献
本文旨在探讨深度神经网络的两个反直觉特性。
一是关于单个单元的语义意义,传统观点认为最后特征层的单位可提取语义信息,但作者通过实验表明随机投影与自然基方向在语义上难以区分,质疑了神经网络跨坐标解耦变异因素的假设,提出激活的整个空间可能包含主要语义信息。
二是关于网络对输入扰动的稳定性,尽管期望网络对小扰动鲁棒,但实际发现对测试图像施加难以察觉的扰动可改变预测,这些对抗样本通过优化预测误差找到,且具有跨模型和跨训练集的泛化性,表明其并非随机产生,而是与数据分布相关的内在盲点,暗示网络具有非直观特性和内在缺陷,其结构与数据分布存在复杂联系。
框架-Framework
该部分通过明确符号定义、选定实验对象及相关实验设置,为后续研究神经网络的单元特性和盲点特性奠定了基础,使得整个研究在清晰的框架下进行,确保实验的可重复性和结果的有效性。
- 符号定义
- 用(x \in \mathbb{R}^{m})表示输入图像,(\phi(x))表示某层的激活值。首先检查(\phi(x))的图像性质,然后寻找其盲点。
- 实验对象
- MNIST数据集:
- 使用简单全连接网络(FC),包含一个或多个隐藏层和一个Softmax分类器。
- 基于自动编码器训练的分类器(AE)。
- ImageNet数据集:采用Krizhevsky等人的架构(AlexNet)。
- Youtube图像样本:使用来自Youtube的约1000万图像样本训练的具有约10亿可学习参数的无监督网络(QuocNet)。
- 实验设置
- 在MNIST实验中,使用正则化(权重衰减 λ \lambda λ)。有时将MNIST训练数据集分为两个不相交的数据集 P 1 P_1 P1 和 P 2 P_2 P2,每个数据集包含30000个训练样本。
ϕ ( x ) \phi(x) ϕ(x)的单元-Units of: ϕ ( x ) \phi(x) ϕ(x)
ϕ ( x ) \phi(x) ϕ(x) 指的是神经网络中某一层对于输入 x x x 的激活值。
具体含义:它代表了输入 x x x 经过神经网络的特定层处理后所得到的输出结果,这个输出结果反映了该层神经元对输入的响应程度或激活状态。例如,在一个多层神经网络中,当输入图像 x x x 进入某一层时,该层的神经元会根据其权重和输入进行计算,最终得到的激活值就是 ϕ ( x ) \phi(x) ϕ(x)。
- 传统与先前研究方法回顾
- 传统计算机视觉系统依赖特征提取,单个特征易解释,以往分析神经网络的工作也将隐藏单元激活视为有意义特征,通过寻找使单个特征激活值最大的输入图像来解释神经网络,即 x ′ = a r g m a x x ∈ I < ϕ ( x ) , e i > x'=\underset{x \in \mathcal{I}}{arg max }\left<\phi(x), e_{i}\right> x′=x∈Iargmax⟨ϕ(x),ei⟩,其中 I \mathcal{I} I 是未用于训练的图像集, e i e_{i} ei 是自然基向量。
自然基向量(natural basis vector)是与神经网络隐藏单元相关联的一种特殊向量,用于描述和分析隐藏单元的激活特性。
定义与计算方式:自然基向量通常是一个标准正交基向量组,每个向量对应于一个隐藏单元。对于第 i i i 个隐藏单元,其对应的自然基向量 e i e_{i} ei 在该单元位置为 1 1 1,其他位置为 0 0 0。在具体计算中,如在分析隐藏单元激活时,通过计算输入图像 x x x 与自然基向量 e i e_{i} ei 的内积 < ϕ ( x ) , e i > \left<\phi(x), e_{i}\right> ⟨ϕ(x),ei⟩,可以得到该隐藏单元对于特定输入的激活程度。这种计算方式使得在分析神经网络时,能够关注单个隐藏单元在不同输入下的激活变化,从而尝试理解每个单元所代表的特征或信息。
- 本文实验发现与观点提出
- 本文实验表明随机方向 v v v 也能使图像 x ′ x' x′( x ′ = a r g m a x x ∈ I < ϕ ( x ) , v > x'=\underset{x \in \mathcal{I}}{arg max }<\phi(x), v> x′=x∈Iargmax<ϕ(x),v>)在语义上相关,意味着自然基在检查 ϕ ( x ) \phi(x) ϕ(x) 属性上并不比随机基优越,质疑了神经网络跨坐标解耦变异因素的观点,推测激活的整个空间可能包含主要语义信息。
- 实验验证过程与结果展示
- 在MNIST数据集上用卷积神经网络训练,以MNIST测试集为 I \mathcal{I} I,实验发现无论是在自然基(图1 )还是随机基(图2)上最大化激活的图像都有高层相似性。
- 在ImageNet数据集的AlexNet上重复实验,用验证集作 I \mathcal{I} I,结果显示自然基和随机基下的图像行都具有语义意义(图3 、图4 )。但该分析方法对 ϕ ( x ) \phi(x) ϕ(x) 在输入分布其余域的行为解释有限,后续将探讨其在数据分布中几乎每个点邻域的反直觉属性。
图1:一个MNIST实验。该图展示了使各种单元激活最大化(在自然基方向上的最大刺激)的图像。每行内的图像具有语义属性。
a: 对下圆弧笔画敏感的单元.
b: 对上圆弧笔画或下直线笔画敏感的单元.
c: 对左、上圆弧笔画敏感的单元.
d: 对斜直线笔画敏感的单元.
图2:一个MNIST实验。该图展示了在随机方向上使激活值最大化的图像(在随机基下的最大刺激)。每行中的图像具有语义属性。
a: 对上部直线笔画或下部圆弧形笔画敏感的方向.
b: 对左下部环形笔画敏感的方向.
c: 对顶部圆弧形笔画敏感的方向.
d: 对右上部圆弧形笔画敏感的方向.
图3:在ImageNet上进行的实验。最大限度刺激单个单元的图像(在自然基方向上的最大刺激)。每行中的图像具有许多语义属性。
a: 对白色花朵敏感的单元.
b: 对姿势敏感的单元.
c: 对圆形、有刺花朵敏感的单元.
d: 对圆形绿色或黄色物体敏感的单元.
图4:在ImageNet上进行的实验。在随机方向上产生最大激活的图像(在随机基上的最大刺激)。每行中的图像具有许多语义属性。
a: 对白色、散开的花朵敏感的方向.
b: 对白色狗敏感的方向.
c: 对展开形状敏感的方向.
d: 对棕色头部的狗敏感的方向.
神经网络中的盲点-Blind Spots in Neural Networks
以往通过检查单元激活情况来分析神经网络的方法,在理解网络表示的复杂性方面作用有限。而全局的网络层面检查方法,能帮助解释模型的分类决策,例如通过定位输入中导致正确分类的部分(弱监督定位),有助于理解训练网络所代表的输入输出映射。神经网络输出层单元是输入的高度非线性函数,在使用交叉熵损失(Softmax 激活)训练时,表示给定输入(及训练集)的标签条件分布。深度神经网络中的非线性层被认为是对输入空间进行非局部泛化先验编码的方式,即输出单元能为输入空间中无训练样本的区域分配合理概率(如不同视角的相同对象),这隐含了局部泛化应正常工作的假设,即小扰动不应改变图像类别。
正式说明-Formal description
此部分主要对寻找对抗样本的优化问题进行了形式化定义。
将分类器记为 f : R m → { 1 , ... , k } f:\mathbb{R}^{m} \to \{1, \ldots, k\} f:Rm→{1,...,k},其相关连续损失函数为 l o s s f : R m × { 1 , ... , k } → R + loss_{f}:\mathbb{R}^{m} \times \{1, \ldots, k\} \to \mathbb{R}^{+} lossf:Rm×{1,...,k}→R+。对于给定图像 x ∈ R m x \in \mathbb{R}^{m} x∈Rm 和目标标签 l ∈ { 1 , ... , k } l \in \{1, \ldots, k\} l∈{1,...,k},旨在解决一个箱约束优化问题:在满足 f ( x + r ) = l f(x + r) = l f(x+r)=l 以及 x + r ∈ [ 0 , 1 ] m x + r \in [0, 1]^{m} x+r∈[0,1]m 的条件下,最小化 ∥ r ∥ 2 \|r\|_{2} ∥r∥2。
这里的 r r r 是对图像 x x x 的扰动, x + r x + r x+r 是被扰动后的图像,若 f ( x ) ≠ l f(x) \neq l f(x)=l,则该任务才有意义。由于精确计算该问题的解(记为 D ( x , l ) D(x, l) D(x,l))很困难,通常采用箱约束L - BFGS方法 近似求解。具体而言,通过执行线搜索找到最小的 c > 0 c>0 c>0,使得优化问题 c ∥ r ∥ + l o s s f ( x + r , l ) c\|r\| + loss_{f}(x + r, l) c∥r∥+lossf(x+r,l) 在 x + r ∈ [ 0 , 1 ] m x + r \in [0, 1]^{m} x+r∈[0,1]m 条件下的最小值 r r r 满足 f ( x + r ) = l f(x + r) = l f(x+r)=l,此时得到的 x + r x + r x+r 即为 D ( x , l ) D(x, l) D(x,l) 的近似值。这种惩罚函数方法在损失函数为凸函数时能得到精确解,但神经网络一般是非凸的,所以这里得到的是近似解。
实验结果-Experimental results
- 生成对抗样本的特性
- 针对所有研究的网络(MNIST、QuocNet、AlexNet),均成功生成了在视觉上与原始图像极为相似、难以区分,但会被原始网络错误分类的对抗样本。以AlexNet为例,如图5 所示,原始图像能被正确预测,而经过微小扰动后的对抗样本(如右侧图像)被误判为"ostrich, Struthio camelus",且平均失真仅为0.006508(基于64个样本)。QuocNet也有类似情况,在对汽车分类的实验中,原始可正确识别为汽车的图像,经过扰动后无法被识别,如图6所示。这些实验表明生成的对抗样本与原始图像在视觉上差异极小,但却能改变网络的预测结果。
图5:为AlexNet生成的对抗样本。(左)是一个被正确预测的样本,(中)正确图像与错误预测图像之间的差异放大10倍(值偏移128并截断),(右)对抗样本。右列中的所有图像都被预测为"鸵鸟,Struthio camelus"。基于64个样本的平均失真为0.006508。请访问http://goo.gl/huaGPb获取全分辨率图像。这些样本是严格随机选择的,不涉及任何后选操作。
图6:QuocNet的对抗样本。一个二分类汽车分类器在最后一层特征之上进行训练,未进行微调。左侧随机选择的样本被正确识别为汽车,而中间的图像未被识别。最右侧一列是两幅图像之间差异的放大绝对值。
- 跨模型泛化
- 在MNIST实验中,针对一个网络生成的对抗样本,用于测试其他不同超参数(如层数、正则化、初始权重)训练的网络。从表2结果来看,不同模型间存在较高比例的误分类情况。例如,FC10(10 - 4)模型生成的对抗样本在FC10(10 - 2)模型上有87.1%的误分类率,在FC10(1)模型上有71.9%的误分类率等。即使是基于自动编码器(AE400 - 10)的模型,虽对对抗样本相对更具抗性,但也并非完全免疫。这说明对抗样本具有一定的跨模型普遍性,并非只针对特定模型或训练集过度拟合的结果。
表1:对抗样本在MNIST上的泛化测试。
表2:对抗样本的跨模型泛化。表格各列展示了输入给定模型的扭曲样本所导致的误差。最后一列显示了相对于原始训练集的平均失真。
- 跨训练集泛化
- 将MNIST训练集划分为 P 1 P_{1} P1 和 P 2 P_{2} P2 两部分,分别训练不同网络(如FC100 - 100 - 10、FC123 - 456 - 10等)。在测试集上生成对抗样本后,用于测试在不同训练子集上训练的模型。从表4 结果可知,这些对抗样本对在不同训练集上训练的模型仍具有较高的错误率。如在 P 1 P_{1} P1 上训练的FC100 - 100 - 10模型生成的对抗样本,对在 P 2 P_{2} P2 上训练的FC100 - 100 - 10模型仍有5.9%的错误率;当放大扰动后,错误率进一步变化。这表明对抗样本在跨训练集的情况下依然有效,尽管其有效性有所下降。
表3:为研究生成的对抗样本的跨训练集泛化而训练的模型。表中呈现的误差对应于原始未失真数据,以提供基线。
表4:为不同模型生成的对抗样本集的跨训练集泛化错误率。对相同样本进行随机失真所导致的误差显示在最后一行。
- 训练方法改进
- 初步实验发现,将对抗样本混入训练集可提高MNIST网络的泛化能力。例如训练一个两层100 - 100 - 10非卷积神经网络,通过持续更新一个对抗样本池(随机子集不断被新生成的对抗样本替换)并混入原始训练集,使测试误差降至1.2%。而仅使用权重衰减时,该网络测试误差为1.6%,使用精心应用的随机失活(dropout)可改进到约1.3%。同时,实验发现针对每层输出生成对抗样本用于训练上层网络的方法更有效,且高层的对抗样本比输入层或低层的对抗样本似乎更有用,但未来还需系统比较这些影响。
不稳定性的频谱分析-Spectral Analysis of Unstability
- 网络不稳定性的表现与测量方法
- 深层网络在纯粹监督训练下,对于特定形式的小扰动存在不稳定性。具体表现为输入的小扰动(在欧几里得意义下)会导致最后一层输出产生大的扰动。 为了衡量和控制这种不稳定性,引入了上Lipschitz常数的概念,对于网络的每一层 k = 1 , ... , K k = 1, \ldots, K k=1,...,K,Lipschitz常数 L k > 0 L_{k}>0 Lk>0 满足 ∀ x , r , ∥ ϕ k ( x ; W k ) − ϕ k ( x + r ; W k ) ∥ ≤ L k ∥ r ∥ \forall x, r,\left\| \phi_{k}\left(x ; W_{k}\right)-\phi_{k}\left(x+r ; W_{k}\right)\right\| \leq L_{k}\| r\| ∀x,r,∥ϕk(x;Wk)−ϕk(x+r;Wk)∥≤Lk∥r∥,整个网络的稳定性满足 ∥ ϕ ( x ) − ϕ ( x + r ) ∥ ≤ L ∥ r ∥ \|\phi(x)-\phi(x+r)\| ≤L\|r\| ∥ϕ(x)−ϕ(x+r)∥≤L∥r∥,其中 L = ∏ k = 1 K L k L=\prod_{k=1}^{K} L_{k} L=∏k=1KLk.
- 不同层类型的稳定性分析
- 半整流层(卷积或全连接) :其映射为 ϕ k ( x ; W k , b k ) = m a x ( 0 , W k x + b k ) \phi_{k}(x ; W_{k}, b_{k})=max (0, W_{k} x+b_{k}) ϕk(x;Wk,bk)=max(0,Wkx+bk),由于非线性函数 ρ ( x ) = m a x ( 0 , x ) \rho(x)=max (0, x) ρ(x)=max(0,x) 是压缩的(满足 ∥ ρ ( x ) − ρ ( x + r ) ∥ ≤ ∥ r ∥ \|\rho(x)-\rho(x+r)\| \leq \|r\| ∥ρ(x)−ρ(x+r)∥≤∥r∥),所以 ∥ ϕ k ( x ; W k ) − ϕ k ( x + r ; W k ) ∥ ≤ ∥ W k r ∥ ≤ ∥ W k ∥ ∥ r ∥ \left\| \phi_{k}\left(x ; W_{k}\right)-\phi_{k}\left(x+r ; W_{k}\right)\right\| \leq\left\| W_{k} r\right\| \leq\left\| W_{k}\right\| \| r\| ∥ϕk(x;Wk)−ϕk(x+r;Wk)∥≤∥Wkr∥≤∥Wk∥∥r∥,即 L k ≤ ∥ W k ∥ L_{k} \leq\left\|W_{k}\right\| Lk≤∥Wk∥.
- 最大池化层 :其是压缩的,满足 ∀ x , r , ∥ ϕ k ( x ) − ϕ k ( x + r ) ∥ ≤ ∥ r ∥ \forall x, r,\left\| \phi_{k}(x)-\phi_{k}(x+r)\right\| \leq\| r\| ∀x,r,∥ϕk(x)−ϕk(x+r)∥≤∥r∥,因为其雅可比矩阵是对输入坐标子集的投影,不会扩展梯度。
- 对比度归一化层 :对于 ϕ k ( x ) = x ( ϵ + ∥ x ∥ 2 ) γ \phi_{k}(x)=\frac{x}{\left(\epsilon+\| x\| ^{2}\right)^{\gamma}} ϕk(x)=(ϵ+∥x∥2)γx( γ ∈ [ 0.5 , 1 ] \gamma \in[0.5,1] γ∈[0.5,1]),可以验证 ∀ x , r , ∥ ϕ k ( x ) − ϕ k ( x + r ) ∥ ≤ ϵ − γ ∥ r ∥ \forall x, r,\left\| \phi_{k}(x)-\phi_{k}(x+r)\right\| \leq \epsilon^{-\gamma}\| r\| ∀x,r,∥ϕk(x)−ϕk(x+r)∥≤ϵ−γ∥r∥.
- ImageNet网络的实例分析
- 以ImageNet深度卷积网络为例,通过计算其每层的上Lipschitz界(表5),发现不稳定性可能从第一层卷积层就开始出现。然而,需要注意的是,这里计算的是上界,大的上界并不一定意味着存在对抗样本,但小的上界可以保证不存在对抗样本。这一结果与前文构造的盲点现象一致,但不能解释对抗样本为何能在不同超参数或训练集间泛化。
- 基于稳定性分析的改进方向
- 这些结果提示可以通过一种简单的正则化方法来改进网络,即惩罚每个上Lipschitz界,这可能有助于提高网络的泛化误差,从而使网络在面对小扰动时更加稳定,减少对抗样本的影响。
表5:来自[9]的网络每个整流层的框架边界。
讨论-Discussion
- 神经网络的反直觉特性总结
- 本文揭示了深度神经网络存在两个反直觉的特性。一是关于单个单元的语义意义,研究表明随机投影与自然基在语义上难以区分,这意味着 神经网络高层中的语义信息可能更多地蕴含于整个激活空间而非单个单元 ,质疑了神经网络在坐标间解缠变化因素的假设。二是 网络对输入的微小扰动具有不稳定性,通过优化可找到对抗样本,这些样本与原始图像视觉上难以区分,但能使网络错误分类,且这种现象在不同网络和训练集之间具有一定的普遍性。
- 对抗样本与泛化性能的矛盾及解释探讨
- 对抗样本的存在似乎与神经网络的高泛化性能相矛盾。一方面,网络在训练集上能良好泛化,表明其具有一定的学习和识别能力;另一方面,却容易被对抗样本混淆,而这些对抗样本在视觉上与正常样本无异。一种可能的解释是,对抗样本集的概率极低,在测试集中几乎不会(或很少)出现,但它们在样本空间中是密集分布的(类似有理数),因此在几乎每个测试案例附近都可能存在,只是在实际测试中难以遇到。 然而,目前对于对抗样本出现的频率还缺乏深入理解,这将是未来研究需要解决的问题。