
对抗样本不是bug,实际上是有意义的数据分布特征。麻省理工学院的最新研究对神经网络的对抗样本问题给出了非常新颖的解释和实验演示。
"对立的例子几乎可以说是一个大隐患在机器学习中,它们引起的对抗性攻击会扰乱神经网络模型,导致错误输出,如分类错误和未识别的错误。
样本揭示了神经网络的脆弱性和不可解释性。例如,一个简单的涂鸦贴纸(对抗性补丁)可能迷惑自动驾驶系统,导致人工智能模型错误分类交通标志,甚至作弊自动驾驶系统进入反向车道;它也可能作弊AI检测系统,让最先进的检测系统也能我看不到我们前面活着的人。
但是,对抗样本真的是bug吗?
许多来自麻省理工学院的研究人员给出了否定的答案。通过一系列严格的实验,他们证明了对抗样本不是bug,而是特征(它们是特征)。
论文地址:
https://arxiv.org/pdf/1905.02175.pdf
这篇新奇的论文今天在Reddit上引起了热议。读者说这篇论文是聪明又简单,为什么没有没有人更早想到这个方向和非常有趣的工作.
实验的概念图
作者说:我们已经证明,对抗性样本不是奇怪的畸变或随机产物。相反,它们实际上是有意义的数据分布特征(也就是说,它们有助于模型泛化),尽管这些特征不容易检测到。"
研究人员通过一系列实验证明:
(a)可以从错误标记的训练集中嵌入的这些不易察觉的特征中学习,并将其推广到真实的测试集中;
(b)你可以删除这些不易察觉的特征,并将其一般化强健地到真实的测试集(标准训练)。
接下来,新智元带来了这篇论文的解读。
一个叫Erm的遥远星球,那里住着网族人。
在过去的几年里,对抗样本在机器学习界受到了极大的关注。关于如何训练模型使其不那么容易受到对抗样本的攻击,已经有很多工作,但所有这些研究都没有真正面对这样一个基本问题:为什么会出现这些对抗样本?
到目前为止,流行的观点是,对抗样本来源于奇怪的图案只要我们在更好的训练算法和更大的数据集方面取得足够的进展,这些错误最终会消失。常见的观点包括挑战样本是高维输入空间的结果或者有限样本现象的结果。
本文将提供一个新的视角来解释对抗样本出现的原因。然而,在进入细节之前,让让我们给你讲一个小故事:
一个叫Erm的星球
我们的故事从Erm开始,一个遥远的星球上居住着一个叫做Nets的古老外星种族。
网虫是一个奇怪的物种:人人他们在社会等级中的地位取决于他们将3232像素的图像(对网络来说毫无意义)分类成10个完全任意的类别的能力。
这些图像来自一个名为See-Far的绝密数据集,Nets的居民可以不能提前看到数据集中的图像。
随着网人的成长和智慧,他们开始在See-Far中发现越来越多的模式。这些外星人发现的每一种新模式都可以帮助他们更准确地对数据集进行分类。由于提高分类准确率的巨大社会价值,外星人给最具预测性的图像模式起了个名字——TOOGIT。
一个TOOGIT,可以高度预测一个1'形象。Nets对TOOGIT非常敏感。
最强大的外星人非常善于发现模式,因此他们对远看图像中图吉特的出现极其敏感。
不知何故(也许是寻找看远分类技能),一些外星人拿到了人类写的机器学习论文。一张图片特别引起了外星人的注意:
一对峙样
这张图比较简单。他们认为:有一个2 左边是一个GAB模式,中间是一个GAB模式,这表明该模式是4 3354.毫不奇怪,左边的图片增加了一个GAB,产生了一个新的图像,它对应于4 网络中的类别查看。
根据论文,原始图像和最终图像完全不同,但它们被归类为相同的。网人可以我不明白这个。困惑中,他们在人类的文件中搜寻,想知道人类还有哪些有用的模式注意不到…
我们能从Erm星球学到什么?
正如名称Erm所暗示的那样,这个故事不仅仅是关于外星人和他们奇怪的社会结构:Nets发展的方式是对我们训练机器学习模型的方式的隐喻。
特别是,我们已经最大限度地提高了准确性,而不包括许多以前关于分类类别、物理世界或其他与人类相关的概念的背景。
这个故事的结果是,外星人可以意识到,人类认为毫无意义的对抗性扰动,其实是一个对看远分类至关重要的模型。因此,网队的故事应该让我们思考:
对抗真的不自然,没有意义吗?
一个简单的实验
为了研究这个问题,我们首先做了一个简单的实验:
我们从标准数据集(如CIFAR10)的训练集中的图像开始:
我们从每个(x,y)到下一个类y 1(如果Y是最后一个类,则为0)
然后,我们通过用它们相应的目标类别标记这些拮抗样本来构建新的训练集:
现在,与原始训练集相比,结果训练集在不知不觉中受到干扰,但标签已被更改为——。所以,对人类来说,它的标签看起来完全不对。事实上,这些错误的标签甚至与替换假设(即每只狗都被贴上猫的标签,每只猫都被贴上鸟的标签,以此类推)。
我们用错误标记的数据集。这个分类器在原始的(未修改的)测试集(即标准的CIFAR-10测试集)上表现如何?
它值得注意的是,我们发现得到的分类器实际上只有中等的准确率(比如在CIFAR上,准确率只有44%)!尽管训练输入只与他们的真实标签,并与通过所有可见特征匹配的不同(现在是不正确的)标签相关联。
什么这是怎么回事?
对抗样本概念模型
刚刚描述的实验将标准模型的对抗性扰动建立为目标类的模型预测。也就是说,只有训练集中的对抗性干扰才能对测试集做出适度准确的预测。
从这个角度来看,人们可能会想:也许这些图案和人类用来分类图像的图案(比如耳朵、胡须、鼻子)并没有本质上的区别!
我们的假设是,——中有各种各样的输入特征可以预测标签,其中只有一部分是人类可以检测到的。
更确切地说,我们认为数据的预测特征可以分为健壮和非健壮特点。
鲁棒特征对应于可以预测真实标签的模式,即使一些人通过预定义的一组干扰来创建对抗性干扰。
相反,对应于非稳健特征(non-robust features)的模式是预测性的,但它是翻车由攻击者在预定义的扰动集合中,导致指示的分类错误。(正式定义请参考论文)
由于我们总是只考虑不影响人类分类性能的扰动集,所以我们希望人类只依赖鲁棒特征。然而,当目标是最大化(标准)测试集的准确性时,非健壮特征可以和健壮特征一样有用。
事实上,这两种类型的功能是完全可以互换的。如下图所示:
从这个角度来看,本文中的实验描述了一些相当简单的过程。在原始训练集中,可以预测输入的鲁棒和非鲁棒特征。当一个小的对抗性干扰被添加到实验中,它可以显著影响稳健特性,但允许改变非稳健特性。例如,每只狗的形象现在保留了狗的健壮特征(所以这些图像看起来像狗),但不健壮的特征更接近猫。
在重新标记训练集之后,我们的设置使得鲁棒特征实际上指向错误的方向(即,具有狗被标记为猫).在这种情况下,只有非鲁棒特征实际上为概括提供了正确的指导。
总之,鲁棒和非鲁棒特征都可以用于预测训练集,但是只有非鲁棒特征会导致原始测试集的泛化:
因此,在该数据集上训练的模型实际上可以推广到标准测试集的事实表明,存在可用于实现良好推广的非稳健特征。而且,即使有很强的鲁棒性预测特征,深度神经网络仍然依赖于这些非鲁棒性特征。
高鲁棒性模型可以学习高鲁棒性特征吗?
实验表明,对抗性扰动不是一个无意义的信号,而是直接对应于泛化所必需的扰动特征。同时,关于对抗性例子的相关文章表明,通过强大的优化,可以得到对抗性扰动的更鲁棒的模型。
因此,一个自然的问题是:我们能验证高鲁棒性模型实际上依赖于高鲁棒性特征吗?为了测试这一点,我们建立了一种方法,将输入限制在模型的敏感特征上(对于深度神经网络,是倒数第二层激活的特征)。因此,创建了新的训练集,其仅包含被训练的高鲁棒性模型使用的特征:
然后,我们在没有对抗训练的结果数据集上对模型进行训练,发现得到的模型具有非常高的准确率和鲁棒性!这与标准训练集的训练形成了鲜明的对比,标准训练集的模型是准确的,但非常脆弱。
在CIFAR-10测试集(D)上测试的标准精度和稳健精度。左:CIFAR-10(D)上的正常训练;中国:关于CIFAR-10(D)的对抗训练;右图:在我们重建的数据集上正常训练。
结果表明,健壮性(和非健壮性)实际上可以作为数据集本身的一个属性出现。特别是,当我们从原始训练集中去除非鲁棒特征时,我们可以通过标准(非对抗性)训练获得高度鲁棒的模型。这进一步证明了对抗性例子是由于非鲁棒性特征而产生的,并不一定与标准训练框架相关联。
流动性
这一变化的直接结果是,对抗性案件的可转移性不再需要单独解释。具体来说,既然我们将对抗性脆弱性视为数据集特征的直接产物(而不是训练单个模型时的个别现象),自然希望类似的表达模型也能发现并利用这些特征来提高分类精度。
为了进一步研究这一思想,我们研究了不同框架下相似非鲁棒特征的学习与这些特征之间对抗性例子的可迁移性之间的相关性:
我们生成了第一个实验中描述的数据集(标有目标类别的对抗性实例的训练集),并使用ResNet-50构建对抗性实例。我们可以把产生的数据集想象成翻转ResNet-50的所有非健壮特性都归入目标类别。然后在上图中的五种架构在这个数据集上进行训练,在真实的测试集上记录泛化性能:这对应的是测试架构只被ResNet-50的非健壮特性泛化的程度。
结果表明,正如本文中关于对抗性实例的新观点所提到的,该模型可以获得由ResNet-50数据集引入的非稳健特征,这与ResNet-50和标准模型之间的对抗性可转移性有很强的相关性。
启发
本文的讨论和实验将对立的例子视为纯粹以人为中心的现象。从分类任务性能的角度来看,模型没有理由偏好健壮的特征。毕竟稳健的概念是人类指定的。因此,如果我们希望模型主要依赖于鲁棒性特征,我们需要通过将先验知识结合到框架或训练过程中来明确解释这一点。
从这个角度来看,对抗性训练(和更广泛的鲁棒性优化)可以被认为是一种将所需的不变性纳入学习模型的工具。例如,高鲁棒性训练可以被认为是通过不断地翻转,使得模型引导训练不再依赖于非稳健特征。
同时,在设计可解释的方法时,有必要考虑标准模型对非稳健特征的依赖性。特别是,任何解读标准训练模型的预测应该选择突出这些特征(这将导致对人类的意义模糊)或隐藏它们(这将导致对模型的决策过程的不完全保真)。因此,要想获得一种对人类有意义的、忠实于模型可解释性的方法,只经过训练基本上是不可能处理的,需要在训练过程中进行必要的干预。









