前言
On the Relationship Between Adversarial Robustness and Decision Region in Deep Neural Network 一文是最近刚刚投放到 Arxiv 上的一篇文章,但是和我目前正在从事的研究领域接近,所以阅读借鉴一下。“论文笔记” 栏目内容基本上是对当前人工智能各领域论文的阅读后书写的总结。
文章结构
文章指出了一种新的和鲁棒性相关的概念:Populated Region Set (PRS) 。其定义如下:
首先,它定义了决策区域:
\(\mathbf{V}_{l} \in\{-1,+1\}^{D_{l}}\) 作为选择第$l$层决策边界的正边或负边的指标向量。决策区域 \(D R_{\mathbf{V}_{l}}\) 拥有同一表示特征的符号,即 \(D R_{\mathbf{V}_{l}}=\left\{x \mid \operatorname{sign}\left(f_{l: 1}(x)\right)=\mathbf{V}_{l}, \quad \forall x \in \mathcal{X}\right\} .\) 进一步地,所谓 PRS 定义如下:
对于每个 $f$ 生成的决策区域和数据集 $\mathbf{X}$, Populated Region Set 是有一个训练数据在内的决策区域: \(P R S(\mathbf{X}, f, l)=\left\{D R_{\mathbf{V}_{l}} \mid x \in D R_{\mathbf{V}_{l}} \exists x \in \mathbf{X}, \forall \mathbf{V}_{l} \in\{-1,1\}^{D_{l}}\right\} .\) 然后,我们可以将一个填充区域定义为PRS中的决策区域的并: \(P R(\mathbf{X}, f, l)=\cup_{D R \in P R S(\mathbf{X}, f, l)} D R .\) 其中 $\mathrm{PRS}$ 的界被 $\mathbf{X}$ 的规模控:若 $|P R S(\mathbf{X}, f, l)|=|\mathbf{X}|$, 该层的每个 PRS 都只有一个样本。定义 $|P R S(f, \mathbf{X}, l)| /|\mathbf{X}|$ 作为 PRS ratio 以衡量样本在决策区域中的集中程度。
为什么定义这个量?根据一些论文,一般情况下,训练数据的数量要小于神经网络划分出的区域的最大数量(组合数级别的扩展)。为了只考虑网络在训练过程中使用的区域,才定义了这一概念。
这一概念和鲁棒性有什么联系呢?经验上,PRS ratio 越低,Robustness 越高。不难想象,如果训练样本比较集中在决策区域当中(没有被分割得很严重),那么当然不易受干扰。该研究就此做了一些实验和解释,下文将提到这一点。
最后,其工作提出了用正则化 PRS 的方法提高鲁棒性。
实验和解释
该工作做的实验有这些:
首先,经过鲁棒训练的网络较之未经过鲁棒训练的网络有明显的 PRS Ratio 差异 (\(0.99 >> 0.007\));
其次,回归分析表明 PRS ratio 和 网络鲁棒性负相关;
最后,为了证明低PRS比值导致了基于梯度的攻击的鲁棒性,文章对失败的攻击样本进行了额外的分析。在基于梯度的攻击中,梯度的大小是成功的关键组成部分,该工作首先计算了失败攻击样本中零梯度样本的比例,然后考察非零梯度失败攻击样本,发现样本的 logit 对数几率对每一类均匀增加,换言之是平移了。文章声称这是 SPD 较小的结果:为了解释logit向量的平行变化,他们假设每个类节点对应的决策边界在输入空间中具有相似的性质。然而,由于高度非线性结构和高维输入空间,整个网络中决策边界之间的相似性不易度量。为了简假设,我们只测量将倒数第二层上的特征映射到 logit 中的参数之间的余弦相似度。实验证明和 PRS ratio 负相关。
总结
这个工作看起来很有用,实际上还是陷于统计验证的窠臼,解释部分绕来绕去,最后还是靠回归分析验证的。不过,在研究决策边界的形状之外,同时研究其分割情况来象征决策区域尺寸是一个不错的想法。至于文章本身的说服力是寥寥的。