对抗训练非负矩阵分解 - 文章 - 开发者社区

摘要

对抗训练可以帮助深度学习模型获得较好的鲁棒性，近年来，学者研究证明对抗训练也可以提升传统机器学习算法的鲁棒性。因此，科研工作者研究如何将对抗训练这一思想引入到传统的机器学习模型中。非负矩阵分解是一种经典的高维数据降维技术，本文中作者提出了一种基于对抗训练的非负矩阵分解方法。在他们提出的模型中，作者构造了一种攻击者对原始数据矩阵进行攻击，攻击的方法是为原始矩阵加上一个有界范数的任意矩阵。作者受对抗训练思想的启发设计了一种有效的算法来优化字典矩阵以及相应的系数矩阵。最后作者在人工构造的数据集以及真实数据集进行实验，结果表明作者提出的算法在矩阵填充任务上获得最好的结果。

简介

非负矩阵分解（Non-negative matrix factorization, NMF）技术作为一种字典学习技术，主要用来学习原始矩阵在隐空间中对应的基于局部的非负表示向量。

picture.image

假设原始数据表示为，将其分解为字典矩阵（有时也称为基矩阵）与系数矩阵的乘积以便满足。

为了寻找到一组最优的分解向量，可以将NMF优化问题转变为如下非凸问题的求解公式1.1:

其中，代表着矩阵和中的元素都是非负的。NMF已经广泛应用在矩阵填充、文本聚类和语音信号处理等领域。

Goodfellow在其标志性著作中指出机器学习算法很容易受到攻击者对原始数据的攻击。为了减轻这种攻击对模型带来的影响并且进一步提升模型的泛化能力，最近已经有学者将对抗训练这一思想已经成为当前的研究热点。对抗训练可以帮助深度学习模型获得较好的鲁棒性，近年来，学者研究证明对抗训练也可以提升传统机器学习算法的鲁棒性。在这篇文章中，作者在标准NMF(公式1.1) 中引入对抗训练思想，以便在矩阵填充任务上提高预测的准确度。在这之前，Luo提出了一种称为对抗NMF（ANMF）的模型，与本文不同的是，ANMF只是在字典矩阵中引入了对抗训练的思想。ANMF 为对抗者引入了一个称为基于实例的目标作为模型的超参数，在实际应用中这个目标是很难选择的。ANMF的对抗者学习一个字典矩阵使得无限接近原始数据矩阵， ANMF模型最终包含两项，即和，然后使用ADMM算法求解ANMF，实验表明ANMF可以增强标准NMF的鲁棒性。与ANMF不同的是，本文中作者考虑的情景是攻击者对原始矩阵进行攻击，因此该问题的数学表示为最小化,其中属于有界集。与ANMF模型不同的是，本文中提出的模型AT-NMF （adversarially-trained NMF）只有一个超参数。

Adversarially-trained NMF, AT-NMF

AT-NMF模型中的对抗攻击者主要通过给原始数据矩阵加上一个任意矩阵实现，对抗矩阵的主要作用是最大化原始数据矩阵与最优的之间的F范数。由于对抗矩阵的攻击性往往是有限的，因此本文中的对抗矩阵属于一个有界集合。AT-NMF模型的数学表示如公式1.2:

其中约束集满足。这里代表一个常数，该值的大小决定了对抗者的能力；具体来说，一个较大的往往对应能力较强的对抗者，反之亦然。论文中作者设定属于有界F范数矩阵集合并且是非负的，当确定后，AT-NMF就转换为普通的NMF问题了。

公式1.2是很难求解的，通过拉格朗日对偶性对其进行松弛，引入拉格朗日乘子, 从而AT-NMF的优化问题进一步表示为公式1.3

由于公式1.3中的内层优化问题是一个最大化问题，因此正则项的系数是负值，决定了对抗者的能力;当时,的F范数是无界的，意味着此时的攻击者的能力是最强的；相反的，当时，正则项的作用为0同时的F范数为0，也就意味着没有攻击。

公式1.3的优化问题可以分解为两个优化问题，即内部的最大化问题（优化）和外部的最小化问题（优化）。其中内部的最大化问题可以转变为如下的最小化问题，公式1.4：

很明显，具有闭氏解。当确定后，就可以优化外部的最小化问题，即公式1.5

作为一个新的矩阵，使用最大最小（Majorization-minimization, MM）方法求解和。

求解

为了求解公式1.4中的,首先固定住和的值，并且令，因此目标函数可以简化为公式1.6：

其中满足条件。将公式1.6分解为矩阵中每一个元素的累加形式，具体展现形式如下公式1.7：

使用代替,最小化1.7也就是最小化其中的每一项，因此该最优化问题可以转换为如下的标量最优化问题，公式1.8

等价于公式1.9：

公式1.9中，如果, 公式1.9是一个严格的凹函数，因此的最优值是,意味着对抗者是无界的; 当时，公式1.9是线性函数，此时，当时，最优解, 当时，公式1.9 的值为0，当,最优解。

因此，为了避免以上几种情况，论文只考虑的情况。此时，公式1.9是一个凸函数，结合条件,我们可以得到的最优解为公式1.10：

迭代更新和

公式1.10获得了的最优解，我们使用,和的乘性迭代公式为公式1.11：

公式1.12：

和的初始化

为了避免的最优值取为,因为此时,作者首先根据公式1.11 和1.12迭代5次，以获得和的初始值。

迭代停止条件

由于具有闭氏解，因此更新时不需要任何迭代停止条件。但是根据公式1.11 和1.12进行迭代更新矩阵和的时候需要提供停止条件。论文中使用连续两次迭代过程中的相对错误（relative error）来衡量是否停止迭代，为此设立一个阈值，当相对错误小于时就停止迭代过程。设表示第次外部迭代过程(最小化过程)和第次内部迭代过程中（最大化过程）的值，同时,当内部迭代次数满足公式1.13条件时终止内部迭代过程。公式1.13：

当外部迭代次数满足1.14条件时终止算法的迭代过程。公式1.14：

实验

实验过程中，论文将原始数据的元素按比率进行移除，使用剩下的元素进行训练模型。评价指标使用根均方误差（root mean-squared error，RMSE）来度量模型的优劣，该值越小说明算法的性能越好，其定义如公式1.15：

代表移除掉的元素的数量。在CBCL数据集上的实验（图1.2）表明，AT-NMF在时，取得最好的结果。

picture.image

AT-NMF(2)代表。AT-NMF(2)在Moffet和Madonna数据集上也取得了最好的结果。

论文地址：https://arxiv.org/pdf/2104.04757.pdf

代码：https://github.com/caiting123321/AT\_NMF

扫描下方二维码，加入粉丝群，共同学习。

picture.image