推荐系统高阶交叉—DCN,DCN_v2,PNN万文详解 - 文章 - 开发者社区

前言：

之前文章介绍了特征交叉的一些方式和几种推荐系统中关于特征交叉的一些论文。上篇文章中主要介绍了wide&deep，deepFM，和NFM模型。其中wide&deep，和deepFM模型的特征交叉就一阶，属于浅度的特征交叉，NFM可以实现更深的高阶特征交叉。这篇文章将介绍两种经典的推荐模型，它们可以实现更深度的特征交叉。分别为DCN,DCN_v2和PNN。

1：DCN

论文名称 ：Deep & Cross Network for Ad Click Predictions

论文链接 ：https://arxiv.org/pdf/1708.05123.pdf

论文结构 ： picture.image (4)上方结构： 将左侧和右侧得到的两个embedding直接concat起来成为一个大的embedding,经过一个浅层的神经网络输出一个一维数字，再经过一个sigmoid函数就是最终的结果了。

2:DCN_V2

论文名称 ：DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems

论文地址 ：https://arxiv.org/pdf/2008.13535v2.pdf

看论文的名字，就知道该模型与DCN很相似了，该模型确实基于DCN的一个改进模型。与DCN最大的区别是特征交叉的地方有一点点地差异 ： picture.image 一篇论文肯定不会这么简单嘛，工作量这么少的论文也发不了顶会呀。于是作者们又对DCN进行了改进，原因是DCN_V2中计算的复杂度太高了。

模型改进：

改进的地方同样来自于特征交叉的地方，论文中说的让人有点不能理解，我们直接看修改的部分吧:

(1)：矩阵低阶分解降低复杂性 由于将特征embedding之后再拼接起来成了一个维的向量，这个太大了，而矩阵的维度是。所有导致这个计算的复杂度就很高了，于是我们可以，类似于矩阵分解的方法，将维度比较大的矩阵分解成两个维度小一些的矩阵 。其中远小于。这种方法叫做矩阵的低阶分解，和SVD有点类似 。这也我们的交叉公式就发生了变化: 原来：现在：参数的数量和运算的复杂度都有效的变低了。

(2)：MOE结构

受到今年比较受欢迎的 Mixture-of-Experts (MoE)的影响 ，作者将这种结构也放入了交叉中之中。于是我们的交叉的公式又变为了以下的形式：

其中就是一个门函数，可以是sigmoid或者是softmax。

(3)：增加非线性。

注：论文中用的是点乘，但是从浅梦大佬的代码中用的是正常的矩阵乘法。我也认为是矩阵乘法，否则最后的维度对不上，如果是矩阵乘法的话，那么的维度则为。

改进的后模型据作者所说在降低了30%的复杂度的情况下，保留了模型的精度 ，模型可以称之为：the mixture of low-rank DCN(DCN-Mix)。

大佬的代码地址:https://github.com/shenweichen/DeepCTR-Torch/blob/bc881dcd417fec64f840b0cacce124bc86b3687c/deepctr\_torch/layers/interaction.py#L464-L537

灵魂问答

这篇文章比较有趣的是关于实现部分是采用问答的形式展开的，总共有5个问题，同样也给出了答案。担忧翻译问题于是我附上了英文。(文中对mDCN应该就是DCN-Mix的意思，命名有点混乱，希望我没弄错)

(1)：什么时候特征交互学习方法会比基于relu的DNN更有效？ (When would feature interaction learning methods become more efficient than ReLU-based DNN)

从论文后续的答案中，作者从三个方面回答了该问题(不过更像是回答怎样可以提升DCN_v2的效果)

a：提升交叉的复杂度 文中使用了三种二维的交叉方法(代表的是某个特征)，按照交叉的复杂程度有以下三种。 picture.image 总结：总而言之，即使使用更深更大的网络，ReLU 在捕获显式特征交叉（乘法关系）方面效率低下。当交叉模式变得更复杂时，精度会大大降低。 DCN 准确地捕获了简单的交叉模式，但无法捕捉更复杂的交叉模式。另一方面，DCN-V2 对复杂的交叉模式保持准确和高效

(2)：如果去除掉DNN结构的话，各种交叉方法的表现是怎么样的？ (How does the feature-interaction component of each baseline perform without integrating with DNN) picture.image 总结：高阶方法表现出优于二阶方法的性能。这表明高阶交叉在该数据集中是有意义的。在高阶方法中，交叉网络取得了最好的性能，与 DNN 相比略胜一筹。

(3)：DCN-Mix的于基础的DCN_v2相比表现如何，我们应该这么在模型的精确度和模型的消耗之间进行平衡(以DCN为例)。 (How does the proposed mDCN approaches compare to the baselines? Could we achieve healthier trade-off between model accuracy and cost through mDCN and the mixture of low-rank DCN)

picture.image 总结：在所有方法中，DCN-V2效果最好，同时相比性能不差 ； DCN-Mix 进一步降低了模型消耗，在模型性能和效果之间取得了更好的平衡 。(作者主要对比了DCN_v2和DCN-Mix与其它模型之间的效果)

(4)：DCN-Mix参与与模型效果之间的关系 (Q4 How does the settings in mDCN affect model quality) picture.image 上图左边展现的是DNN模型和Cross NetWork在不同网络层数下的效果。右侧是展现在不同的矩阵维度情况下的效果 。(这个matrix rank就是在改进模型中中的大小，也就是从高维分解为低维中，低维的数量)。

(5)：DCN-Mix是否捕捉到了重要的特征交叉？模型的解释性如何？ (Q5 Is mDCN capturing important feature crosses? Does the model provide good understandabilit) picture.image 作者直接从实验结果回答了该问题。左侧是DCN_v2中的权重矩阵，右侧显示的特征交叉，颜色越深代表者交叉越重要，从两张图的重合程度可以看出还是学到了一些重要的显示交叉特征 ，比如gender-UserId和Movied-UserId。