关注我们,一起学习~
参考文献:Final MLP:An Enhanced Two-Stream MLP Model for CTR Prediction
链接:https://arxiv.org/abs/2304.00902
会议:AAAI 2023
学校,公司:人大,华为
1.引言
点击率(CTR)预测是推荐系统和在线广告推荐的基础,而多层神经网络(MLP)是深度点击率网络的核心组成部分。然而简单的应用单独的MLP网络对于学习特征交互是不充分的,因此衍生出许多双塔平行的交互网络,文中称为双流(two-stream)网络,通过将 MLP 网络与另一个网络相结合用于增强CTR预测,例如DeepFM和DCN。其中MLP网络用来学习隐式的特征交互,而现有的研究主要集中在改进辅助网络学习显示特征交互。本文研究发现,直接结合双流形式的MLP网络(本文称为DualMLP网络)也能获得不错的性能,基于此,本文进一步提出特征选择层和交互聚合层插入双流MLP结构中,称之为FinalMLP。不仅能实现差异化的特征输入,还能有效地融合双流之间的信息交互。
2.方法
2.1 双通道MLP
首先介绍简单的结合两个MLP网络(称为DualMLP),构建两个独立的MLP网络如下
两个MLP网络的层数和每层的单元数可以根据数据情况设置成不同的参数,h代表输入特征,代表MLP的输出。大多数先验的工作中,双流MLP的输入是相同的,即,e表示embedding的结果。与此同时,双流的最终输出o通过相加sum或拼接concat等简单的操作进行融合,而忽视流之间的层级交互。
2.2 "流"特定的特征选择
当前研究大部分聚焦与两个不同的特征选择网络之间的交互,比如显示和隐式的特征交互、高维和低维的特征交互来提高CTR预测精度。不同于设计特征的网络结构,本文旨在通过特定流内的特征选择来扩大不同流的差异性,从而产生差异化的特征输入。受启发于MMOE的gating机制,提出了特定流的gating模块来自主选择流内特征,原理是对每个流的特征输入赋予不同的权重。通过对可学习参数、用户特征、item特征的视角,分别生成全局、用户特定、item特定的权重。形式如下:
Gate定义为gating网络,不同的流有不同的Gate模块,流特定的输入x经过Gate后得到g,注意x可以灵活的切换为user或item特征或直接是可学习的参数,将g经过sigmoid函数后转换为特征权重通过,乘以系数2是为了让sigmoid输出的范围在[0,2],以此保证均值为1。下图展示了user和item特征分别通过不同流的特征选择形式,这样能够很好的避免双流网络在学重复内容的“同质”现象,使得后续不同流之间的特征交互更有效。
2.3 "流"层级间的特征聚合
受启发于CV领域的双线性池化操作,本文提出双线性特征聚合来融合不同流间的层级特征聚合,如下图上半部分所示最终的CTR预测结果定义为:,其中w和b都是可学习的权重,双线性项拟合输出和间的二阶交互。特别地,当权重矩阵为单位矩阵的是时候,此项为点积结果;当权重矩阵为0矩阵时,变成传统的各项输出加权和。
2.4 多头双线性融合
参考多头attention机制,将双线性特征聚合扩展为multi-head的版本来减少计算复杂度。具体而言,不直接计算中的双线性项,而是将o分为k个子块
如上图下半部分所示,计算各个子块之间双线性特征聚合项,并将结果进行相加
可以有效的减少计算复杂度,加快模型训练。
2.5 FinalMLP模型结构
整体的FinalMLP模型结构如图所示:
3 实验结果
实验在4个公开数据集上的表现,顺便验证了文章引言中提到的,使用简单的双MLP结构(DualMLP)也能获得不错的性能
交流群:点击“联系 作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
[WWW'23「百度」基于Decision Transformer的以用户留存为目标的推荐方法
2023-04-02
[多场景多任务推荐方法汇总
2023-03-26
[WWW'23「腾讯」在推荐系统中使用停留时间重新加权点击行为
2023-03-21
[WWW2023 | 推荐系统,因果推断论文集锦
2023-03-19
长按关注,更多精彩
点个在看你最好看
