ICDE'22「华为」MISS：多兴趣自监督学习框架用于点击率预估

picture.image

关注我们，一起学习~

title：MISS: Multi-Interest Self-Supervised Learning Framework for Click-Through Rate Prediction

link：https://arxiv.53yu.com/pdf/2111.15068.pdf

from：ICDE 2022

导读

本文针对CTR预估提出的自监督方法MISS，针对现存问题：

标签稀疏（即用户-商品交互相对于特征空间高度稀疏）、
标签噪声（即收集的用户-商品交互通常是嘈杂的）的风险，
未充分利用领域知识（即样本之间的成对相关性）。

本文提出了一种新颖的多兴趣自我监督学习（MISS）框架，该框架通过兴趣级别的自监督信号增强了特征embedding。在两个新的基于 CNN 的多兴趣提取器的帮助下，使用两个基于CNN的兴趣提取器考虑不同兴趣表征（逐点（point）和联合(union)）、兴趣依赖性（短期(short range)和长期(long range)）以及兴趣相关性（商品间和商品内）。并利用对比学习增强特征的表征学习。 picture.image 本文特点 ：

采用CNN挖掘相邻不同商品之间的交互和相同商品不同属性之间的影响，使用不同大小的卷积核来考虑序列中的长短期关系
通过在兴趣级别上的对比学习，增强模型对噪声和稀疏数据的鲁棒性

方法

picture.image 本文所提方法为 即插即用 的方法，可以与各种ctr模型结合，本文采用DIN作为基模型。通常采用的方法是在数据级别上进行增强，获得不同视角的样本，结合对比学习训练模型的表征能力，但是由于用户行为序列的多兴趣特性，样本级数据增强可能不可避免地引入噪声。原因是增强后的h可能来自不同的兴趣，即使它们是从相同的 x 获得的。为了解决这个问题，作者提出了一个兴趣级别的 SSL 框架，即 MISS，它以端到端的方式在兴趣级别上扩充训练数据。

2.1 MISS框架

2.1.1 多兴趣数据增广

考虑到用户行为的多兴趣特性，MISS 框架在 兴趣级别和特征级别 的每个样本中都实现了 SSL。因此，不仅可以丰富每个训练样本提供的语义，还可以促进长行为序列的建模和利用。为了实现这些目标，设计了一种用于数据增强目的的新型多兴趣提取器。

为了在兴趣级别增加用户行为数据，首先应该提取每个用户的多个兴趣表征。直观的方法是利用商品类型对序列进行划分，但是这种是粗粒度的，本文采用基于 CNN 的多兴趣提取器，它将样本特征 x 转换为一组隐式兴趣表示，其中表示从样本x中提取的第k个兴趣表征，MIE为多兴趣提取器。

为了对兴趣语义进行细粒度的理解和利用，进一步设计了另一个基于 CNN 的特征增强组件，以在特征级别增强每个兴趣表征，表示如下，MIMFE为多兴趣多特征提取器，Ω为每个兴趣的特征表征数。

然后，使用增广函数进行样本x的兴趣级别的增强，表达如下，其中为样本x的一对生成视图，P为视图对的数量。

同理对多特征多兴趣提取器提取的R也进行增广，表达如下，

2.1.2 兴趣视图编码

对兴趣和兴趣的细粒度语义进行增广后，对上面得到的两个序列进行编码得到高维抽象表征，表达如下，其中两个编码器Enc本文直接采用简单的MLP，当然也可以尝试使用其他的编码器，如Transformer。

2.1.3 对比损失

通过上述编码得到高级语义后，利用对比损失督促模型训练。本文使用 InfoNCE 对比损失，它试图 最大化正视图对的相似性并最小化负视图对的一致性 。结果，相似的兴趣因此可以具有相似的表示（定义为对齐），并保留足够的信息来区分不同的兴趣（定义为一致性）。将前面得到的相同样本的兴趣视图对作为正样本对，来自不同样本的视图对为负样本对,，infoNCE损失构建如下，其中s()为余弦相似度，τ是温度系数，

同理可以得到特征级别的相关性，公式如下，

2.2 多任务学习

将自监督部分作为辅助损失，结合基模型（本文是DIN）的损失，对模型进行训练，公式如下，其中为常用的交叉熵损失函数。

多兴趣数据增广

picture.image image.png

3.1 MIE

多兴趣提取器网络 MIE(·) 旨在从用户行为序列中发现潜在兴趣。但是，由于兴趣的数量因用户而异，相同兴趣的顺序模式在不同用户和不同时间方面也是动态的。因此，本文提出了一种基于紧密度假设的直观多兴趣提取器，即 从相同兴趣派生的用户行为更有可能在序列中位置相近 。

基于紧密度假设，采用 CNN 来提取隐藏的兴趣表征，它可以有效地捕获局部相关性。对序列填充（padding）后，所有 J 个序列特征共享相同的长度 L，序列表征 E 中的embedding可以重新组织为 3D 张量，如下，其中，其中K是embedding的维度。

note ：这里对这个矩阵做简单解释。这里的L是说用户的交互序列的长度，即交互了多少商品，这里的J为商品的属性，比如每个商品都可以包含价格，类别等。原始序列表征为E，现在按照序列和属性类型进行排列，得到现在的矩阵C。 水平方向是相同属性的整个交互序列，垂直方向是相同商品的不同属性 。

潜在的兴趣从水平方向进行卷积提取，因为水平方向（即1...L）是时间轴，从时间序列中发掘潜在兴趣。因此，卷积核表示为,总共有M个卷积核，每个卷积核的m的大小从1到M增加，当m=1时，是逐点兴趣表征，m>1时是联合(union)的兴趣表征。计算方法如下，其中o为卷积计算，得到，考虑M个卷积核，则长度为。

MIE可以表达为下式，其中Flat()函数用于将每个兴趣表征转换为向量。

3.2 兴趣级别的增广

同样采用上述的近邻假设，时间线上相邻的两个兴趣表征越多，它们表示相同隐藏兴趣的可能性就越大。因此，从中通过相同卷积核计算的表征中随机选择一对表征作为具有相同兴趣的两个不同视图，表达如下，其中RS()表示从Gm矩阵中随机选择两个相距h的表征，重复P次得到集合H。通过控制h的大小来控制对短期和长期兴趣的捕获。

3.3 细粒度兴趣提取器

MIE是通过水平的卷积核挖掘同类属性下不同商品之间的交互，比如价格或类型，但是没有考虑到相同商品受不同属性之间的影响 ，比如日常用品可能受价格影响较大，而球鞋受价格和类型影响大等等。因此，MIMFE是在MIE的基础上再使用垂直方向的卷积核，即在J方向上。表达如下，卷积核的构造和MIE类似，，同样存在N个这样的卷积核，并且n的大小从1到N增大。同理，序列长度。

MIMFE可以表达为下式，这里外城的序列是MIE得到的Gm的集合，内存是MIMFE对每一个Gm得到了一个序列集合。

采用类似的增广方式，公式如下，