关注我们,一起学习
题目: From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models
地址:https://openreview.net/pdf?id=DatAXrGzlc
code:https://github.com/USTC-StarTeam/GE4Rec
会议:ICML 2025
论文解决的问题
传统点击率(CTR)预测模型基于特征交互估计用户点击物品的概率,遵循判别范式,但存在原始特征嵌入的局限性,易导致嵌入维度崩溃和信息冗余问题,且由于特征间无明确顺序,难以将其转化为生成范式。
1. 论文的创新点
- 提出一种用于CTR模型的新型监督特征生成框架,将判别式的“特征交互”范式转变为生成式的“特征生成”范式。具体做法是将所有特征嵌入拼接来预测每个特征嵌入。
- 此框架可以和现有的CTR模型结合提升性能,产生维度崩溃更少、冗余更低的特征嵌入,缓解判别范式的固有局限。
简单来说:
- 以FM为例,原始的方式是特征i和特征j进行交互,改进后是生成的特征i和原始的特征j交互
- 生成方式是用所有的特征拼接后经过MLP来生成,当然这里有一些细节,比如生成方式的选择,特征是否要mask等作者都做了实验,感兴趣可以阅读原文。
2. Method
本部分主要介绍了点击率(CTR)预测的相关方法,首先定义问题并介绍传统判别式CTR范式及其局限性,接着提出基于生成式的特征生成框架,最后给出所提监督特征生成框架的详细实现。不同的生成范式如上图所示,a为按照序列顺序预测下一个;b为随机mask一部分然后进行生成重构;c为VAR中的尺度预测;d为本文提出的特征生成范式。
2.1. Preliminary: CTR prediction in a discriminative paradigm
- 问题定义 :CTR预测旨在基于多个特征预测用户点击物品的概率。该问题可通过特征
和标签集
正式定义,其中
表示用户是否点击目标物品。通常,
由多个特征类别组成,包括用户、物品和上下文特征。假设存在
个不同的特征类别,每个类别可以用一个基数为
的不同特征字段
表示,
衡量每个字段中唯一特征的数量。
- 公式化 :一般来说,CTR模型学习一个将
映射到
的函数
,该函数对分布
进行建模。现有CTR模型可自然地形式化为以下判别式形式:
其中,
是从对应于字段
的嵌入查找表
中获得的,
表示嵌入维度。
是探索特征字段之间高阶相关性的特征交互模块,通常通过特征嵌入之间的哈达玛积实现。
由池化函数或多层感知机(MLP)实现,最终将交互后的嵌入映射到预测标签。
是用于计算二元交叉熵损失
的相应标签。以经典的DCN V2模型为例,其可形式化为:
其中,
表示交叉层的数量;
表示层索引;
表示特征的总数;
和
表示特征索引;
表示嵌入层中特征
的嵌入;
表示第
层中第
个特征的嵌入;
表示第
层中
和
字段对之间的投影矩阵;
和
分别表示特征
和
的字段。
- 判别式范式的局限性讨论 :尽管取得了一定成果,但这些方法仍属于判别式范式,很少有研究在生成式范式下对其进行表述。判别式范式会遇到以下问题:
- 原始ID嵌入交互导致的维度坍塌 :某些字段的嵌入可能由于各种原因(如该字段的基数较低)仅跨越低维空间。根据交互坍塌理论,与这些低维字段嵌入的交互可能导致其他字段嵌入的维度坍塌,从而限制其信息丰富度。
- 学习数据分布的局限性 :判别式范式学习分布
而忽略
,仅专注于建立可行的分类决策边界。然而,由于原始ID嵌入的固有局限性(主要由数据分布引起),缺乏对数据分布的考虑使得难以学习有效的决策边界。 3. 信息冗余 :降冗余原则在不同应用领域取得了丰硕成果。但原始ID嵌入之间的交互,即使经过精心设计的变换,仍表现出很强的包含同质信息的倾向,即信息冗余,这限制了特征交互的知识效率。
2.2. CTR prediction in a generative paradigm
- 自回归生成范式 :生成模型专注于学习联合分布
。在生成范式中,自回归方法仍然是事实上的标准,它基于先前的输入预测序列中的下一个item。传统观点认为自回归模型本质上需要显式的部分数据排序,但计算机视觉中自回归模型的进展表明,显式数据排序对于自回归生成并非根本必要,关键在于对适当的内在数据结构进行建模。
- 重新表述 :将生成模型在特征交互模型中的概念从“下一项预测”转变为“特征生成”范式。可将先前的自回归生成模型集成到一个统一框架中,具体来说,它在源输入上构建一个编码器,得到输出嵌入,并使用它来预测目标输入。其形式化定义为:
其中,
是特征生成框架:
一些特征嵌入
被输入到
中以构建新的嵌入,这些新嵌入将与转换后的目标特征嵌入
一起进行生成。哈达玛积来执行特征生成,随后将使用不同的池化函数进行进一步处理。
将已有的特征交互模型纳入这个生成框架,对于2.1节中定义的CTR数据,特征字段之间不存在显式的相关数据,但存在基本的联系。在构建特征时,使用所有原始嵌入作为源输入来建模隐式的字段间关系,将每个特征指定为目标输入,并应用现有判别模型的变换。与传统的无监督生成范式不同,该方法可以利用固有的监督信号来实现稳健的生成学习。以堆叠DCN V2为例,公式(2)可重新表述为:
- 讨论 :通过特征生成框架,从涉及原始ID嵌入直接交互的判别式范式转变为通过编码器网络构建新嵌入并将其与原始ID嵌入进行交互的生成式范式。它集成所有特征字段为每个样本构建定制特征,可避免原始ID嵌入之间的直接交互,从而减轻维度坍塌的风险,并且构建的嵌入可以很容易地与原始ID嵌入去相关,从而减少信息冗余。
2.3. Implementation
主要专注于设计适用于特征交互模型的生成框架,因此保持简单的编码器架构设计。将编码器实例化为按字段的单层非线性多层感知机(MLP):
其中,
是非线性激活函数,
是所有特征嵌入的拼接,
是按字段的权重矩阵。这三个组件(非线性激活函数
、特征拼接
和权重矩阵
)都是必要的,可以在特征生成框架内重新表述现有的CTR模型,具体细节如图2所示。
The feature generation framework
3 实验结论
- 范式转变提升模型性能(RQ1)
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
KDD 2025 | 多任务离线强化学习MTORL助力推荐系统广告优化
图片
长按关注,更多精彩
图片
点个在看你最好看