关注我们,一起学习
标题:An Unified Search and Recommendation Foundation Model for Cold-Start Scenario
地址:https://arxiv.org/pdf/2309.08939.pdf
会议:CIKM 2023
公司:蚂蚁
本文主要尝试将大模型LLM用于多领域推荐模型,常见的多任务模型包含共享层和特定任务的层来训练模型。本文提出采用LLM来提取域不变特征,并使用门控融合各个特征,包括域不变特征,特定任务的特征以及其他ID特征等,从而得到查询和item的表征。并且,使用域自适应模块训练多个场景的样本,得到多领域基础模型,然后可以通过预训练微调的方式将多领域基础模型用于冷启动场景。
本文的特点:
- 用LM提取查询和item的文本特征,缓解冷启动时缺乏ID类特征的问题
- 通过门控融合在融合样本中不同方面特征(文本,ID类特征,稀疏特征等)的同时,加入域信息(随机初始化的域emb),使得得到的最终emb中融合了每个域各自的信息
- 在多任务学习阶段和以往的方式类似,在得到基础模型后,针对下游的任务,作者提出可以采用微调的方式,即在得到多任务模型后,再针对单场景进行微调
如图所示,本文所提方法主要包含三部分,分别是编码(user-query-item encoding),门控融合(aspect gating fusion)和域自适应多任务模块(domain adaptive mtl)。
- 首先,用户、查询和item的原始特征通过emb层,提取ID emb、token级文本emb和稀疏特征emb。用LLM提取查询和item的域不变文本特征,这最大限度地减少了特征在多个域之间的分布差异。
- 其次,门控融合模块用于合并不同组的ID、文本、稀疏特征的emb。融合网络是为了平衡ID、文本和稀疏特征的相对重要性。在冷启动的时候,样本中包含的ID特征会比较少,导致他们的表征是不足的,可以通过本文特征来增强表征。
- 最后,将用户、查询和item的级联emb提供给域自适应MTL模块进行ctr预估和查询item相关性预测。损失函数包含三部分,点击率预估损失,相关性损失函数和域自适应正则项
2.1 编码层
正如前文所述,结合框架图,可以发现,对于用户特征,我们可以考虑用户本身具有的特征和用户的历史交互序列数据,经过emb和transformer后得到用户的emb;对于查询和item在考虑其自身特征外,通过LLM提取文本特征。
2.1.1 LLM作为域不变特征提取器
使用bert,gpt等预训练好的语言模型从查询和item中提取域不变的文本特征,表示为和,首先查询和item共享相同的词汇表,对查询和item分词后可以得到各自的token和对应的emb,查询的token emb表示为,对于item也同理可以得到。
经过平均池化和线性映射后得到域不变的本文特征,公式如下(以查询为例),需要注意的是,W和在对查询和item操作的时候是共享的。同样也对ID类特征做先行映射,使他们具有相同的维度,表示为和,对于稀疏特征经过MLP得到同样为度的和
考虑提取文本特征的原因是 ,冷启动的时候,新的item和查询会缺乏ID类特征,而通过语言模型提取文本信息有助于产出有效的表征。而LLM是预训练好的,不受训练推荐模型的各个域的数据的影响,因此有助于提取域不变特征。
2.2 门控融合
在通过编码层得到对应的emb后,从不同方面融合查询和item的emb。每个方面表示一些细粒度的属性,如ID类特征,文本特征和稀疏特征。对于这三方面的emb,进行加权求和,从而融合三方面的信息,表达如下,a表示不同的方面,即上面说的ID,稀疏特征和文本特征,w为权重,E为对应的emb。
而权重可以通过以下几种方式
-
平均:如果像上面一样考虑三个方面,则权重为1/3
-
[CLS]-门控策略:和bert类似,这里也设置一个[CLS]token作为分类标志,可以分别得到查询和item的和,结合各自的emb通过softmax计算权重
-
域门控策略:为每个域初始化一个emb得到,K为域的个数,后续的计算方式和[CLS]门控策略类似
2.3 域自适应多任务学习
将编码层得到的用户,查询和item的emb拼接后作为域自适应多任务学习模块的输入,常用的多任务学习方法包括MMoE,PLE等,他们都是通过共享层来捕获不同域之间的相似性,然后再用独立分支来捕获任务特定的信息。多领域模型常见的问题就是域偏移(domain shift)问题,即不同域的数据分布存在差异。
本文将域自适应层添加到输入特征 , 将来自多个域的输入映射到公共向量空间。对于第k个域的输入数据,将门控策略中得到的域的emb与输入拼接后经过线性变换得到域自适应的表征,公式为
同样基于之前的工作,本文的方法也在多任务学习中加入了JS散度来约束不同域之间的分布,整体结构采用现有的方案,如MMoE。
每个域分支的输入为前面所述的用户,查询和item的emb,输出是对点击率ctr和查询-item相关性的预测。
2.4 下游任务有监督微调
经过预训练的基础模型可以以预训练微调的方式使下游任务受益。下游模型从基础模型中恢复参数,冻结部分参数并微调其余层。作者试验了不同的冻结微调拆分方式。
- 冻结预训练好的emb(图1中的L0),其余层进行微调
- 冻结emb和编码层参数,其余层进行微调
表2反映不同方法之间的对比结果,最后两个方法是本文所题方法,即MMoE作为多任务模块,结合域自适应(DA)和分布约束MMD或JS散度 表3反映文本提取的语言模型和下游微调的实验结果
交流群:点击“联系 作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
HAMUR:为多域推荐(MDR)设计适配器缓解参数干扰和分布差异的影响
MemoNet:用codebook记住所有的交叉特征来做CTR估计
长按关注,更多精彩
点个在看你最好看