关注我们,一起学习
标题: A Unified Framework for Multi-Domain CTR Prediction via Large Language Models
地址:https://arxiv.org/pdf/2312.10743.pdf
公司:华为
- 导读 =======
本文主要针对使用LLM进行跨域点击率预估提出相关的方法。现有的方法存在以下不足:
- 以往的方法是将不同domain的ID进行编码,以区分不同的domain,但是这样会忽略底层的语义信息,导致模型很难推广到新的domain。
- 而且现有的模型很容易被一些特定的domain所支配,这导致其他domain的性能显著下降(即“跷跷板现象”)。 本文提出了一种新的方法Uni-CTR,利用LLM学习逐层语义表示捕获domain之间的共性。同时设计域特定的网络来捕捉每个domain的特征 。
Uni-CTR主要由三个模块组成,如图3所示。
- 首先,将特征转化为prompt后,送入LLM得到语义表征。这个过程中LLM对所有域的信息进行融合和语义提取。
- 之后,LLM上面的通用网络对LLM产出的表征进行学习,学习不同域之间的公共信息。通用网络可以极大地提高在不可见域上的零样本预测性能。
- 域特定网络利用来自不同中间层的LLM表征,学习领域特定特征。
2.1 prompt构造
要输入LLM,首先自然是基于特定的prompt将原有的数据特征转换为自然语言的形式,这里主要要包含域信息,用户信息和item信息,如下图所示,私以为这种数据形式每个人都有自己的构造方式,这里就不过多介绍,详情可见paper部分。
2.2 Uni-CTR 框架
2.2.1 LLM部分
LLM部分,主要是要得到LLM对输入特征的表征,如图3所示,我们通过对LLM中不同transformer层emb的提取得到从粗到细粒度的表征,表示为,其中是emb层后的输出也就是进入transformer层的输入,其他为不同层的输出。然后将这些中间层的表征用于域特定网络的学习。
2.2.2 域特定网络
域特定网络包含两部分,梯子网络(ladder net)和门控网络(gate net)。
2.2.2.1 梯子网络
语言模型的每一层在提取语义表示方面都扮演着不同的角色。因此,ladder net的目标是进一步利用LLM每一层的表征来对多个域的特征信息进行建模。然而,向语言模型的每一层添加梯形网络会导致域特定网络的参数过多,因此设置了一个频率超参数f。如图3所示,每隔n层transformer层添加一个ladder net,对于第n层的ladder层,它的输入是LLM在当前transformer的输出加上第n-1层的ladder层的输出。表示为下式
假设LLM有L层,则最后的输出O是将LLM最后一层的输出与前面所述的ladder net的输出拼接,如下所示
2.2.2.2 门控网络
上面连接了LLM和ladder net的表征。然而,ladder net主要用于对领域特征进行建模,LLM用于对域共性进行建模。如果将最终输出O直接馈送到最后的tower net中,将 导致难以平衡共性和特性的情况 。因此,设计了一个门控通过加权的方式融合信息,具体如下。
2.2.2.3 tower net
每个域的门控网络的输出为. 将其送入每个域对应的tower net, 用来预测
2.2.3 通用网络
为了提高Uni-CTR在冷启动场景(如零样本设置)中的能力,作者设计了一个通用网络,对多个域的共性进行建模。通用网络的主要目标是支持零样本预测能力。通用网络基于所有域的数据进行训练,使其能够在看不见的域进行有效预测。通过对不同数据的训练,这个共享的通用网络获得了通用特征,从而可以在新的域进行准确的预测。
- 结果 =======
交流群:点击“联系 作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
长按关注,更多精彩
点个在看你最好看