STEM:释放多任务推荐中embedding的力量

技术

picture.image

关注我们,一起学习

标题: STEM: Unleashing the Power of Embeddings for Multi-task Recommendation

地址:https://arxiv.org/pdf/2308.13537.pdf

学校,公司:清华,腾讯

会议:AAAI 2024

  1. 导读 =======

本文主要针对 多任务 学习在推荐系统中应用时的 负迁移 问题提出的相关方法。现有的方法通常是在所有样本中探索负迁移性,忽略了其中固有的复杂性。作者根据任务之间的相对正反馈量对样本进行拆分,从而深入研究样本的复杂性。

picture.image

作者做了这样一个实验,将数据集中两个任务划分成三部分:finish正样本占主导,like占主导和两个势均力敌。x轴表示两个任务的占比大小,越往左finish的正样本越多。y轴表示多任务模型相比单模型的AUC的提升,可以发现在两侧多任务模型都有提升,但是在中间是负向的(MMoE,PLE),而STEM可以缓解这个问题。

MMoE和PLE都有共享embedding,所以作者认为可能是这个原因,因此在设计STEM-Net的时候,每个专家组都有自己对应的emb table。并且在门控上也进行了设计,防止任务之间互相干扰。

2.方法

picture.image

Alt text

2.1 共享的和任务特定的emb层

令为M个field的特征,分别有共享的emb table 和任务特定的emb table ,N为所有field中的特征数,K为emb维度。则每个field的特征我们都可以得到:

将所有特征的emb拼接得到

2.2 共享的和任务特定的专家网络

如图3所示,中间的是共享的专家网络,其他的是不同任务的专家网络,这里和PLE是一样的。不同的是,这里 每个专家网络组都有各自对应的emb table ,防止其他参数的干扰。基于此,可以形式化为下式,其中K表示专家组中专家网络的个数。

2.3 定制门控机制

门控机制主要是用来集成不同的专家网络的表征 ,在STEM-Net中,门控机制确保某个特定任务的专家网络和emb不会因其他任务的梯度更新而更新,防止其他任务影响当前任务。这个门控操作是用来停止梯度反向传播的,如下式所示对于任务t,门控网络的输出由三部分

  • 第一项,是任务t对应的门控网络权重对任务t专家组内各个专家产出的emb进行加权,这部分是有梯度的
  • 第二项,是共享的门控权重和共享的专家组emb加权,也有梯度
  • 第三项,这部分只使用其他任务的信息,但不让当前任务去影响其他任务,因此梯度不会回传(SG表示stop gradient)

其中d是变换后的维度。

2.3 预测塔和损失函数

预测tower部分是类似的,每个任务对应一个预测tower进行该任务的预估,若是分类任务则采用常规的交叉熵损失函数

2.4 门控网络对比

picture.image

门控机制的对比如图4所示。与MMoE相比,STEM-Net门控机制针对特定任务和共享专家进行了优化,而MMoE的门控网络则无差别地更新所有专家。与PLE相比,STEM-Net允许塔直接传递来自其他任务专家的知识,而PLE的门网络需要共享专家作为知识传递的中介,这可能会导致信息丢失。

  1. 结果 =====

平均AUC是最高的

picture.image

交流群:点击“联系 作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

AT4CTR: 对比学习构建辅助任务提升CTR预估性能

华为 | Uni-CTR:基于LLM的multi-domain CTR预测统一框架

闲聊因果效应:当我们聊因果时,我们在聊什么

CTRL:对齐协作信号和LLM语义信息进行CTR估计

长按关注,更多精彩

点个在看你最好看

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动基于 DataLeap 的 DataOps 实践
随着数字化转型的推进以及业务数仓建设不断完善,大数据开发体量及复杂性逐步上升,如何保证数据稳定、正确、持续产出成为数据开发者核心诉求,也成为平台建设面临的挑战之一。本次分享主要介绍字节对于DataOps的理解 以及 DataOps在内部业务如何落地实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论