WSDM'22「阿里」广告：多场景多任务元学习

picture.image

关注我们，一起学习

picture.image

title：Leaving No One Behind: A Multi-Scenario Multi-Task Meta Learning Approach for Advertiser Modeling

link：https://arxiv.53yu.com/pdf/2201.06814.pdf

from：WSDM 2022

导读

广告商在许多电子商务平台中发挥着至关重要的作用。很多模型是基于点击率预测对用户建模，广告商受到的关注相对较少，尤其是在了解他们的多样化需求和表现方面。与用户建模不同，广告客户建模通常涉及 多种任务 （例如预测 广告客户的支出、活跃率或促销产品的总印象数 ）。此外，各大电商平台往往会提供 多种营销场景 （如Sponsored Search、Display Ads、Live Streaming Ads），而广告主的行为往往分散在其中。面临这种多任务多场景的情况，主要需要面对以下挑战，

首先，每个场景或每个任务一个模型存在无法扩展的问题；
其次，在数据样本有限的情况下，特别难以对新的或次要的场景进行建模；
第三，场景间的相关性很复杂，并且可能因不同的任务而有所不同。

因此，本文提出了多任务多场景的模型M2M，引入了一个新的 元单元(Meta Unit) ，它结合了丰富的场景知识来学习明确的场景间相关性，并且可以扩展到新场景。此外，本文提出了一个 元注意模块 来捕捉给定 不同任务的不同场景间相关性 ，以及一个 元塔模块 来增强捕捉 场景特定特征表征的能力 。
本文比较有意思的地方时将场景信息(当然也可以衍生至其他信息)结合到权重中,从而使得不同的场景下可以给各个任务提供不同的权重,具体可见Meta Unit。

问题定义

picture.image
如表2所示为不同的特征类型以及其包含的属性，

场景属性：用表示场景相关的信息，包括比如场景类型，赞助搜索、展示广告等；
广告主画像：用表示广告主包含的特征，包括类型，星级等
多类型行为序列：用表示时间依赖的多类型行为序列，其中表示时间步t时，广告主的稀疏或稠密的特征。包括登录，竞价等。
多类型性能序列：用表示时间依赖的多类型性能序列，其中表示稠密或稀疏的特征。包括GMV，ROI等。

多场景多任务预测 ：给定场景属性 S、广告客户画像 A、多类型行为序列 X𝑏 、多类型性能序列 X𝑝 ，需要训练一个统一的模型，来预测多个场景中的多个任务（例如支出、活跃率、点击次数）（例如赞助商搜索、展示广告、明星商店）在接下来的 𝜏 天，可以表述为：

M2M方法 ========

M2M方法主要包含三部分： 主干网络 用于获取特征和任务表征； 元学习机制 包含元注意力模块和元塔模块来捕获丰富的场景内关系，从而促进特定场景的特征表征能力； 基于泊松的多任务学习 用泊松损失对多任务进行预测。总体框架如下，
picture.image

3.1 主干网络

3.1.1 Shared Bottom Embedding

由于这些输入序列特征 {X𝑏 , X𝑝 } 包括不同营销场景的页面查看、点击或支出等连续特征 ，因此

第一步是离散化。离散化后，输入是高维二进制向量。
用embedding层将它们转换为低维密集表征。
最后得到每个时间序列的固定大小的低维向量的embedding，然后可以使用transformer层分别编码这些性能和行为序列特征。

Note ：对每个时间序列使用位置embedding来捕获历史性能或行为序列中的顺序或时间信息。在这里，将可训练的位置embedding连接到每个时间序列嵌入特征中。

3.1.2 Transformer Layer

在将这些特征映射到低维表征后，使用 Transformer 层通过捕获与其他时间序列特征的关系来学习每个时间序列的更深层次的表表征。总体上和Transformer编码部分类似，这个大家都很熟悉了，就简单介绍，
多头自注意力层

最后将X_b和X_p得到的表征进行拼接，公式如下，

3.1.3 Expert View Representation

在transformer层之后，得到了输入特征F的表征，还可以连接广告商的其他稠密特征。然后遵循 MMoE 网络结构，构建获得不同共享表征的混合专家层。公式如下，k表示专家网络的个数，E_i表示第i个专家网络的输出。

3.1.4 Task View Representation

除了embedding特征，受 MRAN[1] 的启发，将所有任务映射到同一空间中，作为任务的“锚点”，并且引入任务的先验知识并影响特征信息的权重。测试集中没有特定的标签信息。因此，提取的任务表征是全局的，而不是局部的。首先使用lookup表将 onehot 任务信息转换为低维密集表征；然后，采用前馈层来改变维度。前馈子层由具有 LeakyReLU 激活的非线性层组成。公式如下，其中T_t表示任务t的锚点表征，m是任务数

3.1.5 Scenario Knowledge Representation

这里结合广告主的用户画像和场景属性来得到场景embedding，公式如下，

3.2 元学习机制

picture.image
为了更好地表征来自不同序列特征的场景特定表征，提出了一种元学习机制，该机制由两个组件组成： 元注意力模块和元残差塔模块 。这两个模块是分层组织的。 元注意力模块位于较低位置以捕获不同的场景间相关性 ， 元残差塔模块位于较高位置以增强捕获特定场景特征表征的能力 ，如图 4 所示。

3.2.1 Meta Unit

为了更好地捕捉场景间的相关性，使用场景知识 作为元单元的输入 。元单元将场景知识转化为元注意力学习和元塔学习的动态权重和偏差参数，可以表示为下式，其中K是总的元单元的层数。

其中的W，b是通过场景知识来得到的，具体过程可以看图中的Meta Unit部分，公式如下，

最终

3.2.2 Meta Attention Module

这部分的注意力机制模块，将场景信息考虑在内，可以帮助注意力模块学习如何在不同场景下产生动态注意力权重，具体公式如下，其中E和T即为上面主干网络部分得到的expert view和task view的表征，对于不同的任务t和专家网络得到的第i个输出，拼接之后经过Meta Unit之后进行转换，然后通过softmax得到分数。场景信息是通过Meta Unit来考虑到的。

对应任务 𝑡 的最终表征 𝑅𝑡 是由注意力权重加权得到，公式如下，

3.2.3 Meta Tower Module

在从元注意力模块获得聚合的潜在表征后，M2M 采用元残差塔模块，该模块还包含元单元来区分不同的场景。由于特定任务的特征模式可能因场景而异，因此简单的共享前馈网络不足以捕获不同的场景信息。为了对这种多样性进行建模，引入了元残差塔模块，如下所示：

3.3 优化

为了以端到端的方式联合训练 M2M，采用联合损失的通用公式，通过计算输入 X 和任务特定标签的每个单独任务的损失的加权和，公式如下，

本文采用Poisson loss作为损失函数,泊松损失是一种广泛使用的离散计数数据损失函数，对于每个任务𝑡，优化以下目标函数：

结果

picture.image

文献

[1] Jiejie Zhao, Bowen Du, Leilei Sun, Fuzhen Zhuang, Weifeng Lv, and Hui Xiong. 2019. Multiple relational attention network for multi-task learning. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1123–1131.

喜欢的话请多多转发哟

往期推荐

WWW'21 | 推荐系统：兴趣感知消息传递的GCN缓解过度平滑问题

ICDE'21 阿里 | 具有球面优化的多方面推荐方法

WSDM'22「微软+美团」探索与利用EE：HCB在整个商品空间探索

交流群：点击“联系作者”--备注“研究方向-公司或学校”

picture.image