WWW'23「百度」基于Decision Transformer的以用户留存为目标的推荐方法

ClickHouse

picture.image

关注我们,一起学习~

标题:User Retention-oriented Recommendation with Decision Transformer

地址:https://arxiv.org/pdf/2303.06347.pdf

代码:https://github.com/kesenzhao/DT4Rec.git

会议:WWW 2023

学校,公司:香港城市大学,百度

  1. 导读 =====

本文采用强化学习来提高用户留存,从头开始通过在线交互的方式训练模型会损害用户体验,而现有离线强化学习不稳定,并且对于没见过的策略结果会很差,本文采用近几年提出的决策Transformer(decision transformer,DT)来做用户留存,即把强化学习转换为自回归问题。这个过程需要考虑一下几点:

  1. 如何对奖励进行建模
  2. 训练和推理之间存在的数据差异
  3. 如何进行有效的离线评估

本文首先通过元embedding的加权聚合来得到有效的奖励提示,用于信息丰富的奖励embedding。然后,设计了一种加权对比学习方法来解决训练和推理之间的差异。设计了两个鲁棒的离线指标来衡量用户留存率。

  1. 方法 =====

2.1 问题定义

令用户已经交互的商品序列为,t表示第t次推荐,基于上述的历史交互行为来预测后续会交互的商品序列表示为,目标可以表示为下式,

序列推荐的优化目标可以有两类:

  1. 常见的是采用即时反馈
  2. 长期用户参与度,即用户在一段时间内(即接下来的K天,K个月等)的登录次数,当然也可以是其他标准,公式如下,表示是否登录。

序列推荐中的MDP定义,状态是当前已经交互的商品即,动作时后续可能交互的商品序列,策略即为,每次推荐前,将最近交互的商品拼接到当前历史交互序列得到新的状态,而奖励就是前面所述的用户参与度e。整个轨迹可以表示为。

2.2 基于Decision Transformer的推荐

picture.image如图所示,主要由以下几部分组成:

  • Embedding模块:这部分主要是对状态,动作和奖励进行编码,在DT的顺序一般为对应的embedding表示为,为累积奖励,T为总的轮次(在DT里面称之为reward to go,即最终要达到的总奖励大小,然后每次往后走一步,就减掉当时得到的奖励)。
  • 对于状态和动作都是序列,作者采用GRU来进行编码,而奖励是很重要的一环,作者采用奖励提示来得到对应的embedding
  • 决策模块:以为上下文信息来生成下一时刻需要的内容(类似GPT的方式,即自回归)
  • 动作解码器:基于上述的上下文信息A,动作解码器需要生成动作来匹配真实的动作
  • 有监督的策略学习:目标是希望生成的动作和真实的动作之间的损失越小越好,所以真实动作就是标签,这是一个监督学习过程。

2.3 奖励提示

奖励是数值类型的,DT生成的提示应该保持奖励之间的偏序关系,即如果两个奖励相似,那么它们生成的提示之间的欧几里得距离较小。通过自动离散化方法生成更有效的提示,如图1所示,该方法包括离散数值和自动加权聚合MLP学习的元embedding。相似的奖励会共享相似的embedding。根据奖励值,将其转换为B个可学习embedding的聚合,公式如下,其中M包含B个embedding,为softmax,σ为leaky relu

2.4 状态-动作编码器

动作编码器将动作映射到向量,固定长度为N后采用GRU处理序列,表示如下,最后一个时间步的隐藏层的embedding作为动作的embedding。

2.5 Transformer决策块

这里采用Transformer来对轨迹序列建模,选择单向Transformer层作为建模复杂特征交互的骨干模型,这在生成任务使用跳跃连接来缓解过度拟合,并使用前馈神经层来进行特征的线性映射。因此,用于推荐者决策的上下文信息可以公式化为下式,其中为预测的动作矩阵embedding,第t行为,。

2.6 动作解码器

给定交互的商品,时间步,动作编码后需要对预测出的动作embedding进行解码,这里同样采用GRU,公式如下,其中表示的embedding,表示预测的在n+1位置的商品,表示拼接。没有信息来预测第一个商品,所以bos来表示开始,随机初始化

对于预测的商品长度是不固定的,因此在序列结尾加了eos表示结束,在预测的时候,遇到eos就结束。

2.7 对比有监督策略学习

在DT中,只有最大奖励将用于推理,因为它被设计为生成具有最大奖励的动作。因此,具有小奖励的样本可能无法得到充分利用。为了充分利用样本中的知识,本文使用加权对比学习方法,将具有较小奖励的动作视为负样本,以避免推荐小奖励的动作。因此,目标函数由两部分组成,CE损失和加权对比学习损失。

2.7.1 加权对比损失

对于每个样本,使用相同的动作和状态,但是奖励值不同,使用负样本预测得到的动作矩阵为,加权的对比损失设计如下,为负样本集合,计算两个序列之间的相似度,对各自做均值池化后计算内积,加权的超参数集合,权重与奖励值成反比,较小的奖励会降低用户留存率,即奖励越小,这个损失的权重就越大,embedding之间的差别就要越大。

2.7.2 交叉熵损失

除了对比损失之外,保留原来的交叉熵损失函数,Y是标签矩阵,为预测值。

最终的损失函数为

  1. 结果 =====

picture.image image.png

交流群:点击“联系 作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

[多场景多任务推荐方法汇总

2023-03-26

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247494195&idx=1&sn=9dd80afa14c368f5f3c9e5d2fef2ac44&chksm=c150e937f6276021a2954beac45a46864b8b809f1a5dbf255048149f1531a69a9e8320bb5211&scene=21#wechat_redirect)

[WWW'23「腾讯」在推荐系统中使用停留时间重新加权点击行为

2023-03-21

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247494175&idx=1&sn=c06a6b5dff20242298334e25e39cd0da&chksm=c150e91bf627600dd118f09069f5c945861e2daa812fb28244ab43ea0df86f8f11a2407104af&scene=21#wechat_redirect)

[WWW2023 | 推荐系统,因果推断论文集锦

2023-03-19

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247494153&idx=1&sn=761fb7442e38f5e13405f26693c5ac2a&chksm=c150e90df627601bf799818b3f0a1e521934824f6d681c98d2546c0a7dcb939a0b2d744f5aeb&scene=21#wechat_redirect)

picture.image

长按关注,更多精彩

picture.image

picture.image

点个在看你最好看

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论