关注我们,一起学习~
标题:User Retention-oriented Recommendation with Decision Transformer
地址:https://arxiv.org/pdf/2303.06347.pdf
代码:https://github.com/kesenzhao/DT4Rec.git
会议:WWW 2023
学校,公司:香港城市大学,百度
- 导读 =====
本文采用强化学习来提高用户留存,从头开始通过在线交互的方式训练模型会损害用户体验,而现有离线强化学习不稳定,并且对于没见过的策略结果会很差,本文采用近几年提出的决策Transformer(decision transformer,DT)来做用户留存,即把强化学习转换为自回归问题。这个过程需要考虑一下几点:
- 如何对奖励进行建模
- 训练和推理之间存在的数据差异
- 如何进行有效的离线评估
本文首先通过元embedding的加权聚合来得到有效的奖励提示,用于信息丰富的奖励embedding。然后,设计了一种加权对比学习方法来解决训练和推理之间的差异。设计了两个鲁棒的离线指标来衡量用户留存率。
- 方法 =====
2.1 问题定义
令用户已经交互的商品序列为,t表示第t次推荐,基于上述的历史交互行为来预测后续会交互的商品序列表示为,目标可以表示为下式,
序列推荐的优化目标可以有两类:
- 常见的是采用即时反馈
- 长期用户参与度,即用户在一段时间内(即接下来的K天,K个月等)的登录次数,当然也可以是其他标准,公式如下,表示是否登录。
序列推荐中的MDP定义,状态是当前已经交互的商品即,动作时后续可能交互的商品序列,策略即为,每次推荐前,将最近交互的商品拼接到当前历史交互序列得到新的状态,而奖励就是前面所述的用户参与度e。整个轨迹可以表示为。
2.2 基于Decision Transformer的推荐
如图所示,主要由以下几部分组成:
- Embedding模块:这部分主要是对状态,动作和奖励进行编码,在DT的顺序一般为对应的embedding表示为,为累积奖励,T为总的轮次(在DT里面称之为reward to go,即最终要达到的总奖励大小,然后每次往后走一步,就减掉当时得到的奖励)。
- 对于状态和动作都是序列,作者采用GRU来进行编码,而奖励是很重要的一环,作者采用奖励提示来得到对应的embedding
- 决策模块:以为上下文信息来生成下一时刻需要的内容(类似GPT的方式,即自回归)
- 动作解码器:基于上述的上下文信息A,动作解码器需要生成动作来匹配真实的动作
- 有监督的策略学习:目标是希望生成的动作和真实的动作之间的损失越小越好,所以真实动作就是标签,这是一个监督学习过程。
2.3 奖励提示
奖励是数值类型的,DT生成的提示应该保持奖励之间的偏序关系,即如果两个奖励相似,那么它们生成的提示之间的欧几里得距离较小。通过自动离散化方法生成更有效的提示,如图1所示,该方法包括离散数值和自动加权聚合MLP学习的元embedding。相似的奖励会共享相似的embedding。根据奖励值,将其转换为B个可学习embedding的聚合,公式如下,其中M包含B个embedding,为softmax,σ为leaky relu
2.4 状态-动作编码器
动作编码器将动作映射到向量,固定长度为N后采用GRU处理序列,表示如下,最后一个时间步的隐藏层的embedding作为动作的embedding。
2.5 Transformer决策块
这里采用Transformer来对轨迹序列建模,选择单向Transformer层作为建模复杂特征交互的骨干模型,这在生成任务使用跳跃连接来缓解过度拟合,并使用前馈神经层来进行特征的线性映射。因此,用于推荐者决策的上下文信息可以公式化为下式,其中为预测的动作矩阵embedding,第t行为,。
2.6 动作解码器
给定交互的商品,时间步,动作编码后需要对预测出的动作embedding进行解码,这里同样采用GRU,公式如下,其中表示的embedding,表示预测的在n+1位置的商品,表示拼接。没有信息来预测第一个商品,所以bos来表示开始,随机初始化
对于预测的商品长度是不固定的,因此在序列结尾加了eos表示结束,在预测的时候,遇到eos就结束。
2.7 对比有监督策略学习
在DT中,只有最大奖励将用于推理,因为它被设计为生成具有最大奖励的动作。因此,具有小奖励的样本可能无法得到充分利用。为了充分利用样本中的知识,本文使用加权对比学习方法,将具有较小奖励的动作视为负样本,以避免推荐小奖励的动作。因此,目标函数由两部分组成,CE损失和加权对比学习损失。
2.7.1 加权对比损失
对于每个样本,使用相同的动作和状态,但是奖励值不同,使用负样本预测得到的动作矩阵为,加权的对比损失设计如下,为负样本集合,计算两个序列之间的相似度,对各自做均值池化后计算内积,加权的超参数集合,权重与奖励值成反比,较小的奖励会降低用户留存率,即奖励越小,这个损失的权重就越大,embedding之间的差别就要越大。
2.7.2 交叉熵损失
除了对比损失之外,保留原来的交叉熵损失函数,Y是标签矩阵,为预测值。
最终的损失函数为
- 结果 =====
image.png
交流群:点击“联系 作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
[多场景多任务推荐方法汇总
2023-03-26
[WWW'23「腾讯」在推荐系统中使用停留时间重新加权点击行为
2023-03-21
[WWW2023 | 推荐系统,因果推断论文集锦
2023-03-19
长按关注,更多精彩
点个在看你最好看
