WWW'23「百度」基于Decision Transformer的以用户留存为目标的推荐方法

picture.image

关注我们，一起学习~

标题：User Retention-oriented Recommendation with Decision Transformer

地址：https://arxiv.org/pdf/2303.06347.pdf

代码：https://github.com/kesenzhao/DT4Rec.git

会议：WWW 2023

学校，公司：香港城市大学，百度

导读 =====

本文采用强化学习来提高用户留存，从头开始通过在线交互的方式训练模型会损害用户体验，而现有离线强化学习不稳定，并且对于没见过的策略结果会很差，本文采用近几年提出的决策Transformer（decision transformer，DT）来做用户留存，即把强化学习转换为自回归问题。这个过程需要考虑一下几点：

如何对奖励进行建模
训练和推理之间存在的数据差异
如何进行有效的离线评估

本文首先通过元embedding的加权聚合来得到有效的奖励提示，用于信息丰富的奖励embedding。然后，设计了一种加权对比学习方法来解决训练和推理之间的差异。设计了两个鲁棒的离线指标来衡量用户留存率。

方法 =====

2.1 问题定义

令用户已经交互的商品序列为，t表示第t次推荐，基于上述的历史交互行为来预测后续会交互的商品序列表示为，目标可以表示为下式，

序列推荐的优化目标可以有两类：

常见的是采用即时反馈
长期用户参与度，即用户在一段时间内（即接下来的K天，K个月等）的登录次数，当然也可以是其他标准，公式如下，表示是否登录。

序列推荐中的MDP定义，状态是当前已经交互的商品即，动作时后续可能交互的商品序列，策略即为，每次推荐前，将最近交互的商品拼接到当前历史交互序列得到新的状态，而奖励就是前面所述的用户参与度e。整个轨迹可以表示为。

2.2 基于Decision Transformer的推荐

picture.image 如图所示，主要由以下几部分组成：

Embedding模块：这部分主要是对状态，动作和奖励进行编码，在DT的顺序一般为对应的embedding表示为，为累积奖励，T为总的轮次（在DT里面称之为reward to go，即最终要达到的总奖励大小，然后每次往后走一步，就减掉当时得到的奖励）。

对于状态和动作都是序列，作者采用GRU来进行编码，而奖励是很重要的一环，作者采用奖励提示来得到对应的embedding

决策模块：以为上下文信息来生成下一时刻需要的内容（类似GPT的方式，即自回归）
动作解码器：基于上述的上下文信息A，动作解码器需要生成动作来匹配真实的动作
有监督的策略学习：目标是希望生成的动作和真实的动作之间的损失越小越好，所以真实动作就是标签，这是一个监督学习过程。

2.3 奖励提示

奖励是数值类型的，DT生成的提示应该保持奖励之间的偏序关系，即如果两个奖励相似，那么它们生成的提示之间的欧几里得距离较小。通过自动离散化方法生成更有效的提示，如图1所示，该方法包括离散数值和自动加权聚合MLP学习的元embedding。相似的奖励会共享相似的embedding。根据奖励值，将其转换为B个可学习embedding的聚合，公式如下，其中M包含B个embedding，为softmax，σ为leaky relu

2.4 状态-动作编码器

动作编码器将动作映射到向量，固定长度为N后采用GRU处理序列，表示如下，最后一个时间步的隐藏层的embedding作为动作的embedding。

2.5 Transformer决策块

这里采用Transformer来对轨迹序列建模，选择单向Transformer层作为建模复杂特征交互的骨干模型，这在生成任务使用跳跃连接来缓解过度拟合，并使用前馈神经层来进行特征的线性映射。因此，用于推荐者决策的上下文信息可以公式化为下式，其中为预测的动作矩阵embedding，第t行为，。

2.6 动作解码器

给定交互的商品，时间步，动作编码后需要对预测出的动作embedding进行解码，这里同样采用GRU，公式如下，其中表示的embedding，表示预测的在n+1位置的商品，表示拼接。没有信息来预测第一个商品，所以bos来表示开始，随机初始化

对于预测的商品长度是不固定的，因此在序列结尾加了eos表示结束，在预测的时候，遇到eos就结束。

2.7 对比有监督策略学习

在DT中，只有最大奖励将用于推理，因为它被设计为生成具有最大奖励的动作。因此，具有小奖励的样本可能无法得到充分利用。为了充分利用样本中的知识，本文使用加权对比学习方法，将具有较小奖励的动作视为负样本，以避免推荐小奖励的动作。因此，目标函数由两部分组成，CE损失和加权对比学习损失。

2.7.1 加权对比损失

对于每个样本，使用相同的动作和状态，但是奖励值不同，使用负样本预测得到的动作矩阵为，加权的对比损失设计如下，为负样本集合，计算两个序列之间的相似度，对各自做均值池化后计算内积，加权的超参数集合，权重与奖励值成反比，较小的奖励会降低用户留存率，即奖励越小，这个损失的权重就越大，embedding之间的差别就要越大。