关注我们,一起学习
标题:Mini-Game Lifetime Value Prediction in WeChat
地址:https://arxiv.org/pdf/2506.11037
学校,公司: 港科大,腾讯
会议:KDD 2025
论文解决的问题
- 现实广告场景中数据匮乏问题:注册用户购买率低至
,多数用户仅进行几次购买,缺乏有效训练 LTV 预测模型的监督信号。
- 高相关性任务间的相互依赖问题:不同时间间隔的用户贡献预测任务高度相关,特殊情况会影响多个任务的预测准确性。
论文的创新点
提出 Graph - Represented Pareto - Optimal LifeTime Value prediction (GRePO - LTV) 框架。先利用图表示学习解决数据稀缺问题,再用 Pareto - Optimization 处理预测任务的相互依赖关系。经离线小游戏推荐数据集和在线 A/B 测试评估,离线数据集效果显著提升,A/B 测试使平均商品交易总额(GMV)提高
。 本文介绍了图表示学习(Graph Representation Learning, GRL)和图表示帕累托最优生命周期价值预测模型(Graph-Represented Pareto-Optimal LTV, GRePO-LTV)的方法,具体内容如下:
方法
图表示学习
在实际应用中,获取足够的监督信号来确定用户的生命周期价值(LTV)是一项挑战,因为大多数用户的购买行为稀疏。图表示学习技术可利用用户 - 物品交互图的结构,即使在直接行为数据有限的情况下,也能学习到鲁棒的用户和物品嵌入。
- 图构建 :通过识别“元路径”构建同质图,包括用户 - 游戏 - 用户和游戏 - 用户 - 游戏交互模式。用户图中,若两个用户与同一个游戏有交互,则存在一条边,边的权重与他们共同交互的游戏数量成正比;游戏图中,若两个游戏被同一个用户交互过,则存在一条边,边的强度由共同用户的数量决定。
- 无监督学习 :采用掩码技术,随机隐藏部分边和节点属性,训练目标是重构这些被掩码的元素,使模型学习节点的鲁棒表示。
- 损失函数 :由边重构损失和属性重构损失两部分组成。
- 边重构损失:
其中,
表示元路径集合(本文中
),
和
分别表示邻接矩阵及其重构版本,
是元路径
的节点集合,
是用于缩放重构损失的超参数。 - 属性重构损失:
其中,
表示被掩码的节点集合,
和
分别表示节点
的属性向量及其掩码后的重构版本,
是属性重构损失的缩放系数。 - 总损失:
其中,
是超参数。
3.2 GRePO - LTV 的骨干结构
GRePO - LTV 由四个关键组件组成:编码层、适应层、TIN 模块和塔层。
- 编码层 :特征处理从分类用户和物品属性开始,通过嵌入查找表将其转换为嵌入向量。每个特征被组织成不同的字段,以保留不同属性类型的语义结构。场加权因子分解机(Field - weighted Factorization Machine, FwFM)用于建模跨字段交互。
- 适应层 :结合了两种域适应机制:EPNet 和 Partitioned Norm。
- EPNet:通过门控神经单元(Gate NU)引入特定于域的特征调制。
其中,
是输入特征嵌入,
是域嵌入,
表示特征列数,
表示嵌入维度。
- Partitioned Norm:扩展了传统的批量归一化(Batch Normalization, BN),引入特定于域的归一化参数和统计量,以解决特征归一化中的域分布偏移问题。
其中,
是特定于域的归一化参数,
是特定于域的统计量。
- TIN 模块 :使用时间兴趣网络(Temporal Interest Network, TIN)对用户行为中的时间和语义关系进行编码。通过增强 TIN 与用户 ID 嵌入,提高对目标游戏特征的行为序列建模能力。
- 塔层 :集成和处理各种嵌入以生成最终预测。采用 AdaSparse 进行特定于域的神经元过滤,适应每个域的网络结构。为处理用户价值的长尾分布,采用零膨胀对数正态分布(Zero - Inflated Lognormal Distribution, ZILN)建模方法。
3.3 帕累托优化
在多周期预测中,训练一个在所有时间范围内都表现出色的模型具有挑战性。为解决这一问题,采用帕累托优化技术训练上述组件,包括两个主要阶段:
- 非支配梯度下降 :识别非支配梯度,平衡多个任务(如 3/7/30 - Value)的梯度方向,缓解梯度冲突问题。通过反向传播各目标的导数定义梯度矩阵
,并求解二次规划问题确定非支配下降方向
:
其中,
是锚定方向,
是超参数,
是预定义的权重向量,表示每个周期的重要性。
- 最优搜索 :在可能的帕累托前沿上搜索,找到一个在所有时间范围内表现良好且平衡的模型。定义权重向量
在单位球面上,其倾斜角和方位角范围为
到
。
其中,
,φ=arccos v, u 和
是随机生成的变量,范围为
到
。
帕累托优化的目标函数集定义为
,其中
是
- Value 任务的目标函数:
其中,
是数据样本批次,
。
实验结论
- 整体性能
- 本方法在三个指标上大幅优于其他基线,相对第二好方法在三个指标上分别提升14.0%、3.6%和1.6%。LTV预测特定模型通常优于经典时间序列预测模型。
- 多数方法难同时准确预测三个时间窗口LTV,本方法虽共享骨干网络,各目标仍能达最优。
- 性能对比表如下:
- 图表示学习有效性
- 对历史支付二分图进行图表示学习(GRL)缓解LTV数据稀疏问题。本方法对数据稀疏最不敏感,去除GRL配置后抗稀疏能力大幅下降。
- 不同方法N - GINI值随训练数据丢弃比例变化图如下:
- 帕累托优化有效性
- 实施帕累托优化策略可使多次训练结果相关性更高,不使用则结果相关性弱。
- 40个三维AUC向量相关矩阵图如下:
- 在线A/B测试
准确性 :本方法在三个时间窗口LTV和GMV指标上持续改进,Pareto和GRL设计显著提升性能,短期(3天)改善最大归因于Pareto策略。
稳定性 :本方法Diff值约为基线一半,稳定性优越,保证在线实验准确性比较的可靠性。稳定性评估公式为:
- A/B测试结果表如下:
- 稳定性分析图如下:
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
KDD'25 | 用于推荐系统的预训练scaling transformer
图片
长按关注,更多精彩
图片
点个在看你最好看