KDD'25 | 微信中小游戏的生命周期预估 - 文章 - 开发者社区

picture.image

关注我们，一起学习

标题：Mini-Game Lifetime Value Prediction in WeChat

地址：https://arxiv.org/pdf/2506.11037

学校，公司: 港科大，腾讯

会议：KDD 2025

论文解决的问题

现实广告场景中数据匮乏问题：注册用户购买率低至

，多数用户仅进行几次购买，缺乏有效训练 LTV 预测模型的监督信号。

高相关性任务间的相互依赖问题：不同时间间隔的用户贡献预测任务高度相关，特殊情况会影响多个任务的预测准确性。

论文的创新点

提出 Graph - Represented Pareto - Optimal LifeTime Value prediction (GRePO - LTV) 框架。先利用图表示学习解决数据稀缺问题，再用 Pareto - Optimization 处理预测任务的相互依赖关系。经离线小游戏推荐数据集和在线 A/B 测试评估，离线数据集效果显著提升，A/B 测试使平均商品交易总额（GMV）提高

。本文介绍了图表示学习（Graph Representation Learning, GRL）和图表示帕累托最优生命周期价值预测模型（Graph-Represented Pareto-Optimal LTV, GRePO-LTV）的方法，具体内容如下：

方法

picture.image

图表示学习

在实际应用中，获取足够的监督信号来确定用户的生命周期价值（LTV）是一项挑战，因为大多数用户的购买行为稀疏。图表示学习技术可利用用户 - 物品交互图的结构，即使在直接行为数据有限的情况下，也能学习到鲁棒的用户和物品嵌入。

图构建 ：通过识别“元路径”构建同质图，包括用户 - 游戏 - 用户和游戏 - 用户 - 游戏交互模式。用户图中，若两个用户与同一个游戏有交互，则存在一条边，边的权重与他们共同交互的游戏数量成正比；游戏图中，若两个游戏被同一个用户交互过，则存在一条边，边的强度由共同用户的数量决定。
无监督学习 ：采用掩码技术，随机隐藏部分边和节点属性，训练目标是重构这些被掩码的元素，使模型学习节点的鲁棒表示。
损失函数 ：由边重构损失和属性重构损失两部分组成。

边重构损失：

其中，

表示元路径集合（本文中

），

和

分别表示邻接矩阵及其重构版本，

是元路径

的节点集合，

是用于缩放重构损失的超参数。 - 属性重构损失：

其中，

表示被掩码的节点集合，

和

分别表示节点

的属性向量及其掩码后的重构版本，

是属性重构损失的缩放系数。 - 总损失：

其中，

是超参数。

3.2 GRePO - LTV 的骨干结构

GRePO - LTV 由四个关键组件组成：编码层、适应层、TIN 模块和塔层。

编码层 ：特征处理从分类用户和物品属性开始，通过嵌入查找表将其转换为嵌入向量。每个特征被组织成不同的字段，以保留不同属性类型的语义结构。场加权因子分解机（Field - weighted Factorization Machine, FwFM）用于建模跨字段交互。
适应层 ：结合了两种域适应机制：EPNet 和 Partitioned Norm。

EPNet：通过门控神经单元（Gate NU）引入特定于域的特征调制。

其中，

是输入特征嵌入，

是域嵌入，

表示特征列数，

表示嵌入维度。

Partitioned Norm：扩展了传统的批量归一化（Batch Normalization, BN），引入特定于域的归一化参数和统计量，以解决特征归一化中的域分布偏移问题。

其中，

是特定于域的归一化参数，

是特定于域的统计量。

TIN 模块 ：使用时间兴趣网络（Temporal Interest Network, TIN）对用户行为中的时间和语义关系进行编码。通过增强 TIN 与用户 ID 嵌入，提高对目标游戏特征的行为序列建模能力。
塔层：集成和处理各种嵌入以生成最终预测。采用 AdaSparse 进行特定于域的神经元过滤，适应每个域的网络结构。为处理用户价值的长尾分布，采用零膨胀对数正态分布（Zero - Inflated Lognormal Distribution, ZILN）建模方法。

3.3 帕累托优化

在多周期预测中，训练一个在所有时间范围内都表现出色的模型具有挑战性。为解决这一问题，采用帕累托优化技术训练上述组件，包括两个主要阶段：

非支配梯度下降 ：识别非支配梯度，平衡多个任务（如 3/7/30 - Value）的梯度方向，缓解梯度冲突问题。通过反向传播各目标的导数定义梯度矩阵

，并求解二次规划问题确定非支配下降方向

：

其中，

是锚定方向，

是超参数，

是预定义的权重向量，表示每个周期的重要性。

最优搜索 ：在可能的帕累托前沿上搜索，找到一个在所有时间范围内表现良好且平衡的模型。定义权重向量

在单位球面上，其倾斜角和方位角范围为

到

。

其中，

，φ=arccos v, u 和

是随机生成的变量，范围为

到

。

帕累托优化的目标函数集定义为

，其中

是

Value 任务的目标函数：

其中，

是数据样本批次，

。

实验结论

整体性能

本方法在三个指标上大幅优于其他基线，相对第二好方法在三个指标上分别提升14.0%、3.6%和1.6%。LTV预测特定模型通常优于经典时间序列预测模型。
多数方法难同时准确预测三个时间窗口LTV，本方法虽共享骨干网络，各目标仍能达最优。
性能对比表如下：

picture.image

图表示学习有效性

对历史支付二分图进行图表示学习（GRL）缓解LTV数据稀疏问题。本方法对数据稀疏最不敏感，去除GRL配置后抗稀疏能力大幅下降。
不同方法N - GINI值随训练数据丢弃比例变化图如下：

picture.image

帕累托优化有效性

实施帕累托优化策略可使多次训练结果相关性更高，不使用则结果相关性弱。
40个三维AUC向量相关矩阵图如下：

picture.image

在线A/B测试

准确性 ：本方法在三个时间窗口LTV和GMV指标上持续改进，Pareto和GRL设计显著提升性能，短期（3天）改善最大归因于Pareto策略。

稳定性 ：本方法Diff值约为基线一半，稳定性优越，保证在线实验准确性比较的可靠性。稳定性评估公式为：

A/B测试结果表如下：

picture.image

稳定性分析图如下：

picture.image 交流群：点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

KDD'25 | 用于推荐系统的预训练scaling transformer

AI搜索新范式！高效深度搜索与动态知识获取的两种范式！

在线营销 | uplift模型纠偏之加权和表征纠偏方法

图片

长按关注，更多精彩

图片

点个在看你最好看

picture.image