CIKM'24 | OptDist: 学习最优分布进行LTV预估 - 文章 - 开发者社区

picture.image

关注我们，一起学习

标题: OptDist: Learning Optimal Distribution for Customer Lifetime Value Prediction

地址：https://arxiv.org/pdf/2408.08585

会议：CIKM 2024

导读 =======

本文主要是针对cltv预估问题提出对应的最有分布选择模型（OptDist）。cltv主要存在两个问题

有大量用户没有任何消费，并且存在大量长尾的数据，整体呈现零膨胀分布。
少数高价值用户的支出比典型用户高出几个数量级，导致CLTV分布范围广泛，很难在单一分布中捕捉到。

现有的CLTV估计方法要么假设先验概率分布，并为所有样本拟合一组与分布相关的参数，要么以启发式方式使用手动预定义的桶直接从后验分布中学习。但这些方法无法处理复杂和可变的分布。OptDist利用自适应最优子分布选择机制来提高复杂分布建模的准确性。

OptDist在分布学习模块（DLM）中训练了几个候选子分布网络，用于对CLTV的概率分布进行建模。
分布选择模块（DSM）为每个样本选择子分布，从而自动自适应地进行选择。
设计了一个对齐机制来优化两个模块的训练。

2.方法

picture.image

alt text

2.1 分布学习模块 DLM

假设CLTV的整体复杂分布包括几个子分布，每个用户都属于其中一个子分布。使用几个子网络，称为子分布网络（SDN），对每个子分布进行建模。每个SDN都专注于从具有相似分布的用户子集中学习，从而避免存在显著分布差异的用户对模型学习产生影响。

确定子分布网络的建模方式，这里作者建模方式采用常见的ZILN损失，
设置多少个神经网络可以决定OptDist中的搜索空间。在训练中，每个用户表示被送到固定数量的候选SDN中，从而获得一组不同的ZLIN分布参数。L为超参数，在确定L时需要进行权衡。如果L太大，将增加搜索负担，而太小将导致模型无法拟合复杂的分布。每个SDN的损失表示为下式，就是ziln的损失函数，C表示是否会支用

最终结合选择模块(DSM)产生的mask向量来得到最终的损失函数

2.2 分布选择模块 DSM

OptDist采用MLP作为最优分布选择网络，通过softmax得到权重，表示如下，

使用softmax操作可能会产生相对平滑的权重。这可能会导致所选的SDN训练受到其他SDN损失的影响，从而导致次优结果。同时又需要避免类似argmax这类离散选择导致不可导的情况，所以作者采用了Gumbel-softmax，这也是一种比较常见的选择

其中是温度参数，控制Gumbel-softmax分布和离散分布之间的近似程度。当\tau接近0时，效果变得更接近arg-max运算，从而得到掩码向量。

2.3 对齐机制

根据再2.1介绍的总体损失函数，其中需要考虑SDN的ziln损失和dsm产生的mask向量，DLM模块会更新SDN参数，而DSM也会相应地更新选择策略，使优化变得困难和次优。本节中作者提出了一种受元伪标签（meta pseudo）启发的对齐机制。

picture.image

alt text

OptDist中，DLM模块中的每个SDN都使用DSM分配给该子分布的数据进行训练。但在优化过程中，OptDist中的两组单独的参数会相互干扰。同时，DSM缺乏明确的监督信号，很难与DLM的输出对齐。仅仅依靠损失来训练是不够的。通过对每个用户的不同SDN生成的损失值进行归一化，对齐机制可以生成伪标签来指导DSM的训练，从而降低搜索DSM最优子分布的难度。如图3所示，当给定一组可能分布的损失值，可以从这些损失值中获得硬伪标签：

可以为DSM构建交叉熵损失，同时在实际应用中，CLTV的分类是不平衡的，这可能会导致高价值用户的交叉熵被忽视，使DSM难以区分它们。因此，在交叉熵损失中使用类似focal loss的操作。损失函数为下式，

然后根据每个子分布的损失生成软标签,

越大，第i个子分布就越适合用户u。采用DLM和DSM之间的Kullback-Leibler（KL）散度来实现上述目标：

硬标签可以使DSM专注于DLM信息，而忽略其他标签信息，软标签使模型可以考虑不同分布之间的关系。OptList的总体损失定义为：

在推理的时候，就基于得到的通过argmax找到最大的值对应的index然后采用对应的SDN来进行预测

3 实验

picture.image