CIKM'24 | OptDist: 学习最优分布进行LTV预估

NoSQL数据库机器学习算法

picture.image

关注我们,一起学习

标题: OptDist: Learning Optimal Distribution for Customer Lifetime Value Prediction

地址:https://arxiv.org/pdf/2408.08585

会议:CIKM 2024

  1. 导读 =======

本文主要是针对cltv预估问题提出对应的最有分布选择模型(OptDist)。cltv主要存在两个问题

  • 有大量用户没有任何消费,并且存在大量长尾的数据,整体呈现零膨胀分布。
  • 少数高价值用户的支出比典型用户高出几个数量级,导致CLTV分布范围广泛,很难在单一分布中捕捉到。

现有的CLTV估计方法要么假设先验概率分布,并为所有样本拟合一组与分布相关的参数,要么以启发式方式使用手动预定义的桶直接从后验分布中学习。但这些方法无法处理复杂和可变的分布。OptDist利用自适应最优子分布选择机制来提高复杂分布建模的准确性。

  • OptDist在分布学习模块(DLM)中训练了几个候选子分布网络,用于对CLTV的概率分布进行建模。
  • 分布选择模块(DSM)为每个样本选择子分布,从而自动自适应地进行选择。
  • 设计了一个对齐机制来优化两个模块的训练。
2.方法

picture.image

alt text

2.1 分布学习模块 DLM

假设CLTV的整体复杂分布包括几个子分布,每个用户都属于其中一个子分布。使用几个子网络,称为子分布网络(SDN),对每个子分布进行建模。每个SDN都专注于从具有相似分布的用户子集中学习,从而避免存在显著分布差异的用户对模型学习产生影响。

  • 确定子分布网络的建模方式,这里作者建模方式采用常见的ZILN损失,
  • 设置多少个神经网络可以决定OptDist中的搜索空间。在训练中,每个用户表示被送到固定数量的候选SDN中,从而获得一组不同的ZLIN分布参数。L为超参数,在确定L时需要进行权衡。如果L太大,将增加搜索负担,而太小将导致模型无法拟合复杂的分布。每个SDN的损失表示为下式,就是ziln的损失函数,C表示是否会支用

最终结合选择模块(DSM)产生的mask向量来得到最终的损失函数

2.2 分布选择模块 DSM

OptDist采用MLP作为最优分布选择网络,通过softmax得到权重,表示如下,

使用softmax操作可能会产生相对平滑的权重。这可能会导致所选的SDN训练受到其他SDN损失的影响,从而导致次优结果。同时又需要避免类似argmax这类离散选择导致不可导的情况,所以作者采用了Gumbel-softmax,这也是一种比较常见的选择

其中是温度参数,控制Gumbel-softmax分布和离散分布之间的近似程度。当\tau接近0时,效果变得更接近arg-max运算,从而得到掩码向量。

2.3 对齐机制

根据再2.1介绍的总体损失函数,其中需要考虑SDN的ziln损失和dsm产生的mask向量,DLM模块会更新SDN参数,而DSM也会相应地更新选择策略,使优化变得困难和次优。本节中作者提出了一种受元伪标签(meta pseudo)启发的对齐机制。

picture.image

alt text

OptDist中,DLM模块中的每个SDN都使用DSM分配给该子分布的数据进行训练。但在优化过程中,OptDist中的两组单独的参数会相互干扰。同时,DSM缺乏明确的监督信号,很难与DLM的输出对齐。仅仅依靠损失来训练是不够的。通过对每个用户的不同SDN生成的损失值进行归一化,对齐机制可以生成伪标签来指导DSM的训练,从而降低搜索DSM最优子分布的难度。如图3所示,当给定一组可能分布的损失值,可以从这些损失值中获得硬伪标签:

可以为DSM构建交叉熵损失,同时在实际应用中,CLTV的分类是不平衡的,这可能会导致高价值用户的交叉熵被忽视,使DSM难以区分它们。因此,在交叉熵损失中使用类似focal loss的操作。损失函数为下式,

然后根据每个子分布的损失生成软标签,

越大,第i个子分布就越适合用户u。采用DLM和DSM之间的Kullback-Leibler(KL)散度来实现上述目标:

硬标签可以使DSM专注于DLM信息,而忽略其他标签信息,软标签使模型可以考虑不同分布之间的关系。OptList的总体损失定义为:

在推理的时候,就基于得到的通过argmax找到最大的值对应的index然后采用对应的SDN来进行预测

3 实验

picture.image

alt text

交流群:点击“联系 作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

HMDN:用于点击率预测的分层多分布网络

ECUP:上下文增强的全链路uplift建模

腾讯 | MDAN: 多分布自适应网络进行LTV预测

长按关注,更多精彩

点个在看你最好看

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论