关注我们,一起学习
标题: OptDist: Learning Optimal Distribution for Customer Lifetime Value Prediction
地址:https://arxiv.org/pdf/2408.08585
会议:CIKM 2024
- 导读 =======
本文主要是针对cltv预估问题提出对应的最有分布选择模型(OptDist)。cltv主要存在两个问题
- 有大量用户没有任何消费,并且存在大量长尾的数据,整体呈现零膨胀分布。
- 少数高价值用户的支出比典型用户高出几个数量级,导致CLTV分布范围广泛,很难在单一分布中捕捉到。
现有的CLTV估计方法要么假设先验概率分布,并为所有样本拟合一组与分布相关的参数,要么以启发式方式使用手动预定义的桶直接从后验分布中学习。但这些方法无法处理复杂和可变的分布。OptDist利用自适应最优子分布选择机制来提高复杂分布建模的准确性。
- OptDist在分布学习模块(DLM)中训练了几个候选子分布网络,用于对CLTV的概率分布进行建模。
- 分布选择模块(DSM)为每个样本选择子分布,从而自动自适应地进行选择。
- 设计了一个对齐机制来优化两个模块的训练。
alt text
2.1 分布学习模块 DLM
假设CLTV的整体复杂分布包括几个子分布,每个用户都属于其中一个子分布。使用几个子网络,称为子分布网络(SDN),对每个子分布进行建模。每个SDN都专注于从具有相似分布的用户子集中学习,从而避免存在显著分布差异的用户对模型学习产生影响。
- 确定子分布网络的建模方式,这里作者建模方式采用常见的ZILN损失,
- 设置多少个神经网络可以决定OptDist中的搜索空间。在训练中,每个用户表示被送到固定数量的候选SDN中,从而获得一组不同的ZLIN分布参数。L为超参数,在确定L时需要进行权衡。如果L太大,将增加搜索负担,而太小将导致模型无法拟合复杂的分布。每个SDN的损失表示为下式,就是ziln的损失函数,C表示是否会支用
最终结合选择模块(DSM)产生的mask向量来得到最终的损失函数
2.2 分布选择模块 DSM
OptDist采用MLP作为最优分布选择网络,通过softmax得到权重,表示如下,
使用softmax操作可能会产生相对平滑的权重。这可能会导致所选的SDN训练受到其他SDN损失的影响,从而导致次优结果。同时又需要避免类似argmax这类离散选择导致不可导的情况,所以作者采用了Gumbel-softmax,这也是一种比较常见的选择
其中是温度参数,控制Gumbel-softmax分布和离散分布之间的近似程度。当\tau接近0时,效果变得更接近arg-max运算,从而得到掩码向量。
2.3 对齐机制
根据再2.1介绍的总体损失函数,其中需要考虑SDN的ziln损失和dsm产生的mask向量,DLM模块会更新SDN参数,而DSM也会相应地更新选择策略,使优化变得困难和次优。本节中作者提出了一种受元伪标签(meta pseudo)启发的对齐机制。
alt text
OptDist中,DLM模块中的每个SDN都使用DSM分配给该子分布的数据进行训练。但在优化过程中,OptDist中的两组单独的参数会相互干扰。同时,DSM缺乏明确的监督信号,很难与DLM的输出对齐。仅仅依靠损失来训练是不够的。通过对每个用户的不同SDN生成的损失值进行归一化,对齐机制可以生成伪标签来指导DSM的训练,从而降低搜索DSM最优子分布的难度。如图3所示,当给定一组可能分布的损失值,可以从这些损失值中获得硬伪标签:
可以为DSM构建交叉熵损失,同时在实际应用中,CLTV的分类是不平衡的,这可能会导致高价值用户的交叉熵被忽视,使DSM难以区分它们。因此,在交叉熵损失中使用类似focal loss的操作。损失函数为下式,
然后根据每个子分布的损失生成软标签,
越大,第i个子分布就越适合用户u。采用DLM和DSM之间的Kullback-Leibler(KL)散度来实现上述目标:
硬标签可以使DSM专注于DLM信息,而忽略其他标签信息,软标签使模型可以考虑不同分布之间的关系。OptList的总体损失定义为:
在推理的时候,就基于得到的通过argmax找到最大的值对应的index然后采用对应的SDN来进行预测
alt text
交流群:点击“联系 作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
长按关注,更多精彩
点个在看你最好看