AAAI'23「美团」推荐营销中资源分配问题的直接异质因果学习

picture.image

关注我们，一起学习~

标题：Direct Heterogeneous Causal Learning for Resource Allocation Problems in Marketing

地址：https://arxiv.org/pdf/2211.15728.pdf

会议：AAAI 2023

公司，学校：美团，南大

导读

营销是提高用户参与度和提高平台收入的重要机制，异质因果学习可以帮助制定更有效的策略。市场营销中的大多数决策问题都可以表述为资源分配问题。现有的工作通常将求解过程分为两个完全解耦的阶段，即机器学习（ML）和运筹学（OR）：第一阶段预测模型参数，并将其反馈给第二阶段的优化。然而，ML中的预测参数的误差会在OR的运算中累积。 本质上，由于解耦设计的副作用，预测参数的改进精度可能与最终解决方案没有正相关性。

本文提出了一种解决资源分配问题的新方法，以减轻副作用。关键直觉是，引入了决策因素，以在ML和OR之间建立桥梁，从而只需对决策因素执行排序或比较操作，就可以在OR中直接获得解决方案。此外，设计了一个定制的损失函数，该函数可以对决策因素进行直接的异质因果学习，当损失收敛时，可以保证无偏估计。

两阶段和本文所提方法的对比 picture.image

二元干预问题

在常见的营销场景中，我们会基于潜在结果框架（因果推断的一种方式）选择M个个体进行营销。令为特征向量，营销会带来收入同时也要承担相应的成本消耗。令，为收入和成本。干预表示为。令和分别为干预和不干预下的收入和成本，令为对应的条件平均因果效应。

因为大部分的营销是产生正向的效应，因此设定，。二元干预分配问题是将干预分配给部分个体以使平台上的总收入最大化，但要求增量成本不超过有限的预算B。令为决策变量。优化定义为下式，

这类问题可以等价于0/1背包问题，也可以简化为贪心算法。 定义1 ，组合优化算法的决策因素被定义为仅通过排序或比较操作就可以获得最终解的因素。决策因素直接影响算法的最终解，并将被视为本文的学习目标。如算法1所示，因子可以作为决策因子，称为个体i的ROI（投资回报）。 picture.image

2.1 成本不感知的干预问题

当干预成本不存在或所有个体的干预成本相同（例如，推送消息）时，个体ROI的预测简化为的估计。现有研究主要涉及元学习者和因果森林。本文提出了一种新的uplift模型，对或的排名进行直接预测。

按照上述符号，假设从随机对照试验（RCT）中收集到一组大小为N的数据，并用表示第i个样本。分别用和表示是否接受干预的样本量。设表示对排序的分数，其中是机器学习模型（例如线性回归或神经网络）。通过最小化下式的损失函数，可以得到的无偏估计推导详见论文。

2.2 成本感知的干预问题

个体的ROI是一个复合对象，大多数现有的工作都通过多种模型的组合来预测它。后者可能由于组合期间的数学运算而导致模型误差的扩大。因此，本文提出了一种新的直接ROI预测学习模型。

令为样本，样本量为N，和分别为干预和不干预的样本量大小，这个除法操作在分子很小的时候会导致ROI的估计方差较大。因此，通过或的缩放和截断操作，使ROI的范围被限制在（0，1），以降低过拟合的风险。设表示对ROI排名的打分，其中是任器学习模型。将σ为sigmoid函数。上述损失函数用于获得每个个体的ROI或ROI排序的无偏估计。证明详见论文。

多干预预算分配问题

假设有多个干预，。令和为个体i在干预j处的收益和成本。在营销活动中，通常指不同级别的干预，比如不同的折扣。假设表示营销干预的级别并且级别越大（折扣越大）干预效果越大。因此可得当i<k时， $r_i j < r_i k r\_{ij}<r\_{ik}$ ， $c\_{ij}<c\_{ik}$ 。给定一个有限的预算b，多干预（mtbap）的预算分配问题是将特定干预分配给每个个体，目的是优化平台上的总体收入。令 $z\_{ij}\in \{0,1\}$ 为决策变量，表示是否给个体i施加j干预。优化函数为<="" p="">

3.1 组合优化算法

针对上述优化问题通常可以转化为多选择背包问题，现有工作通常是采用拉格朗日对偶定理来解，上述问题的上界可以通过下式得到，通过二分查找等方法来求解得到最优的。

在最优下，上述优化文体的近似解为，根据定义1为决策因素，可以将其作为模型学习目标，但是的值取决于预算B，他是会随着时间，环境发生变化的。因此在训练数据中反映的是有限的，在之后的预测中可能会遇到训练数据中没有的导致性能下降，所以直接预测是不开可取的。

假设1 ，经济学中的 边际递减效应 ，个人的边际效用随着营销成本投入的增加而降低（简单理解就是随着成本的投入的增加，收益的增加量是在减少的）。具体而言，通过以下公式表示边际效用令是直角坐标系中的一个点，可以看做是在上的投影。令为我们所求的解，即决策到需要施加哪种干预。基于上述的边际递减效应假设，可得。从而可得下面的优化算法 picture.image