Deep Landscape Forecasting for Real-time Bidding Advertising

技术

论文地址:https://arxiv.org/pdf/1905.03028.pdf

网络广告中实时拍卖的出现引起人们对市场竞争的极大兴趣,使得人们开始考虑如何预测每次广告拍卖的市场价格的概率分布。然而过去的一些方法主要集中在基于统计的分类样本聚类,或者基于一些对分布有形式化假设的参数化模型,为此作者提出了一种DLF模型,并声称在不做任何具体假设的情况下,对拟合各种复杂的市场价格分布表现出极大的优势。

介绍

从2009年开始,实时竞价(RTB)已经成为网络广告中最重要的媒体购买机制之一。在RTB中,广告主根据自己的竞价策略和拍卖方信息实时提出竞价,广告交易所决定拍卖市场的赢家,即本次拍卖中竞价最高的广告主。从广告主的角度来看,投标价格是根据估计的效用和给定拍卖请求的成本来决定的。值得我们注意的是,拍卖胜出者的真正费用是其竞争对手的第二最高投标价格。因此,从广告主的角度来看,预测市场价格是一个关键但具有挑战性的问题,因为从数百甚至数千个广告主为一个特定的广告位提出的最高出价是高度动态的,几乎不可能通过建模每个广告主的策略来预测。而且,只有在知道市场价格分布下,广告主才能在任意的投标价格下估计相应的中标概率,为后续的投标决策提供支持。因此,将市场价格建模为随机变量,并在给定每个广告请求特征的情况下预测其分布更为实用。picture.image以往的景观预测工作可分为两大类。第一个主要基于来自分割样本的统计计数,例如计算每个活动或某些特定属性组合。同一细分段的不同样本具有相同的市场价格分布,这种分布过于粗粒度,往往导致预测性能低下。第二种方法是预先定义一个参数化的分布形式,如对数正态分布、高斯分布或伽马分布,然后根据观测数据学习分布参数。然而,正如之前所说的,这些假设往往过于局限,并被统计检验所拒绝。然而,这之中还有另一个挑战,那就是缺失问题。由于RTB采用二价拍卖机制,因此只有提交最高投标价格的胜出者才知道市场价格,即收费价格,而其他投标者只能知道市场价格高于其投标价格。为了处理这种缺失,一些研究者借用了医学数据科学中的生存分析的思想,考虑到损失日志,以更好地模拟真实的市场价格分布。但是,这些方法仅依赖于损失日志,并没有综合考虑成功日志和失败日志进行缺失处理。

在文章中,作者提出了一种深度神经网络方法,称为DLF模型,没有任何假定的市场价格分布形式,更好地捕获每一个拍卖的分布。具体地说,我们利用一个循环神经网络模型预测中标事件的条件概率。然后利用概率链法则对市场价格的分布进行预测,自然得出了给定拍卖条件下任意出价的中标概率分布。我们不仅通过最大化获胜对数中真实市场价格的对数似然来训练模型。此外,我们还对获胜日志和失败日志采用了综合的损失功能,以处理缺失。

我们的方法有三方面的新颖之处。
1、细粒度预测:我们的方法可以预测每个特定投标请求的“个性化”市场价格分布和相应的中标概率分布,而不是在样本区间上预测投标情况。
2、没有分配形式的假设:基于新的建模方法,我们的模型成功地为每个广告请求生成灵活的预测结果,而无需事先对市场价格分布做任何假设,这将在实验中说明。
3、新颖的损失函数:我们在缺失处理中采用了一个综合的损失函数,在传统的生存分析方法的基础上进一步完善了对市场价格分布的建模。

方法

在RTB场景中,广告主在收到拍卖投标请求x后,被要求提出投标价格b。竞拍请求包含三部分竞拍信息,包括用户(如位置、浏览器标签等)、发布者(如网页URL、广告时段大小等)和广告内容(如产品类型、时间、创意内容)。广告商的目标是提出一个合适的出价,并以具有成本效益的方式赢得拍卖。其中一个挑战是,由于参与的广告商彼此之间没有互动,因此无法对每个竞标方的投标策略进行建模。将市场建模为一个整体,将市场价格看作一个变量z是很自然的。回想一下,市场价格是在第二价格拍卖中所有投标人的第二高的投标价格,即拍卖获胜者认为的竞争对手的最高投标价格。市场价格z的概率密度函数是p(z) z> 0。
现在我们有市场价格z的pdf.p(z),我们可以推导出提出价格b的获胜概率为picture.image表示失去提出投标价格的可能性。需要注意的是,在生存分析中,市场价格被认为是患者的基础生存期,投标价格是调查期,因此广告拍卖的输赢反应的是一个患者的“死亡”和“生存”状态。
投标日志的数据被表示为一组{(x,b,z)},其中x是投标请求的特征,b是拍卖中提议的投标价格。这里z是观察到的市场价格,如果广告商之前赢得了这次拍卖,则她已经知道了真实的市场价格,但是对于那些失败的拍卖,z是未知的(我们将z标记为null),因此,投标景观预测的主要问题是估计的概率分布p (z | x)。
为了解决上述问题,首先我们将建模从连续空间转换为离散空间。需要注意的是,由于实时竞价广告中的所有价格都是离散的,因此很自然地提出了离散价格模型,并导出了离散价格模式下的概率函数。在离散上下文中,一组L价格0 < b1< b2< . .< bL是由价格决定的有限精度得到的。类似地,我们也可以把连续价格分组为l = 1,2,…,L均匀分割不相交区间vl = (bl,bl+1],其中b0= 0, bl为给定样本的最后一个观测区间边界,即拍卖中提出的投标价格。bL是整个价格空间中最大的价格区间。该设置适合于我们的任务,由于价格总是整数,因此我们设bl+1−bl= 1。
因此,我们在离散价格空间上的获胜函数和失败函数是picture.image这两个功能的输入是来自广告客户的投标价格。第l个价格区间的离散市场价格概率函数为
picture.image即在z大于小于bl的投标价格的条件下,市场价格z处于区间Vl= (bl,bl+1)的概率。它的意思是指在第l个价格区间提出投标价格后,竞拍成功的条件概率。到目前为止,我们已经提出了离散价格模型,并讨论了在离散价格空间上的盈亏概率。文章提出了基于参数θ的递归神经网络fθ的DLF模型,该模型捕获了第i个样本在每个价格区间的条件概率序列模式。
DLF网络的详细结构如图3所示。在每个价格区间vl,第l个RNN单元根据先前事件的出价请求特征预测条件获胜概率为picture.image由于市场价格分布或获胜概率都没有基本真理,这里我们最大化了经验数据分布上的对数似然来学习我们的深度模型。我们从两个方面来考虑损耗函数 第一个损失是基于P.D.F.,它的目标是最小化市场价格的负对数似然值picture.image

首先,我们对我们的方法进行获胜预测的观点。众所周知,有一个获胜的状态,即一个指标,赢得拍卖,为每个样本picture.image这是在给定所有数据的情况下预测中标概率的交叉熵损失 结合所有的目标函数,我们的目标是在所有的数据样本上最小化负对数似然,包括赢的日志和输的日志picture.image其中,超参数α控制从两个损失在同一水平上的梯度的数量级,以稳定模型训练。在传统的生存分析方法[5,13]及投标景观预测的相关工作中,通常仅采用基于P.D.F.和lose的l1进行缺失处理。我们提出了一种综合的损失函数,它可以同时学习赢日志和输日志。

picture.image

END

欢迎加入ChallengeHub学习交流群

picture.image

picture.image

picture.image

扫码关注我们

picture.image

说过无数愚人话愿你 今天坦诚表达

添加助手微信,可加入微信交流群(或者后台回复“交流群”)

picture.image

picture.image

关注地球一小时 树立低碳理念 倡导低碳生活

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生机器学习系统落地和实践
机器学习在字节跳动有着丰富业务场景:推广搜、CV/NLP/Speech 等。业务规模的不断增大对机器学习系统从用户体验、训练效率、编排调度、资源利用等方面也提出了新的挑战,而 Kubernetes 云原生理念的提出正是为了应对这些挑战。本次分享将主要介绍字节跳动机器学习系统云原生化的落地和实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论