一、为什么要做内容冷启?
对于内容推荐行业来说,永远是内容为王。以我之前的某个新闻项目为例,在不同日期,相同的推荐系统DAU差异可以达到1.5倍,完全靠老天赏饭吃。但是如果我们老天赏饭的时候,拿个大一点的碗接着,那么对于业务指标的完成还是很有益处的。此外,冷启内容是整个产品内容的入口,冷启哪些内容能够完全地影响整个产品的画风。
内容冷启的核心是:更快,更多,更准。 简单来说,我们需要在更快的时间内将内容曝光到能够点击它的用户,越多越好。
二、你以为的内容冷启?
对于没有接触业务的朋友来说,如果想要了解内容冷启的话,可能会去网上找一些 内容 看看。比如
推荐系统冷启动专题
类似于这样的。上面的 内容 主要的是使用精排模型提升新内容预测的精确度。但是这样的话,意味着你需要训练一个新的精排模型,且不说这个工作量的问题。线上推理需要多花费多少时间,要是粗排就就把这些 内容 干掉了怎么办?怎么评价模型的好坏,总不能不做A/B吧。
说了这么多,我想说的是,内容冷启在推荐系统中是个系统性的问题,并不是某一个算法可以搞定的。想要做内容冷启的话,还是需要一个系统的规划。
三、内容冷启的流程
冷启的流程分为以下几步:
1:内容入库打分
一篇新的内容入库之后,使用模型对其打分,将模型打分高的 内容 给与更多的冷启量,或者是更高的优先级。
业内常见的打分模型有:
(一):淘宝使用了wide&deep模型对 内容 是否会高爆进行预测 [1] ,
(二):腾讯微视中加入了视频的多模态信息,并且采用了 Margin loss [2 ]
(三):爱奇艺采用GAN对冷启 内容 进行预估[3]
小 结: 采用的方法不同,但是目的都是相同的,使用后验的数据作为label,然后使用内容的信息作为特征,对 内容 进行一个打分评级,给予 内容 评级高的 内容 更大的冷启量或者更高的优先级 (更大更快的曝光)。
那么什么模型更好呢?比起这个问题,我们应该要知道的是:怎么评价哪种方法更好!
对于打分模型评价常规的方法是做内容的A/B实验,将内容随机分为实验对照两个部分,然后查看实验打分模型和对照打分模型后续的一个表现。
2: 内容 多级冷启OR差异化保量
新 内容 入库之后,经过 内容 打分。一般有两种处理方式:
(一): 内容 多级冷启
将所有的冷启 内容 分为不同的冷启池。比如1-3级池,每个层级 内容 需要的冷启量不同。比如一级池 内容 冷启量为10,二级池为30,三级池为50。
内容 统一进入一级池,当内容冷启曝光为10时,计算 内容 的消费深度,如果消费深度较好,则进入二级池继续给冷启量,反之则不再冷启。
(二): 内容 差异化保量
根据打分模型的反馈结果,设定每个内容的冷启量(一般也是分为几个档),直到 内容 冷启流量发完或者过了冷启时间。
3:推荐链路保量,强插OR提权
对于用户的每一刷而言,肯定不止有推荐冷启内容。如果将冷启内容和正常内容一起做召回粗排的话。那么到最后的排序阶段,冷启内容可能全都被干掉了。因此需要在召回侧还有粗排侧对冷启内容进行一定的保量,使得它最终可以进入排序侧。
当冷启 内容 与正常 内容 一起排序后,为了让冷启 内容 获得流量,常见的方法是在重排侧做:强插,提权。
强插指的是,将最好的一篇冷启内容强插到某个推荐位置上,提权指的是将冷启 内容 乘以一定的参数再与正常 内容 进行比较。
如果需要更好的效果的话,可能正常内容与冷启内容使用不同的 内容 分开排序会更好。
正常来说,提权应该优于强插的,但是提权需要更多的调试,需要花费很大的精力尝试。
简单来说就是:粗排保量,重排强插或者提权。因为这两个步是推荐系统中的两大漏斗。
4:冷启流量调控
经过上述的一些方法,还是会出一些问题,那就是有些 内容 一直曝光不出来怎么办?因此有些新内容即使与同样是新内容进行比较的时候,也可能比较不过,无法被精排选出来。这时候我们一般会采用一些动态调控的保量方法。以王树森[4]的视频为例,一种比较简单的保量方法是:
根据内容发布的时间以及曝光次数不同,给与不同的提权系数,以期望可以到达我们想要的曝光次数。
比较高级一点的就是[4]:通过一些参数设计一个函数,进行一个动态提权。
上面的参数还是很简单的,在实际的工业环境中,几乎没办法能够实时获得客户端的曝光次数,因此大家会采用一种在别的领域常见的控制方法: PID动态提权。
无论是什么提权方法,主要的方向是将需要冷启地内容快速的冷启完。此外,根据各种业务的不同,采用的策略也是不同的,比如新闻类场景,可能需要对某些类型的内容加速,有些也不必要加速。大家在使用的时候还是得根据自身业务场景的不同采用不同的方法。
四、内容冷启的难点
1:实验方法
与常规的的推荐流程不同,内容冷启 需要对内容和用户进行同时隔离。
对于某些大厂的某些场景而言,不仅采用的是内容维度,而是采用作者维度隔离。有些互动类比较强的场景单独地进行内容隔离,可能会出现实验击穿情况。
2:损害时长与时长收益评估
冷启保量会牺牲短期内的消费时长,但是牺牲多少,冷启能够带来多少收益不好评估。这个可能是内容冷启在某些业务不受重视的原因。此外如果采用内容和用户双重隔离实验的话,50%的内容与50%的用户+50%的内容与50%的用户<全量用户和全量内容。肯定对线上的效果影响比较大,需要根据业务情况进行权衡,或许不做用户隔离,只做内容隔离是一个方法。只做冷启加速,不关心业务指标,毕竟冷启流量相比较全部流量还是占比较少。
五、内容冷启的方向
(一):差异化保量和多级冷启之前权衡。
(二):使用规则或者模型控制内容的多样性,用于调整内容画风,以及长尾内容的分发。
或许打分模型+规则调整更好
(三):打分模型的优化,使用更多的内容信息,更多维度或者更精细的预测目标(比如不止考虑文章曝光,点击,或者时长也加入目标之中)
(四):链路的承接,冷启只是第一步,后续的一些策略需要配合。比如召回,粗排,精排样本的加速迭代。
参考文档:
[1]: 冷启动系统优化与内容潜力预估实践
[2]:
短视频潜力预测及其在微视冷启动中的应用
[3]:
左右互搏:GAN在爱奇艺短视频推荐冷启动中的实践
[4]:
物品冷启05:流量调控—B站王树森