作者:香港城市大学、淘天集团 刘朗鸣
今天给大家带来一篇来自淘天集团、香港城市大学、南方科技大学的论文,该论文已经被KDD 2025接收。该论文提出了一种针对推荐系统线上广告投放问题的创新多任务离线强化学习框架——MTORL ,能够在广告渠道推荐与预算分配的双重目标下,缓解离线RL中的高估、分布偏移及预算约束难题,实现更加高效、自动化的广告策略。
论文链接 :https://arxiv.org/abs/2506.23090
代码链接 :https://github.com/Applied-Machine-Learning-Lab/MTORL
背景
随着电商、短视频、社交媒体等平台的繁荣,线上广告已成为商家获客与增收的核心手段。广告场景一般面临两大挑战:
- 多渠道推荐 :为每次广告曝光选择最佳投放渠道(如搜索广告、展示广告、短视频等),以最大化用户转化。
- 预算分配 :对广告主有限的投放预算,在多渠道与多用户之间科学分配,以提升ROI。
目前主流深度学习推荐方法虽可建模复杂特征,但难以考虑长远收益与动态决策,且原生强化学习方法一旦直接上线,容易因冷启动带来巨大损失 。这就推动了 离线强化学习(Offline RL) 在广告投放中的研究热潮——先在历史数据上预训练RL策略,再安全上线。然而,广告环境独有的稀疏反馈、样本分布迁移、预算约束等问题,极大考验了离线RL的可用性。
同时,已有预算分配方法多采用静态归因或“软约束”方式,难以做到用户级、时间级的动态最优匹配 ,且容易忽视高转化潜力用户的价值。
那么,如何解决离线RL在广告推荐中的痛点,同时兼顾多目标(渠道推荐+预算分配)?
预备知识与问题定义
本节为后续方法论提供统一的符号体系,并严格描述了本文关注的在线广告场景下的数学模型和优化目标。
1)多渠道广告场景的形式化
定义
- 用户集合为
,
- 广告渠道集合为
。
对任一用户
,其静态画像记为向量
,其按时间排序的历史曝光序列(亦称用户旅程)记为
其中
- 为第
次曝光的渠道,
- 为该触点的上下文特征向量,
- 为收益信号(如点击或转化),
- 为对应成本。
在实践中,在线广告系统面临两项核心决策任务:
- 渠道推荐(Channel Recommendation) :针对每次曝光,依据当前用户状态选择最优渠道
。 2. 预算分配(Budget Allocation) :在全局预算约束下,动态控制渠道级与用户级的投放频次与成本。
2)广告投放的 CMDP 建模
将上述过程表述为带约束的马尔可夫决策过程(Constrained Markov Decision Process, CMDP)
:
- 状态空间
:由用户静态特征与最近若干次曝光特征拼接而成,记
。
- 动作空间
:选择广告渠道,记
。
- 状态转移
:由用户行为驱动。
- 奖励函数
:将收益与成本通过拉格朗日乘子
合并为惩罚化奖励。
- 成本函数
。
优化目标为
其中
为渠道策略,
为用户过滤策略,
为广告主预算上限。
通过引入拉格朗日乘子,上式被转化为无约束形式
3)多任务离线强化学习问题
在仅可利用日志数据而无法与真实环境交互的离线场景中,本文同时学习
- 行为策略
:用于在线阶段的渠道推荐;
- 奖励估计函数
:服务于预算分配中的渠道加权与用户筛选。
综上,本节完成了从广告业务描述到 CMDP 数学表述的形式化转换,明确了后续 MTORL 方法所需的状态、动作、奖励及其约束。
方法
本文提出了MTORL (Multi-task Offline RL for Online Advertising),一个将广告渠道推荐与预算分配任务联合建模的高效离线强化学习系统。
1)嵌入模块
1.1)MDP建模
- 状态 :用户静态画像+历史行为轨迹(包括曝光渠道、点击/转化、广告成本等)
- 动作 :选择某一广告渠道投放
- 奖励 :单位时间/曝光的转化收益(扣除成本后),并用拉格朗日乘子纳入预算约束,转化为约束马尔可夫决策过程(CMDP)
1.2)用户序列行为表征
2)顺序建模与因果状态编码
- 提出 因果状态编码器 ,利用 膨胀因果卷积网络(TCN) ,聚合用户历史行为的时序依赖,建立动态兴趣画像。
- 联合 因果注意力模块 (即带因果掩码的自注意力层),精准捕捉用户不同行为对“当前兴趣”的异质影响,抵抗偶然噪音与模式漂移。
- 在模块中加入必要的FNN层、残差连接和Norm层强化表征能力,防止过拟合。
3)多任务解码与优化
- 设计 动作解码器&奖励解码器 双分支,多任务学习分别输出【渠道选择策略】与【奖励/转化预测】,强化反馈信号,缓解稀疏奖励和分布偏移。
- 融合 直接偏好优化(DPO)损失 ,直接驱动策略偏向高长期收益轨迹,突破RL类方法“表观学习-实际收益”的gap。
4)自动化线上投放流程
- 预训练好的MTORL可在实际系统实现:
- 渠道级 :依据历史回报及当前模型预测,动态分配不同广告渠道的预算配比(融合显式CTR比与模型捕捉隐含价值)。
- 用户级 :对用户根据预测“转化潜力”排名,挑选高价值用户,减少无意义成本。
- 渠道推荐 :输入用户近期行为序列,推理获得最优投放渠道。
- 预算分配 :双层分配机制
- 自动集成到广告投放主链路,支持增量更新与实时反馈。
实验
1)性能对比
- 在 KuaiRand-Pure 与 Criteo 公开数据集上,MTORL在性能上均超过当前 十余种SOTA基线 ,且在高稀疏反馈环境下尤为稳健。
2)消融实验
- 因果状态编码器 与 因果注意力模块 是性能提升的主力,特别对时序依赖和行为异质性捕捉效果显著。
- DPO损失与残差连接等辅助提升鲁棒性与泛化能力。
3)参数分析
- 关键参数如历史序列长度
、损失权重
、
等调优结果表明,MTORL对参数变化敏感性较低,易于实际部署。
4)线上实验
- 在 线上环境 进行A/B测试,在小流量下带来了 CTR+0.08%, RPM+0.23% 的可观提升。
总结
本文针对推荐系统中的广告投放难题,从离线数据高效预训练、用户行为时序建模、预算动态分配等多维度提出创新解决方案MTORL,实现:
- 离线RL高效适配稀疏广告场景
- 渠道推荐与预算分配联动优化
- 模型结构与真实业务场景无缝对接