阿里 | 从缩放到结构化表达:重新思考CTR预测的transformer模型

推荐算法机器学习算法

picture.image

关注我们,一起学习

题目:From Scaling to Structured Expressivity: Rethinking Transformers for CTR Prediction

地址:https://arxiv.org/pdf/2511.12081

公司:阿里

一、解决的问题

当前工业级点击率(CTR)预测模型在盲目借鉴大语言模型(LLM)架构(尤其是 Transformer)时面临严重瓶颈:

  • 性能饱和甚至下降 :尽管模型规模(参数量、层数、宽度)持续增加,但 AUC 等指标提升微弱甚至退化。
  • 结构错配(Structural Misalignment)
  • LLM 的 Transformer 假设输入是 有序、同质、组合性语义 的 token 序列(如句子);
  • 而 CTR 数据是 无序、异构、高基数类别特征 的集合,其预测信号来自 字段间的组合交互 (combinatorial interactions),例如 “user_age × ad_category”。
  • 注意力机制不适应稀疏性 :标准 self-attention 使用全局共享投影矩阵,对所有特征一视同仁,在极端稀疏场景下放大噪声、破坏可扩展学习。
  • 缺乏理论支撑 :CTR 领域尚无类似 LLM 的 可预测缩放律(scaling law) ,导致模型扩展依赖试错。

论文核心问题:如何设计一个与 CTR 数据语义结构对齐的 Transformer 架构,使其具备“结构化表达力”并支持可预测的规模化?

二、主要创新点

  1. 提出 Field-Aware Transformer (FAT):首个将字段感知先验嵌入注意力机制的 Transformer 变体。
  2. 引入 Field-Decomposed Attention :将注意力分解为 字段内内容对齐

字段间交互调制 ,实现高效且语义对齐的交互建模。

  1. 设计 Hypernetwork-Based Parameter Generation :动态生成字段专属参数,避免存储爆炸。
  2. 建立首个 CTR 模型的理论缩放律 :基于 Rademacher 复杂度,证明泛化误差依赖字段数 (F) 而非词表大小 (n),并解释 AUC 的幂律增长现象。

三、方法详解

picture.image

3.1 字段感知表示(Field-Aware Representation)

输入为来自不同语义字段(如 user_age, ad_id, device_type)的异构特征。每个特征

被映射为嵌入向量

,并通过字段偏置增强语义角色:

其中

是特征

所属字段,

为可学习字段偏置(替代位置编码)。最终得到字段标识的 token 序列

3.2 标准 Transformer 的局限

标准注意力计算为:

其中

为全局共享矩阵,忽略字段来源 ,无法建模不对称交互(如 user→ad 与 ad→user 应不同)。

3.3 Field-Decomposed Attention(核心创新)

受 Field-aware Factorization Machines (FFM) 启发,理想方案是为每对字段

分配专属投影矩阵,但会导致

参数。

FAT 提出分解式注意力

其中:

  • 字段感知内容对齐

投影矩阵

仅依赖 自身字段 ,复杂度

  • 字段对交互调制

为可学习标量,控制字段

的信息流强度,复杂度

  1. 不对称性:
  2. 可解释性:

反映字段重要性 3. 高效:总参数

值向量同样字段感知:

多头输出聚合:

3.4 超网络参数生成(Hypernetwork-Based Generation)

为避免存储

矩阵(当

时仍达数千万参数),FAT 引入基矩阵合成机制

  • 共享基矩阵集合:
  • 每个字段

有元嵌入

  • 通过轻量 MLP 生成权重:
  • Top-K 稀疏选择(

):

  • 合成投影矩阵:

3.5 CTR 预测头

堆叠

层 FAT,每层后接 FFN、残差连接、LayerNorm:

最终预测:

四、理论分析:CTR 缩放律

定理 4.1(FAT 泛化误差界)

设输入序列

,所有参数 Frobenius 范数

,调制标量

,训练样本数

,则以概率

其中

  • 标准 Transformer 复杂度隐含依赖词表大小
  • FAT 复杂度仅依赖字段数

,大幅降低假设空间

  • 当增加宽度

时,

下降(更强表达力),而泛化间隙可控 → AUC 随

呈幂律增长

这是首个为 CTR 模型建立的形式化缩放律

五、实验结果

5.1 离线实验

picture.image

5.2 消融实验

picture.image

5.3 线上实验

picture.image

5.3 缩放行为验证

picture.image

交流群:点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

AAAI'26 | 从ID到语义:具有自适应语义标记的跨域推荐生成式框架

AAAI'26 | 基于LLM的生成式推荐新范式Align3GR

TRACT:结合思维链的回归感知微调

图片

长按关注,更多精彩

图片

点个在看你最好看

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论