ATEC 线上赛网络欺诈举报定性赛后总结

上上周在队内两位大佬 (致Great、白MASK) 的带领下,熬了一周时间拿下了「ATEC 线上赛 网络欺诈举报定性」赛道的亚军。

picture.image

赛道链接

https://www.atecup.cn/competitionIntroduction

数据说明

  1. 数据为模拟生成的用户支付宝欺诈投诉举报数据,标签 1 代表欺诈案件,标签 0 代表非欺诈案件,标签 -1 代表未知,另,测试数据不含 -1 标签。
  2. 数据包含 481 个特征,其中 480 个为结构化特征,1 个为非结构化的特征。结构化特征包含:欺诈投诉举报案件中主被动双方的相关风控特征,非结构化特征为举报描述信息。无具体特征含义说明。
  3. 本赛道所有相关数据(包括但不限于训练数据集)不得以任何形式下载,仅限在主办方提供的本地服务器及含 GPU 的公有池服务器上、以比赛为目的使用,违者将被视作“获取未授权数据”,将依照大赛规则,作禁赛处理。

赛道难点分析

  • 训练、推断 全程需要在平台上操作,需要熟悉 Linux / Docker 操作,环境部署有一定的操作门槛;
  • 测试集选手不可见,容易造成过拟合问题或者提交失败的问题;
  • 结构化数据均为匿名数据,且部分进行了脱敏,很难对赛题进行解读;
  • 文本数据从人眼观感上看,并没有太大的区分度 (都是描述网络欺诈的行为),且有部分词语脱敏;
  • 部分数据没有提供标签,如何使用半监督数据或许是个关键。

另外我们队伍是在比赛结束前一星期才报名参加,且三位队员均为社畜,参赛时间上比较吃紧。

方案概述

基线模型

  • 简单的 value_counts() 分析,剔除重复特征和区分度不高的特征
  • 其余结构化匿名特征塞进 LGBM
  • 没有使用文本及其衍生特征
  • 从树模型重要度输出结果再次排除分裂数为 0 的部分特征
  • 剩余结构化匿名特征再次塞进 LGBM 进行训练

树模型 (特征工程)

  • 添加部分高重要度特征的 count 统计特征,线上轻微掉分
  • 添加文本统计特征:句子长度、分词后的词语个数等,线上线下都上分明显
  • 添加中文分词后的 TFIDF + SVD 降维特征,线上线下都上分明显
  • 添加部分高重要度特征的 Target Encoding 特征,线下上分明显,但线上只有轻微上分

BERT 基线模型

  • 直接使用文本数据进行 BERT (bert_wwm) 做二分类任务,效果不佳,线上分数只有 0.33 左右,一度想放弃
  • 但是文本数据拼接上在树模型重要度输出的几个特征 (直接将数字作为文本输入) 后,线上分数直接来到了 0.697

picture.image

BERT 模型优化

  • 增加 FGM 对抗训练;
  • 加入训练集所有文本(包括未打标签的文本数据)进行领域内预训练,上分非常明显;
  • 使用而非空格来分割匿名特征文本;
  • 使用官方评测公式而不是 f1 作为早停条件。

最终 BERT 模型的单模在 A 榜上达到了 0.716 的高分

Stacking

  • 将 BERT 输出的 prob 结果作为特征加入树模型,与之前的一些特征一起训练,得到最终的结果

picture.image

上分过程

picture.image

可以优化的地方

主要是时间上来不及做

  • 伪标签:通过当前模型的预测未有标签的数据,加入训练集中;
  • 其他 BERT 预训练模型、模型及训练调参等;
  • LGBM 树模型可以增加更多统计特征、或者增加文本 embedding 特征 (w2v)
  • ......

因为没怎么做 EDA,数据现在也不能看了,所以这个总结写得比较混乱,如果想了解更多,推荐阅读这位大佬在知乎上的文章:https://zhuanlan.zhihu.com/p/434432485

其他碎碎念

  • 阿里系的比赛,包括天池等,很多最后都是需要 Docker 提交,所以要学点 Linux / Docker 方面的技能。包括这次比赛,不仅需要 Docker,而且数据还是要通过堡垒机 (Linux) 登录读取,在 Linux 下完成 EDA、训练、提交,有一定的门槛,因此比赛最终也没太多人参加。所以学点 Linux Docker 技能能预防内卷 😅

  • BERT 为什么加了几个匿名特征拼接后直接起飞,我也说不清楚,一度怀疑是不是之前 0.33 分的 base 是不是有 BUG,但 白MASK 大佬说没有问题,所以有理由怀疑是匿名特征在脱敏之前就带着很重要的文本信息。总而言之,这套思路可以用在其他结构化和非结构化多种数据源的比赛中。(上周在江西大数据 VTE 预测赛道中我试了下,但是没有成功)

  • 这个比赛怎么说呢,官网一直在强调可信 AI,但上分过程,确实没啥可信 AI 的份,做比赛嘛,能上分就行,还管它可不可信 😭,所以在个人答辩过程,评委专家全程围绕可信 AI 来提问,可是我讲上分讲了十几分钟,讲可信 AI 就讲两分钟,而且评委专家一眼就看穿了我的 PPT 这部分内容是在网上拷贝下来的 😹

  • 最后再次感谢 白MASK 和 致Great 两位大佬带我上分,学到了很多~~

0
0
0
0
评论
未登录
暂无评论