ATEC 线上赛网络欺诈举报定性赛后总结 - 文章 - 开发者社区

上上周在队内两位大佬 (致Great、白MASK) 的带领下，熬了一周时间拿下了「ATEC 线上赛网络欺诈举报定性」赛道的亚军。

picture.image

赛道链接

数据为模拟生成的用户支付宝欺诈投诉举报数据，标签 1 代表欺诈案件，标签 0 代表非欺诈案件，标签 -1 代表未知，另，测试数据不含 -1 标签。
数据包含 481 个特征，其中 480 个为结构化特征，1 个为非结构化的特征。结构化特征包含：欺诈投诉举报案件中主被动双方的相关风控特征，非结构化特征为举报描述信息。无具体特征含义说明。
本赛道所有相关数据（包括但不限于训练数据集）不得以任何形式下载，仅限在主办方提供的本地服务器及含 GPU 的公有池服务器上、以比赛为目的使用，违者将被视作“获取未授权数据”，将依照大赛规则，作禁赛处理。

另外我们队伍是在比赛结束前一星期才报名参加，且三位队员均为社畜，参赛时间上比较吃紧。

基线模型

树模型 (特征工程)

BERT 基线模型

picture.image

BERT 模型优化

最终 BERT 模型的单模在 A 榜上达到了 0.716 的高分

Stacking

picture.image

picture.image

主要是时间上来不及做

因为没怎么做 EDA，数据现在也不能看了，所以这个总结写得比较混乱，如果想了解更多，推荐阅读这位大佬在知乎上的文章：https://zhuanlan.zhihu.com/p/434432485

阿里系的比赛，包括天池等，很多最后都是需要 Docker 提交，所以要学点 Linux / Docker 方面的技能。包括这次比赛，不仅需要 Docker，而且数据还是要通过堡垒机 (Linux) 登录读取，在 Linux 下完成 EDA、训练、提交，有一定的门槛，因此比赛最终也没太多人参加。所以学点 Linux Docker 技能能预防内卷 😅
BERT 为什么加了几个匿名特征拼接后直接起飞，我也说不清楚，一度怀疑是不是之前 0.33 分的 base 是不是有 BUG，但白MASK 大佬说没有问题，所以有理由怀疑是匿名特征在脱敏之前就带着很重要的文本信息。总而言之，这套思路可以用在其他结构化和非结构化多种数据源的比赛中。（上周在江西大数据 VTE 预测赛道中我试了下，但是没有成功）
这个比赛怎么说呢，官网一直在强调可信 AI，但上分过程，确实没啥可信 AI 的份，做比赛嘛，能上分就行，还管它可不可信 😭，所以在个人答辩过程，评委专家全程围绕可信 AI 来提问，可是我讲上分讲了十几分钟，讲可信 AI 就讲两分钟，而且评委专家一眼就看穿了我的 PPT 这部分内容是在网上拷贝下来的 😹
最后再次感谢白MASK 和致Great 两位大佬带我上分，学到了很多~~