NLP中文预训练模型泛化能力挑战赛

背景介绍

中文预训练模型的质量会影响以AI技术驱动的企业中核心业务算法的性能。比如智能客服问答,搜索推荐,安全风控,舆情分析,文字识别,信息抽取,智能打标等等,这些业务或产品都会或多或少依赖于预训练模型提供的通用语言学知识来做迁移学习。因此打造高质量的预训练模型是当前产业界和学术界的热点。

自从2017年具有划时代意义的Transformer模型问世以来,短短两年多的时间内,如雨后春笋般的出现了大量的预训练模型,比如:Bert,Albert,ELECTRA,RoBERta,T5,GPT3等等。然而之前的基准评测体系存在两个缺陷:评测强度不够,模型不通用。评测强度不够指的是选手只提交结果,不提交inference的代码。模型不通用指的是预训练模型不能保证在相同超参数情况下在所有任务上都获得比较好的性能。以上两点极大限制了预训练技术的应用和发展。如果我们能通过算法实现泛化能力强的中文预训练模型,这将提高下游业务的准确性,从而提升企业的核心竞争力,并为企业创造更多的价值。

阿里云计算平台PAI团队联合CLUE中文语言理解评测组织和上海乐言信息科技有限公司,共同推出中文预训练模型泛化能力挑战赛,邀请业内算法高手、爱好者一起促进自然语言处理预训练技术的发

赛制安排

本次大赛分为初赛及决赛两个阶段:

初赛(2020年11月20日-12月23日)

  1. 报名成功后,参赛队伍通过天池平台下载数据,本地调试算法,在线提交结果。若参赛队伍在一天内多次提交结果,新结果版本将覆盖旧版本。

  2. 第一阶段(11月20日-12月21日)每天提供2次的评测机会,提交后将进行实时评测;排行榜每小时更新,按照评测指标得分从高到低排序;(排行榜将选择选手在本阶段的历史最优成绩进行排名展示,不做最终排名计算)

  3. 第二阶段(12月22日19:00-22:00)系统将在12月22日19:00提供测试数据,参赛队伍需要再次下载数据文件,本阶段提供2次评测机会,提交截止时间12月22日22:00 ,赛程期间系统20:00和22:00进行2次评测和排名。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。

  4. 初赛结束,以榜单成绩作为比赛算法提交成绩依照,TOP15团队提交代码审核,规范详见“代码规范”文档(所提交的代码能够在天池实验室(PAI-DSW探索者版)环境下复现最优成绩 ),代码提交截止时间12月25日12:00。组委会将审核并剔除只靠人工标注而没有算法贡献或无法通过天池实验室复现最优成绩 的队伍,晋级空缺名额后补。初赛成绩符合要求的排名前9名且通过支付宝实名认证的参赛队伍将受邀参加决赛。 决赛答辩(2021年1月)

  5. 决赛将以线上答辩会的形式进行,晋级决赛团队需提前准备答辩材料,包括答辩PPT(不少于10页)、算法核心代码。

  6. 答辩将通过线上会议室的形式开展,评委将根据选手的思路和理论深度、创新性和应用价值、现场表现进行综合评分。

  7. 最终的决赛分数将根据参赛队伍的复赛的提交作品成绩和线上答辩成绩加权得出,其中复赛线上成绩占比80%,答辩占比20%。依据决赛分数评选出大赛奖项,获奖名单将通过天池赛题页和天池技术论坛对外公布。

赛题背景

自从2017年具有划时代意义的Transformer模型问世以来,短短两年多的时间内,如雨后春笋般的出现了大量的预训练模型,比如:Bert,Albert,ELECTRA,RoBERta,T5,GPT3等等。然而之前的基准评测体系存在两个缺陷:评测强度不够,模型不通用。评测强度不够指的是选手只提交结果,不提交inference的代码。模型不通用指的是预训练模型不能保证在相同超参数情况下在所有任务上都获得比较好的性能。以上两点极大限制了预训练技术的应用和发展。如果我们能通过算法实现泛化能力强的中文预训练模型,这将提高下游业务的准确性,从而提升企业的核心竞争力,并为企业创造更多的价值。

为提供更好的比赛体验,我们同时为本赛题定制了系列工具教程,其中包括EasyTransfer、多任务baseline教程等。同时我们也将提供专属的视频直播学习通道,具体关注本赛题「参考资料」版块。

赛题描述及数据说明

本赛题精选了以下3个具有代表性的任务,要求选手提交的模型能够同时预测每个任务对应的标签:

数据说明

OCNLI :是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集;
OCEMOTION :是包含7个分类的细粒度情感性分析数据集;
TNEWS :来源于今日头条的新闻版块,共包含15个类别的新闻;

数据格式

任务1:OCNLI–中文原版自然语言推理
{
"level":"medium",
"sentence1":"身上裹一件工厂发的棉大衣,手插在袖筒里",
"sentence2":"身上至少一件衣服",
"label":"entailment","label0":"entailment","label1":"entailment","label2":"entailment","label3":"entailment","label4":"entailment",
"genre":"lit","prem_id":"lit_635","id":0
}
(注:标签集合:[蕴含,中性,不相关])

任务2:OCEMOTION–中文情感分类
{
"id": 76,
"content": "LineApp的那只熊太可爱了啦!",
"label": "like"
}
(注:标签集合:[喜欢,高兴,悲伤,恐惧,生气, 厌恶,惊喜])

任务3:TNEWS–今日头条新闻标题分类
{
"label": "102",
"label_des": "news_entertainment",
"sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"
}
(注:标签集合:[故事,文化,娱乐,体育,财经,房产,汽车,教育,科技,军事,旅游,国际,股市,农业,游戏])

评测方案

参赛选手仅可使用单模型,先求出每个任务的macro f1,然后在四个任务上取平均值

0
0
0
0
评论
未登录
暂无评论