大家好,恭喜和鲸「DataJoy®」练习赛又增添一名新的成员( 点这里认识「DataJoy®」 ,简而言之就是和鲸社区长期开放供大家练手的系列比赛)。
又是熟悉的 ChallengeHub 团队,为我们量身打造的机器学习入门赛题,让数据科学竞赛的朋友们更好地上手。
本次练习赛由ChallengeHub与和鲸社区共同举办 , 赛题&数据、官方Baseline皆由ChallengeHub筹备和提供,和鲸提供Modelwhale平台支持。
· ChallengeHub介绍 ·
ChallengeHub于2020年12月12日成立,致力于知识传播,竞赛开源以及招聘总结,旨在为所有热爱AI、热爱竞赛的小伙伴们,提供做一个开放的、活跃的交流平台。
-
官方社区网站: https://challengehub.cn/ (欢迎大家访问和收藏~)
-
官方微信公众号:
· 赛题背景 ·
计算机视觉(Computer Vision,CV)又称为机器视觉,顾名思义是一门“教”会计算机如何去“看”世界的学科。在机器学习大热的前景之下,计算机视觉与自然语言处理及语音识别并列为机器学习方向的三大热点方向。而计算机视觉也由诸如梯度方向直方图以及尺度不变特征变换等传统的手办 特征(Hand-Crafted Feature)与浅 层模型的组合逐渐转向了以卷积神经网络为代表的深度学习模型。
CV领域有很多正在研究的子领域,包括图像分类、图像分割、视觉问答等。图像分类的目标就是将不同图片划分到不同类别,实现最小的分类误差。在这个过程中存在诸多挑战,但机遇与挑战并存。近年来随着深度学习技术的兴起,图像分类得到飞速发展,并延伸出一系列的研究方向,如:多类别图像分类,细粒度图像分类,多标签图像分类,无/半监督图像分类,零样本图像分类等。
本次练习赛着眼于入门的图像分类任务,期望选手可以通过图像,运用所学的知识建立分类模型,熟练使用各种常用工具,并加深对图像分类的理解。
· 数据 ·
数据集是一个用于多分类任务的动物图像数据集,包含10种不同动物的图像。数据集来源由Google上的真实图像通过爬虫得到,图片尺寸大小以及格式不固定(包含jpg、jpeg以及png三种图像格式),另外对敏感信息进行了脱敏处理。
-
训练集
训练集文件夹名为train_data,共有17803张图像,文件夹中包含10个子文件夹,文件名分别是butterfly、cat、chicken、cow、dog、elephant、horse、ragno、sheep、squirrel,文件名为对应文件夹下图像的类别,选手需自行读取标签信息。每个子文件夹下包含若干图像文件,数量约为1000-5000。
-
测试集
测试集文件夹名为test_data,文件夹中包含8150张图像,选手需根据训练集建立模型,对测试集文件进行预测分类。
· 上手指南 ·
本次赛事采用「算法赛」的形式进行,且 免费提供 2 核 8G CPU 和 10 小时 T4 GPU 。
在此献上丰厚贴心的社区学习资源,除了入门教程,本次比赛还为大家准备了详细实用的pytorch和tensorflow2学习资料等,助力你畅游数据科学的海洋!
你可享受:
-
ChallengeHub老师手把手Baseline教学;
-
Modelwhale免费算力支持,在线数据探索无压力;
-
参赛证明及优秀提交奖励
你会需要:
-
具备一定的pytorch或tensorflow2的使用基础。
-
了解常用的CV模型,例如resnet,efficientnet等。
-
了解图像领域的数据增强、梯度裁剪、学习率衰减等优化操作。
-
由于baseline是端到端的一体化建模流程,希望选手可以研究baseline的数据处理、数据构建、模型搭建的思路,形成自己的建模pipeline,以便于在以后的比赛中移植使用。
大家可以尽情探索和鲸社区,充分利用学习资源,感受图像分类的魅力!
· 报名通道 ·
报名链接
https://www.heywhale.com/u/5211bc
(有效提交即可获得参赛证明哦,更多奖励等你解锁)
· DataJoy®练习赛 ·
「DataJoy®」练习赛是和鲸(Heywhale)社区的自有练习赛品牌,面向所有希望通过练习来提升自我、结识友人的数据科学领域人才,旨在打造一个新手友好、自由交流、开源分享的数据科学练习环境。
DataJoy® 练习赛定位清晰,长期开放,按照新人的能力提升阶梯,依次划分为: 新人赛、进阶赛、热点赛、经典赛、高级赛 。
| 类型 | 难度 | 定位 | 可报名 | | 新人赛 | 难度较低 | 定位数据科学新人,通过赛题引导大家了解数据分析的基础流程和思路; | 预测分析·用户贷款违约预测 / 情感分析·推特文本情感分类 / 预测分析·民宿价格预测 / 预测分析·员工满意度预测 / 预测分析·客户购买预测 / 预测分析·视频评分预测挑战赛 | | 进阶赛 | 难度中等 | 以「新人赛」赛题为基础延展,继续探究较为发散的赛题方向; | 预测分析·商品评论情感预测 / CFM对金融市场的波动性预测
| | 热点赛 | 难度中等 | 基于社会时事热点命题,积聚人气,火热竞技; | | | 经典赛 | 难度较高 | 复刻全球经典大型数据科学赛题,卧虎藏龙; | ReID·行人重识别
| | 高级赛 | 难度较高 | 助你入门大型高奖金商业赛事,一飞冲天 | |
不论你是数据科学领域新人,还是数据科学交叉领域人才,亦或是数据科学竞赛翘楚,都欢迎加入「DataJoy®」大家庭,成为 DataJoy®er ,同伙伴们一起探寻乐趣!
「DataJoy®练习赛交流群」
你的和鲸练习赛小伙伴们都在这里,快到碗里来!
扫描添加小鲸,等待好友申请自动通过后
回复“ 练习赛 ”即可入群