【竞赛推送】ChallengeHub又出新比赛啦！！！ - 文章 - 开发者社区

预测分析·商品评论情感预测

比赛链接：

https://www.heywhale.com/home/competition/609cc718ca31cd0017835fdc

大赛介绍

本次练习赛由和鲸社区和 ChallengeHub 共同举办赛题&数据、官方Baseline皆由 ChallengeHub 筹备和提供。

ChallengeHub 于2020年12月12日成立，致力于知识传播，竞赛开源以及招聘总结，旨在为所有热爱AI、热爱竞赛的小伙伴们，提供做一个开放的、活跃的交流平台。

竞赛背景

随着网上购物越来越流行，人们对于网上购物的需求变得越来越高，这让京东，淘宝等电商平台得到了很大的发展机遇。但是，这种需求也推动了更多的电商平台的发展，引发了激烈的竞争。在这种电商平台激烈竞争的大背景下，除了提高商品质量，压低商品价格外，了解更多的消费者心声对于电商平台来说也越来越重要。其中非常重要的一种方式就是针对消费者的购物行为数据和文本评论数据进行内在信息的数据挖掘分析。而得到这些信息，也有利于对应商品的生产自身竞争力的提高，以及为用户提供高质量感兴趣的商品。

数据说明

京东是中国最大的电子商务网站之一。该数据集包含从2011年1月1日到2014年3月31日（3年多）的消费者购买行为，用户评分，评论和产品元数据，涵盖15个一级产品类别，987个二级产品类别，近2个百万用户，超过10万种产品和超过6,000万条评论。该数据集中的每个文本评论都包含三个子评论：正面评论，负面评论和整体评论。

本数据集包括52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据
本次练习赛所使用数据集基于JD的电商数据，来自WWW的JD.com E-Commerce Data，并且针对部分字段做出了一定的调整，所有的字段信息请以本练习赛提供的字段信息为准
字段信息内容参考如下：

1 . 商品信息.csv

字段	数据	说明
商品ID	string	产品 id (PRODUCT_0)
商品名称	string	商品的具体名称，例如“新编家常菜谱(名厨指导版)”
所属类别	string	商品所属类别（从 0 开始，连续编号，从左到右依次表示一级类目、二级类目、三级类目）

2 . 商品类别列表.csv

字段	数据	说明
类别ID	string	类别 id (从 0 开始，连续编号)
类别名称	string	类别名称

3 . 训练集

字段	数据	说明
数据ID	string	每条数据的唯一id，例如TRAIN_0
用户ID	int	用户 id (从 0 开始，连续编号)
商品ID	string	即 products.csv 中的 productId
评论时间戳	int	评分的时间戳
评论标题	string	评论的标题
评论内容	string	评论的内容
评分	int	评分，[1,5] 之间的整数

4 .测试集

字段	说明
数据ID	每条数据的唯一id，例如TRAIN_0
用户ID	用户 id (从 0 开始，连续编号)
商品ID	即 products.csv 中的 productId
评论时间戳	评分的时间戳
评论标题	评论的标题
评论内容	评论的内容

评分标准

**（1）提交次数限制：**每支队伍每天最多提交5次。

（2）为了进行精度评估，使用了评估指标“ Micro F1”。

（3）评估指标大于等于0，数值越高代表模型多分类效果越好。取值范围为[1,2,3,4,5]

picture.image

官方交流群

你的练习赛小伙伴们都在这里，快到群里来！（QQ 群：630605151）

好未来表格识别技术挑战赛

比赛链接：

https://www.heywhale.com/home/competition/606d6fff0e04ac0017c3bf7f

picture.image

赛题描述

给定用户拍照生成的表格图片，识别表格结构和内容，输出为HTML格式字符串。

竞赛数据

本次挑战赛的数据来源于教育场景学生真实作业、试卷场景，包括

16K表格识别训练集数据，以HTML格式标注，下载后解压为train文件夹，其中包含：

train_data文件夹：包含所有训练图片
train.txt文件：包含所有标注，每一行对应一张图片及其标注
"表格识别训练数据说明文档"文件：部分说明信息

4K表格识别验证集+测试集数据，以HTML格式标注，其中：

验证集旨在对选手的算法进行评测指标参考，对应A榜提交，图像数据将在A榜开启时发布，标注数据将在A榜关闭后发布
测试集旨在对选手的算法进行最终评测，对应B榜提交，图像数据将在B榜开启时发布，标注数据将不会发布

最终排名以测试集对应的B榜结果为准，详情可见数据描述：https://www.heywhale.com/home/competition/606d6fff0e04ac0017c3bf7f/content/1

评分标准

针对比赛任务中的要求，在给定的测试集中的表格图片，参赛者对表格结构和内容进行识别，输出一个结构化的HTML格式字符串。评价方式采用TEDS（Tree-Edit-Distance-based Similarity）算法，该算法同时衡量了预测结果跟标注结果的结构相似度和单元格内容相似度。每张图像将得到一个TEDS score，范围0-1，1代表完全预测准确。最终结果取所有图像得分的平均分。排名按得分从高到低排序。
综合排名的成绩有效性将通过随机数据推理复现环节确认，该环节的200条数据均随机采样于测试集中并重新命名，以每支队伍B榜最佳提交结果中对应的200条识别结果作为baseline，如该队伍在该环节推理结果的TEDS score >= 99.5%，则最佳提交成绩有效，反之则成绩无效。
线上展示原则上不影响评分和比赛排名，但B榜有效成绩前6名的队伍均有参与义务，如无法参与，主办方有权取消和递补获奖资格。线上展示时间为9月6日-9月7日。
最终排名在随机数据推理复现和线上展示环节完成后于2021年09月08日确认并公示。

2021中国华录杯·数据湖算法大赛

比赛链接：

https://js.dclab.run/v2/cmptDetail.html?id=486

大赛介绍

本届华录杯大赛以“数据湖+AI”为理念，着力于人工智能通用技术，结合运用数据湖内行业领域真实数据，设置定向算法赛，包含图像摘要生成赛道、语言识别赛道、特殊车辆识别赛道、自然语言处理赛道及应急赛道五大赛道，总奖金高达69.5万。

大赛旨在汇集大数据、人工智能行业领域精英，开放数据资源，营造数据创新环境，孵化数字产业创业团队，激活数据湖生态，促进数字产业项目落地与推广。

报名大赛请扫描下方二维码~

picture.image

赛题设置

语音识别赛道

在日常生活中，经常会有多人同时说话的场景，如果能够对这些谈话内容进行识别，进而分析处理，可以帮助企业寻找产品和服务的不足，提升产品体验，同时也可以让我们的生活更加便捷。基于此我们举办了本次语音识别比赛。比赛为选手提供双人混合音频，选手需要利用相关算法将音频分离后进行识别，并输出识别后的文本内容。

图像摘要生成赛道

选手依据提供的图片，分析其视觉内容，构建模型并使用模型生成图片对应的文字描述。通常描述的是图像最显著的内容或图片中的事件主线，主要包括图片中的人或物，图片背景，人物正在做的事情等。

自然语言处理赛道

赛题采用某地区关于社会治理的投诉文本，主要包含城市管理、环境保护、居民生活以及城市规划建设等社会治理的常见问题。选手需要分析投诉文本数据，利用相关算法提取文本中的“被投诉实体”，并得到投诉文本的投诉类型。

特殊车辆识别赛道

由于道路上行驶的车辆类型错综复杂，每类车辆出现频率和时间也不尽相同，特殊类型车辆由于出现频率较低，数据量也远低于其他车辆且分布不均衡，故特殊车辆的识别的难度也高于一般车辆。大赛提供脱敏特殊车辆图片数据，数据分布均与真实场景一致，选手可利用小样本学习和解决数据不均衡的先进技术来实现本赛道的算法。

应急赛道

本赛题立足于天津市应急局应急预案，从预案适用范围、应急响应等级、应急机构及职责、应急行动措施、应急保障等方面解析预案内容、构建层级分明的应急预案知识图谱，助力相关单位在紧急情况突发时能更好更快的确定职责范围、响应上级安排、减少人民损失。

了解更多内容请直接点击登录数据湖开发者社区平台（https://dev.ehualu.com）查看~

加左侧管理员微信进入ChallengeHub粉丝交流群，或者扫描右图进入QQ学习交流群。感谢大家的关注于支持，祝福大家在比赛中取得好的名次！！！

picture.image

戳 “阅读原文” 进入《预测分析·商品评论情感预测》竞赛信息页面。

发现“在看”和“赞”了吗，戳我试试吧

picture.image