智源-水利知识图谱构建挑战赛

点击上方'蓝字',关注了解更多

宜 搬家 装修 结婚

20 20

新年倒计时

剩 2 天

忌 开业 开工 开张

12 30

通过给定的非结构化文本数据,抽取其中的水利实体、实体类别来完成水利领域的知识图谱构建。

比赛时间:2020年12月28日-2021年02月01日

picture.image

1 背景介绍

近年来知识图谱技术作为一种用于描述客观世界中概念,实例及其关系的新方法,得到了人们的广泛关注,利用知识图谱可以有效拓展搜索结果的广度。目前水利行业采用的基于关键字的搜索技术难以利用对象间关系进行信息检索。如果可以构建完善的水利领域知识图谱,可以有效利用水利对象之间的关系,充分发挥水利信息资源的价值。

由于水利领域中存在大量河流、湖泊和水库等实体,造成众多实体歧义问题(如:红旗水库,黑河,清河等),导致从非结构化文本数据中精准的提取水利实体并消歧同名实体还存在较大困难。本次比赛的目的就是提出一个提取水利相关文本中不同实体类型的方法。

本次比赛的数据由中国工程科技知识中心水利专业知识服务系统(中国水利水电)和智谱AI共同提供。

数据下载链接:https://open.baai.ac.cn/data-set-detail/MTI2NTM=/Njk=/true

picture.image

2竞赛规则

  1. 参赛选手需要提交“参赛队名,队长信息(姓名,邮箱,联系电话),参赛单位名称”等信息,报名方式稍后在评测网站发布。
  2. 报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
  3. 每支队伍需指定一名队长,队伍名称不超过15个字符,队伍成员不超过3人。
  4. 每支队伍每天只能提交 2次结果。
  5. 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
    6 . 允许使用开源代码或工具,但不允许使用任何未公开发布或需要授权的代码或工具。比赛不允许使用外部数据。
  6. 参赛选手最终需要提交可运行的代码和方法描述文档,并提交一份英文技术报告,若在排行榜上的结果无法复现,将取消参赛资格。

picture.image

3任务描述

本次比赛的赛题任务是水利知识图谱构建。具体来说,比赛需要参赛团队识别水利实体:从非结构化的自由文本中识别和抽取水利领域中的相关实体名称,并将它们归类到预定义类别,如河流、湖泊、水库、水电站、水利机构等。

比赛数据集为给定的一组水利领域非结构化文本信息,每条信息包含:

picture.image

预定义类别示例:

picture.image


              
河流,一种地表水资源名称,如黄河、长江、沙溪、大金川等;  

          

              
湖泊,一种地表水资源名称,如太湖、阳澄湖、白洋淀、色林错、洱海等;  

          

              
水库,拦洪蓄水和调节水流的水利工程建筑物,如三峡水库、密云水库等;  

          

              
水电站,一种水力发电厂,如三峡水电站、葛洲坝水电站等;  

          

              
大坝,截河拦水的堤堰,如三峡大坝、丹江口大坝等;  

          

              
机构,包括水利管理机构,如“江苏省水利厅”,水利研究机构,如“珠江水利科学研究院”等,水利企业,“山东水利建设集团有限公司”;  

          

              
人员,水利相关行政人员名称及水利相关研究人员名称;  

          

              
地区,行政区域名称(参考国家行政区划),包括省市区县村的名称;  

          

              
水利术语,水利工程、水资源等科研领域的术语,如双曲拱坝、河岸、支流等。
          

picture.image

END

picture.image

picture.image

  • 扫码关注我们 - ChallengeHub祝您欢欢喜喜过元旦

0
0
0
0
评论
未登录
暂无评论