采用自底而上的方式构建知识图谱的过程是一个迭代的过程,每一轮更新包括3个步骤:1)信息抽取,即从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;2)知识融合,在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;3)知识加工,对于经过融合的新知识,需要经过质量评估之后(部分需要人
工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。新增数据之后,可以进行知识 推理、拓展现有知识、得到新知识。
本次分享主要介绍信息抽取,信息抽取是知识图谱构建的第1步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
1、实体抽取
实体抽取,也称命名实体识别,是指从文本数据集中自动识别出命名实体。可以参考我之前分享的[NER(命名实体识别)-综述一](http://mp.weixin.qq.com/s?__biz=Mzg3NDIyMzI0Mw==&mid=2247483972&idx=1&sn=bb16d0a2069c783f5c0223f37e2bfe87&chksm=ced541a0f9a2c8b60a8d484d7e58435650157bb7c2b734d39ae4e48fdedac62a71617b71a0f1&scene=21#wechat_redirect)和[NER(命名实体识别)-综述二](http://mp.weixin.qq.com/s?__biz=Mzg3NDIyMzI0Mw==&mid=2247483982&idx=1&sn=dd4b191a482170875b519bf0d06d6cdb&chksm=ced541aaf9a2c8bc8998d3548ad59d9fe197d26cfbd1c981515b43f3d3bd14159c93a9217b57&scene=21#wechat_redirect)
2、关系抽取
文本语料经过实体抽取,得到了一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能形成网状的知识结构。
3、属性抽取
属性抽取的目标是从不同的信息源中采集特定实体的属性信息。例如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍等等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。由于可以将实体的属性视为实体与属性值之间的一种名词性关系,因此也可以将属性抽取问题视为关系抽取问题。