知识图谱构建五、知识加工

技术
   通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素.再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基 本的事实表达。然而,事实本身并不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括3方面内容:本体构建、知识推理和质量评估.

1、本体构建

    本体 (ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识.虽然在不同时代和领域,学者们对本体曾经给出过不同的定义,但这些定义的内涵是一致的,即: 本体是同一领域内的不同主体之间进行交流的语义基础。本体是树状结构,相邻层次的节点(概念)之间具有严格的 “IsA ”关系,这种单纯的关系有助于知识推理,但却不利于表达概念的多样性。在知识图谱中,本体位于模式层,用于描述概念层次体系是知识库中知识的概念模板。


   本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。对于特定领域而言, 可以采用领域专家和众包的方式人工构建本体。然而对于跨领域的全局本体库而言,采用人工方式不仅工作量巨大,而且很难找到符合要求的专家。因此,当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。例如微软发布的Probase本体库就是采用数据驱动的自动化构建方法,利用统计机器学习算法迭代地从网页文本数据中抽取出概念之间的 “IsA ”关系 ,然后合并形成概念层次。目前,Probase 中包含了超过270万条概念,准确率高达92.8%, 在规模和准确性方面居于领先地位。


    数据驱动的自动化本体构建过程包含3个阶段:实体并列关系相似度计算、实体上下位关系抽取以及本体的生成。1 ) 实体并列关系相似度是用于考察任意给定的2个实体在多大程度上属于同一概 念分类的指标测度,相似度越高,表明这2个实体越有可能属于同一语义类别。所谓并列关系,是相对于纵向的概念隶属关系而言的。例如“中国”和“美国” 作为国家名称的实体,具有较高的并列关系相似度; 而 “美国 ”和 “手机 ”这2个实体,属于同一语义类别的可能性较低,因此具有较低的并列关系相似度。2) 实体上下位关系抽取是用于确定概念之间的隶属 (IsA )关系 ,这种关系也称为上下位关系,例如,词组(导弹,武器)构成上下位关系,其中的“导弹”为下位词,“武器”为上位词。3)本体生成阶段的主要任务是对各层次得到的概念进行聚类,并对其进行语义 类的标定(为该类中的实体指定1个或多个公共上 位 词 ).


    当前主流的实体并列关系相似度计算方法有2 种:模式匹配法和分布相似度法。其中,模式匹配法采用预先定义实体对模式的方式,通过模式匹配取 得给定关键字组合在同一语料单位中共同出现的频率,据此计算实体对之间的相似度。分布相似度 (distributional similarity)方法的前提假设是:在相似的上下文环境中频繁出现的实体之间具有语义上的相似性。在具体计算时,首先将每个实体表示成1个N维向量,其中,向量的每个维度表示1个预先定义的上下文环境,向量元素值表示该实体出现在各上下文环境中的概率,然后就可以通过求解向量间的相似度,得到实体间的并列关系相似度。


   实体上下位关系抽取是该领域的研究重点,主要的研究方法是基于语法模式(如 Hearst模式)抽取IsA实体对。当前主流的信息抽取系统,如KnowItAl l,TextRunner,NELL 等 ,都可以在语法层面抽取实体上下位关系,而 Probase则是采用基于语义的迭代抽取技术,以逐步求精的方式抽取实体上下位关系。基于语义的迭代抽取技术,一般是利用概率模型判定IsA关系和区分上下位词,通常会借助百科类网站提供的概念分类知识来帮助训练模型,以提高算法精度。例如Probase在处理 “domestic animals other than dogs such as cats”这样的句子时,可以通过抽取IsA 实体对中的上下位词得到2个备选事实:(cat,IsA,dog)和 (cat,IsA,domestic animal)。如果Probase中已经有关于这些实体的概念,就可以得到正确的结果。


    除了数据驱动的方法,还可以用跨语言知识链 接的方法来构建本体库.例如 Wang等人[62]利用跨语言知识链接方法得到的知识对,在分别生成中英 文本体模型的过程中,使二者相互确认,同时提高了中文关系和英文关系预测的准确度。


   当前对本体生成方法的研究工作主要集中于实体聚类方法,主要的挑战在于经过信息抽取得到的实体描述非常简短,缺乏必要的上下文信息,导致多 数统计模型不可用。例如 Wang等人利用基于主题进行层次聚类的方法得到本体结构,为了解决主题模型不适用于短文本的问题,提出了一个基于单词共现网络(term co-oc cur rence network)的主题聚类和上位词抽取模型(CATHY),实现了基于短文本的主题聚类。Liu 等人则采用贝叶斯模型对实体关键词进行分层聚类,经过改进的算法具有近似线性的复杂度(O (n log n )),能够在1h内从100万关键词中抽取出特定领域的本体。

2、知识推理

    知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。知识推理是知识图谱构建的 重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识。例如已知(乾隆,父亲,雍正)和 (雍正,父亲,康熙),可以得到(乾隆,祖父,康熙)或 (康熙,孙子,乾隆)。知识推理的对象并不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等。例如已知某实体的生日属性,可以通过推理得到该实体的年龄属性。根据本体库中的概念继承关系,也可以进行概念推理,例如已知(老虎,科, 猫科 )和 (猫科 ,目 ,食肉目),可以推出(老虎,目,食肉目)。


    知识的推理方法可以分为2大类:基于逻辑的推理和基于图的推理。基于逻辑的推理主要包括一阶谓词逻辑、描述逻辑以及基于规则的推理。一阶谓词逻辑建立在命题的基础上,在一阶谓词逻辑中,命题被分解为个体 (individuals)和谓词(predication)2部分。个体是指可独立存在的客体,可以是一个具体的事物,例如奥巴马,也可以是一个抽象的概念,例如学生。谓词是用来刻画个体的性质及事物关系的词,例如三元组 (A ,friend ,B )中 friend 就是表达个体AB关系的谓词。举例来说,对于人际关系可以采用一阶谓词逻辑进行推理,方法是将关系视为谓词,将人物视为变元,采用逻辑运算符号表达人际关系,然后设定关系推理的逻辑和约束条件,就可以实现简单关系的逻辑推理。


   对于复杂的实体关系,可以采用描述逻辑进行推理。描述逻辑(description logic)是一种基于对象的知识表示的形式化工具,是一阶谓词逻辑的子集,它是本体语言推理的重要设计基础。基于描述逻辑的知识库一般包含 TBox(terminology box)与 ABox(as sertion box),其中,TBox是用于描述概念之间和关系之间的关系的公理集合,ABox是描述 具体事实的公理集合。借助这2个工具,可以将基于描述逻辑的推理最终归结为ABox的一致性检验问题,从而简化并最终实现关系推理。


   当基于本体的概念层次进行推理时,对象主要是以 Web本体语言(OWL)描述的概念,OWL提供丰富的语句,具有很强的知识描述能力。然而在描述 属性合成和属性值转移方面,网络本体语言的表达能力就显得不足,为了实现推理,可以利用专门的规则语言 (如 semantic Web rule language,SWRL)对 本体模型添加自定义规则进行功能拓展。例如 Lu 等人借助SWRL规则向本体库添加实体隐含关系推理规则,据此实现了网络服务的匹配机制。


   基于图的推理方法主要基于神经网络模型或 Path Ranking 算法。例如Socher 等人将知识库中的实体表达为词向量的形式,进而采用神经张量网络模型(neuraltensornetworks)进行关系推理,在 WordNet和FreBase等开放本体库上对未知关系进行推理的准确率分别达到86.2%90.0% 。


    Path Ranking 算法的基本思想是将知识图谱视为图(以实体为节点,以关系或属性为边),从源节点开始,在图上执行随机游走,如果能够通过一个路 径到达目标节点,则推测源和目的节点间可能存在关系。例如假设2个节点(X ,Y )共有1个孩子Z,即存 在 路 径 X → Z ← Y ,据此推测X和Y之间可能存在 MariedTo关系。


   开放域信息抽取技术极大地拓展了知识图谱的知识来源,知识库内容的极大丰富为知识推理技术的发展提供了新的机遇和挑战,现有的知识推理技术已经明显滞后于需求。由于推理得到的知识准确性低、冗余度高,因此在将其加入到知识库之前,通常需要进行可证明性检查、矛盾性检查、冗余性检查以及独立性检查,以确保推理的知识加入知识库后不会产生矛盾和冗余。在实际应用中,知识库的构建者为保证知识库应用的时效性,通常仅保留部分与业务密切相关的知识,而放弃其他推理结果。


    此外,跨知识库的知识推理也是大趋势,同时也带来新的挑战,已经有部分学者开始关注这一问题。例如卢道设等人通过对描述逻辑的表现形式进 人类所拥有的信息和知识量都是时间的单调递行扩展,提出了一种基于组合描述逻辑的 Tableau 算法,基于概念的相似性对不同领域的概念进行关联。实验结果表明,基于组合描述逻辑的推理方法可以利用不同知识库中的已有知识进行推理,该成果为跨知识库的知识推理方法研究提供了新的思路。

3、质量评估

    质量评估也是知识库构建技术的重要组成部分。1)受现有技术水平的限制,采用开放域信息抽取技术得到的知识元素有可能存在错误(如实体识别错误、关系抽取错误等),经过知识推理得到的知识的质量同样也是没有保障的,因此在将其加入知识库之前,需要有一个质量评估的过程;2)随着开放关联数据项目的推进,各子项目所产生的知识库产品间的质量差异也在增大,数据间的冲突日益增多,如何对其质量进行评估,对于全局知识图谱的构建起 着重要的作用。引入质量评估的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识, 可以保障知识库的质量。


   为解决知识库之间的冲突问题,Mendes等 人在LDIF框架基础上提出了一种新的质量评估方法(Sieve 方法),支持用户根据自身业务需求灵活定义质量评估函数,也可以对多种评估方法的结果进行综合考评以确定知识的最终质量评分。


   在对 REVERB系统的信息抽取质量进行评估时 ,Fader 等人采用人工标注方式对1000个句子中的实体关系三元组进行了标注,并以此作为训练集,得到了一个逻辑斯蒂回归模型,用于对 REVERB 系统的信息抽取结果计算置信度。


   谷歌的 Knowledge Vault项目从全网范围内抽取结构化的数据信息,并根据某一数据信息在整个抽取过程中抽取到的频率对该数据信息的可信度进行评分,然后利用从可信知识库 Frebase中得到先验知识对先前的可信度信息进行修正,实验结果表明,这一方法可以有效降低对数据信息正误判断的不确定性,提高知识图谱中知识的质量。


    对于用户贡献的结构化知识的评估,与通过信息抽取获得的知识评估方法稍有不同。谷歌提出了 一种依据用户的贡献历史和领域,以及问题的难易 程度进行自动评估用户贡献知识质量的方法。用户提交知识后,该方法可以立刻计算出知识的可信度。使用该方法对大规模的用户贡献知识的评估准确率达到了91%,召回率达到了80%。
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数仓如何构建高性能向量检索技术
火山引擎ByteHouse团队基于社区 ClickHouse 进行技术演进,提出了全新的向量检索功能设计思路,满足业务对向量检索稳定性与性能方面的需求。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论