通过信息抽取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标,然而,这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合.知识融合包括2部分内容:实体链接和知识合并。通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量。
1、实体链接
实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。早期 的实体链接研究仅关注如何将从文本中抽取到的实体链接到知识库中,忽视了位于同一文档的实体间存在的语义联系,近年来学术界开始关注利用实体的共现关系,同时将多个实体链接到知识库中,称为集成实体链接(colective entity linking)。例如Han等人提出的基于图的集成实体链接方法,能够有效提高实体链接的准确性。
实体链接的一般流程是:1)从文本中通过实体抽取得到实体指称项;2)进行实体消歧和共指消解, 判断知识库中的同名实体与之是否代表不同的含义 以及知识库中是否存在其他命名实体与之表示相同的含义;3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
1)实体消歧
实体消歧(entity disambiguation)是专门用于解决同名实体产生歧义问题的技术。在实际语言环境中,经常会遇到某个实体指称项对应于多个命名实体对象的问题,例如“李娜”这个名词(指称项)可以对应于作为歌手的李娜这个实体,也可以对应于作为网球运动员的李娜这个实体,通过实体消歧,就可以根据当前的语境,准确建立实体链接。实体消歧主要采用聚类法。
聚类法是指以实体对象为聚类中心,将所有指 向同一目标实体对象的指称项聚集到以该对象为中 心的类别下.聚类法消歧的关键问题是如何定义实 体对象与指称项之间的相似度,常用方法有4种。
1 、空间向量模型(词袋模型):
典型的方法是取当前语料中实体指称项周边的词构成特征向量,然后利用向量的余弦相似度进行比较,将该指称项聚类到与之最相近的实体指称项集合中.例如Bagga 等人采用该方法,在 MUC6(Mesage Understanding Conference)数据集上取得了很高的消歧精度(F值高达84.6%)。然而该方法的缺点在于没有考虑上下文语义信息,这种信息损失会导致在某些情况下 算法性能恶化,如短文本分析。
2、 语义模型:
该模型与空间向量模型类似,区别在于特征向量的构造方法不同,语义模型的特征向量不仅包含词袋向量,而且包含一部分语义特征。例如Pedersen等人采用奇异值分解技术对文本向量空间进行分解,得到给定维度的浅层语义特征,以此与词袋模型相结合,能够得到更精确的相似度计算结果。
3、 社会网络模型:
该模型的基本假设是物以类聚、人以群分,在社会化语境中,实体指称项的意义在很大程度上是由与其相关联的实体所决定的。建模时,首先利用实体间的关系将与之相关的指称项链接起来构成网络,然后利用社会网络分析技术计算该网络中节点之间的拓扑距离(网络中的节点即实体的指称项),以此来判定指称项之间的相似度。例如 Malin等人利用随机漫步模型对演员合作网络数据进行实体消歧,得到了比基于文本相似度模型更好的消歧效果。
4、 百科知识模型:
百科类网站通常会为每个实体(指称项)分配一个单独页面,其中包括指向其他实体页面的超链接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度。例如 Han 等人利用维基百科条目之间的关联关系计算实体指称项之间的相似度,实验结果表明这种方式能够有效消除同名实体间的歧义 。Bunescu 等人以维基百科作为知识库,基于实体所在页面的上下文信息和指称项所在语料的上下文信息,利用词袋模型构造特征向量作为实体链接时进行相似度比较的依据,实现了实体消歧。在此基础上,Sen进一步采用主题模型作为相似度计算依据,在维基百科人物数据集上获得了高达86%的消歧准确率。Shen等人提出的Linden模型则同时考虑到了文本相似性和主题一致性,基于维基百科和Wordnet知识库,取得了当前最好的实体消歧实验结果。然而,由于百科类知识库中的实体数非常有限,此类方法的 推广性较差.
为了充分利用海量公开数据中包含的实体区分性证据,Li等人基于生成模型提出了一种增量证据挖掘算法,在Twitter数据集上实现了实体消歧准确率的大幅提升。该方法降低了消歧算法对于知识库的依赖,提供了一种很有希望的算法新思路。
实体消歧技术能够帮助搜索引擎更好地理解用户的搜索意图,从而给出更好的上下文推荐结果,提高搜索服务质量。其中还有一个很重要的问题是如 何对存在歧义的实体进行重要性评估,以确定推荐内容的优先级。当前的主要研究思路是为实体赋予权重,用于表示该实体出现的频率或先验概率。例如Ratinov 等人通过统计维基百科中的实体出现的频率以此作为实体推荐时排序的依据等。Ochs 人则借助搜索引擎的关键词日志和DBpedia 知识库,构建了一个知名人物本体库,据此实现了一个本体搜索引擎原型系统,为解决人物实体的重要性评估提供了一种新的思路。
2)共指消解
共指消解(entity resolution)技术主要用于解决多个指称项对应于同一实体象的问题。例如在一篇新闻稿中,“Barack Obama”,“president Obama”, “the president”等指称项可能指向的是同一实体对象,其中的许多代词如 “he”,“him ”等,也可能指向该实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象。由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力,因此学术界对该问题有多种不同的表述,典型的包括: 对象对齐(object alignment)、实体匹配(entity matching)以及实体同义(entity synonyms).
共指消解问题的早期研究成果主要来自自然语言处理领域,近年来统计机器学习领域的学者越来越多地参与到这项工作中。基于自然语言处理的共指消解是以句法分析为基础的,代表性方法是 Hobbs 算法和向心理论(centering theory)。Hobbs 算法是最早的代词消解算法之一,主要思路是基于句法分析树进行搜索,因此适用于实体与代词出现在同一 句子中的场景,有一定的局限性。早期的 Hobbs算法完全基于句法分析(朴素 Hobbs算法),后来则加入了语义分析并沿用至今。向心理论的基本思想是 :将表达模式(utterance)视为语篇(discourse)的基本组成单元,通过识别表达模式中的实体,可以获得当前和后续语篇中的关注中心(实体),根据语义的局部连贯性和显著性,就可以在语篇中跟踪受关注的实体。向心理论的提出最初并不是为了解决代词消解问题,而是为了对语篇中关注中心的局部连贯性进行建模,因此它虽然一段时间内成为主要 的代词消解手段,但却不是最佳的理论模型.近年来,学术界开始尝试在向心理论的基础上,利用词性标注和语法分析技术,提高实体消解方法的适用范围和准确性。例如 Lappin 等人基于句法分析和词法分析技术提出了消解算法,能够识别语篇中的第3人称代词和反身代词等回指性代词在语篇中回指的对象,其性能优于Hobbs算法和基于向心理论的实体消解方法。
随着统计机器学习方法被引入该领域,共指消
解技术进入了快速发展阶段。McCarth 等人首 次将C4.5决策树算法应用于解决共指消解问题,结果在MUC-5公开数据集的多数任务中均取得了优胜。Bean等人通过实验发现,语义背景知识对于构造共指消解算法非常有帮助,他们利用 Utah大学发布的AutoSlog系统从原始语料中抽取实体上下文模式信息,应用 Dempster-Shafer概率模型对实体模式进行建模,在2个公开数据集上(MUC- 4的恐怖主义数据集和路透社自然灾害新闻数据集 )分别取得了76%和87%的共指消解准确率。
除了将共指消解问题视为分类问题之外,还可以将其作为聚类问题来求解。聚类法的基本思想是以实体指称项为中心,通过实体聚类实现指称项与 实体对象的匹配。其关键问题是如何定义实体间的相似性测度。Turney基于点互信息(pointwise mutual information,PMI)来求解实体所在文档的相似度,并用于求解TOEFL和ESL考试中的同义词测试问题,取得了74%的正确率。Cheng 等人通过对搜索引擎的查询和点击记录进行研究,发现可以根据用户查询之后的点击行为对实体进行区分。据此,通过查询和点击记录建立实体指称项与相关网页URL之间的关联,进而计算出实体指称项之间的点击相似度(click similarity),结果表明该方法能够有效实现共指消解,从而提高搜索覆盖率。
基于统计机器学习的共指消解方法通常受限于 2个问题:训练数据的(特征)稀疏性和难以在不同的概念上下文中建立实体关联.为解决该问题, Pantel等人[50]基于 Haris提出的分布相似性模型, 提出了一个新的实体相似性测度模型,称为术语相似度 (term similarity),借助该模型可以从全局语料中得到所有术语间的统计意义上的相似性,据此可以完成实体合并,达到共指消解的目的。Chakrabarti 等人则将网页点击相似性和文档相似性这2种测度相结合,提出了一种新的查询上下文相似性测度 (query context similarity),通过在Bing系统上进行测试,该测度能够有效识别同义词,并显著提高查全率。值得注意的是,上述2种方法均支持并行计算,二者均采用了MapReduce框架,其中,前者在200个4核处理器上,用时50h得到了5亿条术语的相似度矩阵,而后者则已经在Bing搜索引擎的商品和视频搜索中取得应用。
2、知识合并
在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。例如,关联开放数据项目(linked open data)会定期发布其经过积累和整理的语义知识数据,其中既包括前文介绍过的通用知识库DBpedia和YAGO,也包括面向特定领域的知识库产品,如 MusicBrainz和 DrugBank等。
1)合并外部知识库:
将外部知识库融合到本地知识库需要处理2个层面的问题。1、数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实
例以及关系的冲突问题,造成不必要的冗余;2、通过模式层的融合,将新得到的本体融入已有的本体库中。
为促进知识库融合的标准化,Mendes 等人提出了开放数据集成框架(linked data integration framework,LDIF),用于对LOD知识库产品进行融合。其中包括4个步骤:1 、获取知识;2、概念匹配,由于不同本体库中的概念表达使用的词汇可能不同,因此需要对概念表达方式进行统一化处理;3、实体匹配,由于知识库中有些实体含义相同但是具有不同的标识符,因此需要对这些实体进行合并处理;4、知识评估,知识融合的最后一步是对新增知识进行验证和评估,以确保知识图谱的内容一致性和准确性,通常采用的方法是在评估过程中为新加入的知识赋予可信度值,据此进行知识的过滤和融合。
2)合并关系数据库:
在知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库.为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象地称为RDB2RDF,其实质就是将关系数据库的数据换成RDF的三元组数据。根据 W3C的调查报告显示,当前已经出现了大量RDB2RDF的开源工具(如 Triplify,D2R Server,OpenLink Virtuoso,SparqlMap 等 ),然而由于缺少标准规范,使得这些工具的推广应用受到极大制约。为 此 ,W3C 于 2012 年推出了2种映射语 言 标 准 :Direct Mapping (A direct mapping of relationaldatatoRDF)和 R2RML (RDBtoRDF mapping language).其中,Direct Mapping 采用直接映射的方式,将关系数据库表结构和数据直接输出为RDF图,在RDF图中所用到的用于表示类和谓词的术语与关系数据库中的表名和字段名保持一致。而 R2RML则具有较高的灵活性和可定制性,允许为给定的数据库结构定制词汇表,可以将关系数据库通过R2RML 映射为RDF 数据集,其中所用的术语如类的名称,谓词均来自定义词汇表.
除了关系型数据库之外,还有许多以半结构化方式存储(如 XML,CSV,JSON 等格式)的历史数据也是高质量的知识来源,同样可以采用RDF数据模型将其合并到知识图谱当中。当前已经有许多这样的工具软件,例如XSPARQL支持从XML格式转化为RDF,Datalift支持从XML和CSV格式转化为RDF,经过RDF转化的知识元素,经实体链接之后,就可以加入到知识库中,实现知识合并。