维基百科对知识图谱给出的词条解释仍然沿用了谷歌的定义,即:知识图谱是谷歌用于增强其搜索引擎功能的辅助知识库.然而从业界的发展动态来看 ,这个定义显得过于简单。微软在2013年7月发布了自己的Satori知识库之后 ,必应(Bing)搜索引擎产品的高级主管Weitz公开表示,发布Satori只是表明微软已有类似的技术,然而目前这一技术本身还存在许多问题,微软希望取得领导地位,而不是追随谷歌。这一表态,折射出该领域背后的技术竞争十分激烈,从当前披露出来的商业产品,也能看出业界对此的普遍重视。表1给出了前主流的知识库产品和相关应用,其中,包含实体数最多的是WolframAlpha 知识库,实体总数已超过10万亿条.谷歌的知识图谱拥有5亿个实体和350亿条实体间的关系,而且规模在不断地增加.微软的 Probase包含的概念总量达到千万级,是当前包含概念数量最多的知识库AppleSiri,GoogleNow等当前流行的智能助理应用正是分别建立在 WolframAlpha知识库和谷歌的知识图谱基础之上。值得注意的是,国内也涌现出一些知识图谱产品和应用,如搜狗的知立方,侧重于图的逻辑推理计算,能够利用基于语义网三元组推理补充实体数据,对用户查询进行语义理解以及句法分析等。
从表
1
可以看出,除传统搜索服务提供商之外,
包括
Facebook
,
A
pp
le
,
IBM
等互联网领军企业也加
入了竞争。
由于相关技术和标准尚未成熟,其应用也处于探索阶段,因此知识图谱的概念目前仍处在发展变化的过程中,通过对现有的研究成果进行比较和提炼,本文提出知识图谱的定义。
1.1、知识图谱的定义
定义1
: 知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。 其基本组成单位是“实体-关系-实体 ”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。
通过知识图谱,可以实现
Web 从网页链接向概念链接转变,支持用户按主题而不是字符串检索,从而真正实现语义检索。 基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页,就可以准确定位和深度获取知识。
定义
1 包含 3 层含义:
1)知识图谱本身是一个具有属性的实体通过 关系链接而成的网状知识库。从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边。由此,知识图谱是对物理世界的 一种符号表达。
2
)知识图谱的研究价值在于,它是构建在当前Web 基础之上的一层覆盖网络 ( overla y network ), 借助知识图谱,能够在 Web 网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识。
3
)知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。
1.2、知识图谱的架构
知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构。
首先介绍知识图谱的逻辑结构,从逻辑上将知识图谱划分为
2 个层次: 数据层和模式层。 在知识图谱的数据层,知识以事实( fact )为单位存储在图数 据库。例如谷歌的 Gra p hd 和微软的 Trinit y 都是典型的图数据库 。 如果以“实体-关 系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的 “图谱 ”。
模式层在数据层之上,是知识图谱的核心。
在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和 约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。 本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
接下来从知识图谱构建的角度,介绍知识图谱的一般技术架构。图1给出了知识图谱技术的整体架构,其中虚线框内的部分为知识图谱的构建过程,
同时也是知识图谱更新的过程 。 如图 1 所示 , 知识图谱的构建过程是从原始数据出发 , 采用一系列自动或半自动的技术手段 , 从原始数据中提取出知识要素 ( 即事实 ), 并将其存入知识库的数据层和模式层的过程 . 这是一个迭代更新的过程 , 根据知识获取的逻辑 , 每一轮迭代包含 3 个阶段:信息抽取 、 知识融合以及知识加工。
知识图谱有自顶向下和自底向上2种构建方式。所谓自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
在知识图谱技术发展初期
, 多数参与企业和科研机构都是采用自顶向下的方式构建基础知识库 , 例如 , Freebase 项目就是采用维基百科作为主要数据来源 。 随着自动知识抽取与加工技术的不断成熟 , 目前的知识图谱大多采用自底向上的方式构建 , 其 中最具影响力的例子包括谷歌的 Knowled g e Vault 和微 软的 Satori 知识库 , 都是以公开采集的海量网页数据为数据源 , 通过自动抽取资源的方式来构建 、 丰富和完善现有的知识库。
接下来,我会介绍自底向上的知识图谱构建技术
, 按照知识获取的过程,主要分为 3 个层次: 信息抽 取 、 知识融合以及知识加工,敬请期待。