基于信息检索的KBQA流程及CCKS TOP方案 - 文章 - 开发者社区

一、KBQA的主要流程

1.1 什么是KBQA

   给定自然语言问题，通过对问题进行语义理解和解析，进而利用知识库进行查询、推理得出答案。

picture.image

1.2 KBQA的实现范式

   KBQA在技术上可以分成两种方案，分别是一种是语义解析方式，第二种信息检索方式方法。


   语义解析是把问题解析出句法成分、逻辑组合、关系、实体等，然后转为知识库上的查询语句，这种方法优点是有较高的精度，但是需要定义大量的规则，人工量成本较高，并且低召回。


   而信息检索方式以实体在知识库上召回较多的候选路径，通过语义匹配的方式对候选路径进行重排序，从而选择最优的路径作为答案，所以信息检索方式具有较高泛化性。

picture.image

1.3 KBQA的常见问题类型

picture.image

二、信息检索式KBQA

2.1 A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering

2.1.1 介绍

   主要是面向开放领域的知识图谱的问答。通过分词、主题实体提及识别、实体连接关系识别、语义匹配、启发式 答案选择的Pipeline方式构建问答系统，该系统最多能解决两跳(two-hop)的问题。

2.1.2 模型

picture.image

① 分词处理 :分词词典由ccks提供的所有实体和实体提及构成

② 主要实体提及识别 :通过实体长度、实体频数实体距离疑问词的距离、实体两跳子图在问题中覆盖的词数、实体两跳子图与问题中词的词向量相似程度、实体两跳子图在问题中覆盖的字数作为特征，最后计算实体得分：

Scoretopicentity=w1F1 +w2F2 +w3F3 +W4F4+ w5* F5 + w6*F6

③实体提取在图谱中 提出所有的三元组 ，这些成为候选三元组

④ 关系识别 :通过问题和候选三元组的关系的词重合次数、问题和候选三元组的关系的词向量相似程度、问题和候选三元组的关系的字重合次数、问题和候选三元组的关系的字向量相似程度作为特征确定排名前10个三元组。

⑤ 语义匹配 :利用BiMPM模型选择与问题语义最匹配的三元组。

⑥答 案选择 :基于启发式的规则选择答案，这要对一跳和两跳进行区分

2.2 混合语义相似度的中文知识图谱问答系统

picture.image

2.2.1 指称识别

• 子串匹配：生成问题全部子串，剪枝（长度>=2，指称不能被完全包含）
• 命名实体识别召回人名指称
• 启发式方法识别指称。针对可以被其它指称包含的指称，把该实体的一度关系召回，与问题进行匹配，匹配成功的留下该指称

2.2.3 实体链接

• 实体与问题匹配特征

• 实体名称与问题的匹配度
• 实体二度子图与问题的匹配度
• 实体类型与问题的匹配度
• 采用集合距离/word2vec

• 流行度特征

• 实体在图谱出现频率
• 实体不同的一度关系个数

• 指称重要度特征

• 指称是否被引号或书名号包含
• 指称是否在开头或结尾
• 指称和疑问词的距离
• 指称是否包含数字或字母
• ...
• 基于lambdarank的排序算法

2.2.3 模板匹配组件

• 召回每个实体的二度子图
• 剪枝一：当实体流行度过ths，慢删除该节点的关联边。
• 剪枝二：某些路径的方向未在训练集中出现，删除这种路径
• 三种模板

2.2.4 路径排序组件

• 39个特征
• 路径与问题字面匹配特征：jaccard，编辑距离
• 路径与问题的语义匹配特征：bert答案类型特征
• 答案类型匹配特征
• 实体链接的概率
• 候选路径自身特征(匹配哪类模板)

2.3 DUTIR 中文开放域知识库问答评测报告

2.3.1 模型

picture.image

2.3.2 辅助词典构建

• 实体链接词典：由主办方提供
• 分词词典：实体链接词典中的所有实体提及，知识库中所有实体的主干成分
• 词频词典：计算实体提及和属性值提及的词频特征，利用搜狗开源中文词频词典构建
• 倒排索引：识别属性值的模糊匹配

2.3.3 实体提及和属性值提及识别

• bert将训练集中标注实体还原为实体提及：“大连理工的校歌|是|什么？” -> "大连理工|的|校歌|是什么"
• 属性值提及识别

• 书名，称号，数字，正则
• 时间属性，正则
• 模糊匹配属性：得到问题中每个字对应的所有属性值，统计每个属性值的次数，选top3加入候选属性值的提及

2.3.4 实体链接及筛选

（1）实体提及的长度：该实体对应的实体提及的字数；
（2）实体提及的词频：该实体对应的实体提及的词频；
（3）实体提及的位置：该实体对应的实体提及距离句首的距离；
（4）实体两跳内关系和问题重叠词的数量；
（5）实体两跳内关系和问题重叠字的数量；
（6）logistic回归进行训练打分预测

2.3.5 候选查询路径生成及文本匹配

• 对每个实体抽取单跳关系和两跳关系作为候选的查询语句
• bert [cls] q1 [seg] 查询路径还原的人工问题 [seg] 进行打分

2.3.6 桥接及答案选择

• 有一部分包含两个及以上的主语实体，例如“北京大学出了哪些哲学家”
• 对匹配的单跳候选路径到知识库进行检索，验证其是否能和其他候选实体组成多实体情况的查询路径 {ent1, rel1, ANSWER, rel2, ent2}

参考文献：

1、A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering

2、混合语义相似度的中文知识图谱问答系统

3、DUTIR 中文开放域知识库问答评测报告