一、KBQA的主要流程
1.1 什么是KBQA
给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。
1.2 KBQA的实现范式
KBQA在技术上可以分成两种方案,分别是一种是语义解析方式,第二种信息检索方式方法。
语义解析是把问题解析出句法成分、逻辑组合、关系、实体等,然后转为知识库上的查询语句,这种方法优点是有较高的精度,但是需要定义大量的规则,人工量成本较高,并且低召回。
而信息检索方式以实体在知识库上召回较多的候选路径,通过语义匹配的方式对候选路径进行重排序,从而选择最优的路径作为答案,所以信息检索方式具有较高泛化性。
1.3 KBQA的常见问题类型
二、信息检索式KBQA
2.1 A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering
2.1.1 介绍
主要是面向开放领域的知识图谱的问答。通过分词、主题实体提及识别、实体连接关系识别、语义匹配、启发式 答案选择的Pipeline方式构建问答系统,该系统最多能解决两跳(two-hop)的问题。
2.1.2 模型
① 分词处理 :分词词典由ccks提供的所有实体和实体提及构成
② 主要实体提及识别 :通过实体长度、实体频数实体距离疑问词的距离、实体两跳子图在问题中覆盖的词数、实体两跳子图与问题中词的词向量相似程度、实体两跳子图在问题中覆盖的字数作为特征,最后计算实体得分:
Scoretopicentity=w1F1 +w2F2 +w3F3 +W4F4+ w5* F5 + w6*F6
③实体提取在图谱中 提出所有的三元组 ,这些成为候选三元组
④ 关系识别 :通过问题和候选三元组的关系的词重合次数、问题和候选三元组的关系的词向量相似程度、问题和候选三元组的关系的字重合次数、问题和候选三元组的关系的字向量相似程度作为特征确定排名前10个三元组。
⑤ 语义匹配 :利用BiMPM模型选择与问题语义最匹配的三元组。
⑥答 案选择 :基于启发式的规则选择答案,这要对一跳和两跳进行区分
2.2 混合语义相似度的中文知识图谱问答系统
2.2.1 指称识别
- • 子串匹配:生成问题全部子串,剪枝(长度>=2,指称不能被完全包含)
- • 命名实体识别召回人名指称
- • 启发式方法识别指称。针对可以被其它指称包含的指称,把该实体的一度关系召回,与问题进行匹配,匹配成功的留下该指称
2.2.3 实体链接
- • 实体与问题匹配特征
- • 实体名称与问题的匹配度
- • 实体二度子图与问题的匹配度
- • 实体类型与问题的匹配度
- • 采用集合距离/word2vec
- • 流行度特征
- • 实体在图谱出现频率
- • 实体不同的一度关系个数
- • 指称重要度特征
- • 指称是否被引号或书名号包含
- • 指称是否在开头或结尾
- • 指称和疑问词的距离
- • 指称是否包含数字或字母
- • ...
- • 基于lambdarank的排序算法
2.2.3 模板匹配组件
- • 召回每个实体的二度子图
- • 剪枝一:当实体流行度过ths,慢删除该节点的关联边。
- • 剪枝二:某些路径的方向未在训练集中出现,删除这种路径
- • 三种模板
2.2.4 路径排序组件
- • 39个特征
- • 路径与问题字面匹配特征:jaccard,编辑距离
- • 路径与问题的语义匹配特征:bert答案类型特征
- • 答案类型匹配特征
- • 实体链接的概率
- • 候选路径自身特征(匹配哪类模板)
2.3 DUTIR 中文开放域知识库问答评测报告
2.3.1 模型
2.3.2 辅助词典构建
- • 实体链接词典:由主办方提供
- • 分词词典:实体链接词典中的所有实体提及,知识库中所有实体的主干成分
- • 词频词典:计算实体提及和属性值提及的词频特征,利用搜狗开源中文词频词典构建
- • 倒排索引:识别属性值的模糊匹配
2.3.3 实体提及和属性值提及识别
- • bert将训练集中标注实体还原为实体提及:“大连理工的校歌|是|什么?” -> "大连理工|的|校歌|是什么"
- • 属性值提及识别
- • 书名,称号,数字,正则
- • 时间属性,正则
- • 模糊匹配属性:得到问题中每个字对应的所有属性值,统计每个属性值的次数,选top3加入候选属性值的提及
2.3.4 实体链接及筛选
- (1)实体提及的长度:该实体对应的实体提及的字数;
- (2)实体提及的词频:该实体对应的实体提及的词频;
- (3)实体提及的位置:该实体对应的实体提及距离句首的距离;
- (4)实体两跳内关系和问题重叠词的数量;
- (5)实体两跳内关系和问题重叠字的数量;
- (6)logistic回归进行训练打分预测
2.3.5 候选查询路径生成及文本匹配
- • 对每个实体抽取单跳关系和两跳关系作为候选的查询语句
- • bert [cls] q1 [seg] 查询路径还原的人工问题 [seg] 进行打分
2.3.6 桥接及答案选择
- • 有一部分包含两个及以上的主语实体,例如“北京大学出了哪些哲学家”
- • 对匹配的单跳候选路径到知识库进行检索,验证其是否能和其他候选实体组成多实体情况的查询路径 {ent1, rel1, ANSWER, rel2, ent2}
参考文献:
1、A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering
2、混合语义相似度的中文知识图谱问答系统
3、DUTIR 中文开放域知识库问答评测报告