基于信息检索的KBQA流程及CCKS TOP方案

火山方舟向量数据库云通信

一、KBQA的主要流程

1.1 什么是KBQA

   给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。

picture.image

1.2 KBQA的实现范式

   KBQA在技术上可以分成两种方案,分别是一种是语义解析方式,第二种信息检索方式方法。


   语义解析是把问题解析出句法成分、逻辑组合、关系、实体等,然后转为知识库上的查询语句,这种方法优点是有较高的精度,但是需要定义大量的规则,人工量成本较高,并且低召回。


   而信息检索方式以实体在知识库上召回较多的候选路径,通过语义匹配的方式对候选路径进行重排序,从而选择最优的路径作为答案,所以信息检索方式具有较高泛化性。

picture.image

1.3 KBQA的常见问题类型

picture.image

picture.image

二、信息检索式KBQA

2.1 A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering

2.1.1 介绍

   主要是面向开放领域的知识图谱的问答。通过分词、主题实体提及识别、实体连接关系识别、语义匹配、启发式 答案选择的Pipeline方式构建问答系统,该系统最多能解决两跳(two-hop)的问题。

2.1.2 模型

picture.image

分词处理 :分词词典由ccks提供的所有实体和实体提及构成

主要实体提及识别 :通过实体长度、实体频数实体距离疑问词的距离、实体两跳子图在问题中覆盖的词数、实体两跳子图与问题中词的词向量相似程度、实体两跳子图在问题中覆盖的字数作为特征,最后计算实体得分:

Scoretopicentity=w1F1 +w2F2 +w3F3 +W4F4+ w5* F5 + w6*F6

③实体提取在图谱中 提出所有的三元组 ,这些成为候选三元组

关系识别 :通过问题和候选三元组的关系的词重合次数、问题和候选三元组的关系的词向量相似程度、问题和候选三元组的关系的字重合次数、问题和候选三元组的关系的字向量相似程度作为特征确定排名前10个三元组。

语义匹配 :利用BiMPM模型选择与问题语义最匹配的三元组。

⑥答 案选择 :基于启发式的规则选择答案,这要对一跳和两跳进行区分

2.2 混合语义相似度的中文知识图谱问答系统

picture.image

2.2.1 指称识别

  • • 子串匹配:生成问题全部子串,剪枝(长度>=2,指称不能被完全包含)
  • • 命名实体识别召回人名指称
  • • 启发式方法识别指称。针对可以被其它指称包含的指称,把该实体的一度关系召回,与问题进行匹配,匹配成功的留下该指称

2.2.3 实体链接

  • • 实体与问题匹配特征
  • • 实体名称与问题的匹配度
  • • 实体二度子图与问题的匹配度
  • • 实体类型与问题的匹配度
  • • 采用集合距离/word2vec
  • • 流行度特征
  • • 实体在图谱出现频率
  • • 实体不同的一度关系个数
  • • 指称重要度特征
  • • 指称是否被引号或书名号包含
  • • 指称是否在开头或结尾
  • • 指称和疑问词的距离
  • • 指称是否包含数字或字母
  • • ...
  • • 基于lambdarank的排序算法

2.2.3 模板匹配组件

  • • 召回每个实体的二度子图
  • • 剪枝一:当实体流行度过ths,慢删除该节点的关联边。
  • • 剪枝二:某些路径的方向未在训练集中出现,删除这种路径
  • • 三种模板

2.2.4 路径排序组件

  • • 39个特征
  • • 路径与问题字面匹配特征:jaccard,编辑距离
  • • 路径与问题的语义匹配特征:bert答案类型特征
  • • 答案类型匹配特征
  • • 实体链接的概率
  • • 候选路径自身特征(匹配哪类模板)

2.3 DUTIR 中文开放域知识库问答评测报告

2.3.1 模型

picture.image

2.3.2 辅助词典构建

  • • 实体链接词典:由主办方提供
  • • 分词词典:实体链接词典中的所有实体提及,知识库中所有实体的主干成分
  • • 词频词典:计算实体提及和属性值提及的词频特征,利用搜狗开源中文词频词典构建
  • • 倒排索引:识别属性值的模糊匹配

2.3.3 实体提及和属性值提及识别

  • • bert将训练集中标注实体还原为实体提及:“大连理工的校歌|是|什么?” -> "大连理工|的|校歌|是什么"
  • • 属性值提及识别
  • • 书名,称号,数字,正则
  • • 时间属性,正则
  • • 模糊匹配属性:得到问题中每个字对应的所有属性值,统计每个属性值的次数,选top3加入候选属性值的提及

2.3.4 实体链接及筛选

  • (1)实体提及的长度:该实体对应的实体提及的字数;
  • (2)实体提及的词频:该实体对应的实体提及的词频;
  • (3)实体提及的位置:该实体对应的实体提及距离句首的距离;
  • (4)实体两跳内关系和问题重叠词的数量;
  • (5)实体两跳内关系和问题重叠字的数量;
  • (6)logistic回归进行训练打分预测

2.3.5 候选查询路径生成及文本匹配

  • • 对每个实体抽取单跳关系和两跳关系作为候选的查询语句
  • • bert [cls] q1 [seg] 查询路径还原的人工问题 [seg] 进行打分

2.3.6 桥接及答案选择

  • • 有一部分包含两个及以上的主语实体,例如“北京大学出了哪些哲学家”
  • • 对匹配的单跳候选路径到知识库进行检索,验证其是否能和其他候选实体组成多实体情况的查询路径 {ent1, rel1, ANSWER, rel2, ent2}

参考文献:

1、A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering

2、混合语义相似度的中文知识图谱问答系统

3、DUTIR 中文开放域知识库问答评测报告

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论