银行业务领域中,地址信息是一项常见的客户信息,如户籍地址、单位地址、寄卡地址等等。这类信息对于客户画像、精准营销、风控反欺诈等工作有着非常重要的意义。然而作为典型的非结构化信息,地址数据如何被有效识别与精确计算存在着以下无法回避的问题。
- 表达多样性问题。由于不同的表述习惯,同一地址会有不同的表述形式,难以直接比较等同。
- 层级信息残缺问题。地址信息存在简略表述习惯,这会导致部分层级信息缺失,给地址理解和比对造成不便。
- 虚假地址问题。反欺诈场景中,有捏造虚假地址套利、逃避债责的情况 ,难以直接鉴别。
表 1 地址解析问题类型
问题类型 | 示例 |
---|---|
表达多样性问题 | 1、河南省郑州市金水区民祥社区金泰小区 2、河南郑州金水区金泰小区 3、河南省郑州市金水区金水东路17号 |
层级信息残缺问题 | 1、郑州市金水区金泰小区 2、金泰小区 |
虚假地址问题 | 1、河南省信阳市浉河区民祥社区金泰小区 |
为应对以上问题,本文提出了一种基于地址知识图谱的地址标准化、层级补全、虚假地址识别的技术方法。实践表明该方法对地址识别与精确计算有着十分不错的效果,在不同的银行业务场景中产生了广泛的落地价值。
本文依托国家统计局标准地址库,建立地址知识图谱,并据此进行地址标准化解析,具体架构如下图所示。
图 1 地址解析整体架构
本架构分别由平台支撑层、数据支撑层、技术功能层、业务场景层等4层构成,每层功用各不相同。
- 平台支撑层:数据标注平台为地址数据标注所用,图数据库为地址知识图谱存储、推理所用,机器学习平台为承载技术功能所用。
- 数据支撑层:地址标注数据为训练地址词识别模型所用,地址知识图谱为提供标准地址名、地址辖属知识所用。
- 技术功能层:该层主要实现了地址解析各项功能,包括地址词识别、标准名称映射、地址层级补全、虚假地址识别等。
- 业务场景层:该层主要为地址知识图谱主要应用场景,包括地址录入辅助、客户画像、风控反欺诈、精准营销等。
(一)地址知识图谱要素
依照国家统计局的标准,地址信息主要由五个层级构成,分别为省(自治区、直辖市)、市(自治州、盟)、县(区、旗)、街道(镇、乡)、社区(行政村)。五个层级以外,地址信息又可以划分为以下类别:
- 家庭地址:通常为客户的户籍地址或住宅地址,一般为小区、道路门牌号、自然村等。
- 公司地址:客户的工作地址,一般为大厦、园区、道路门牌号等。
- 定位地址:通过卫星定位得到的坐标地址,以及据此转换得到的标准地址。 综上,一个完备的地址知识图谱需具备以下信息。
表 2 地址知识图谱要素说明
编号 | 地址层级类型 | 相关属性信息 |
---|---|---|
1 | 省(自治区、直辖市、特别行政区) | 全称、简称/别名、行政层级、行政类别 |
2 | 市(自治州、盟) | 全称、简称/别名、行政层级、行政类别、上级行政区 |
3 | 县(区、旗) | 全称、简称/别名、行政层级、行政类别、上级行政区 |
4 | 街道(镇、乡) | 全称、简称/别名、行政层级、行政类别、上级行政区 |
5 | 社区(行政村) | 全称、简称/别名、行政层级、行政类别、城乡类型代码、上级行政区 |
6 | 小区(大厦、园区、自然村) | 全称、简称/别名、行政层级、行政类别、上级行政区、所属道路、道路门牌号 |
7 | 道路 | 全称、简称、 所属行政区 |
(二)地址标准化解析
基于地址知识图谱,地址标准化解析由以下步骤组成。
- 地址词识别:识别出文本中的地址词,包括地址标准名、别名、简称。
- 标准名称映射:将用户指称的地址词映射为地址知识图谱中的地址标准名。
- 地址层级补全:根据地址知识图谱中的层级辖属信息,补全各行政层级。
- 虚假地址识别:根据地址知识图谱,识别层级辖属错误的情况。
图 2 地址解析步骤示意图
(一)地址知识图谱构建
根据国家统计局行政区划标准、地址知识图谱规划设计,梳理得到各级地址信息525万条、道路信息16.7万条,建成知识图谱如下图所示。
图 3 地址知识图谱示意图
(二)地址词识别
地址词识别是经典的序列标注(常被称为命名实体识别,NER)算法问题,具体模型结构如下图所示。模型整体采用BIEO标签体系,自下而上依次为输入层、Embedding表示层、LSTM/GRU/CNN/Transformer层、CRF层、输出层。使用标注数据训练上述模型,即可对客户地址信息进行地址词识别切分。
图 4 地址词识别模型
(三)标准名称映射
标准地名映射方法参考NLP实体链接技术,大概分为以下4个步骤。
图 5 标准名称映射示意图
- 标准名匹配:使用地址词匹配地址知识图谱中的标准名,映射到相应的地址知识。
- 别名/简称匹配:使用地址词匹配地址知识图谱中的别名/简称,从而映射到对应的标准名称。
- 编辑距离匹配:基于编辑距离方法,使用地址词查找地址知识图谱的地名。
- 拼音编辑距离匹配:基于编辑距离方法,使用地址词拼音匹配地址知识图谱中的地名。
(四)地址层级补全
标准名称映射可得到各地址词在地址知识图谱中的具体知识条目。依据各层级地址间的辖属关系,使用图谱推理技术,可得到客户地址信息中未提及的地址层级,从而补全缺失的地址信息。
图 6 地址层级补全示意图
(五)虚假地址识别
虚假地址有以下3种类型,它们各有特点及相应的识别方法,具体详述如下。
- 地址拼凑:该情况下,地址条目会分布在不同的辖属链路分支(如下图所示),据此可准确识别此种地址造假。
- 地址冒用:即冒用他人地址,该情况可以比较标准化之后的地址表示,若存在地址相同客户,可认定存在地址冒用。
- 地址不存在:该类地址在标准化映射环节,在地址知识图谱中找不到对应的词条,尤其是省市县等变动性较低的地址层级,即可断定为地址不存在。
图 7 虚假地址识别示意图
(一)地址录入辅助
银行业务办理、客户信息登记过程中,用户地址是一项经常需要填写的信息。地址知识图谱能够提供标准地址名称,推测缺省地址信息。这样既可以改善用户体验,又可以避免人工录入错误。
图 8 地址录入辅助示意图
(二)客户画像
用户画像中,地址信息是一项重要的人口属性信息。基于此信息能衍生出众多用户标签。
- 基础地址标签:地址的省、市、区、街道、社区标签。
- 城乡类型标签:根据国家统计局城乡类型划分,生成地址城乡类型标签。
- 房价标签:与区域房屋价格关联,形成房价参考值标签。
- 职业标签:挖掘地址信息中的职业关键词,形成职业标签。例如:“大学”对应老师或学生,“医院”对应医生、护士和病人等。
- 区域逾期率标签:根据地址/区域逾期率,生成区域逾期率标签。
图 9 客户地址及城乡类型画像示意图
(三)风控反欺诈
风控反欺诈是银行业务中的一项重要工作。地址知识图谱可以有效地从以下三个方面支撑风控反欺诈工作。
- 虚假地址识别:根据虚假地址与风险欺诈之间的强关联关系,识别风险欺诈行为。
- 团伙欺诈识别:根据团伙欺诈与地址集中度的关联关系,识别团伙欺诈行为。
- 高风险地域预警:根据不同地区的逾期坏账比率,预警高风险地域。
(四)精准营销
地址信息具有很强的群体聚集性与层级关联性。因此基于地址信息,能够有效打破数据孤岛,赋能产品精准营销。
- 精准区域营销:根据用户地址标签及其关联的房价、职业等标签,筛选高匹配的目标客群,制定针对性的营销策略。
- 区域营销分析:分析地域营销效果,评估产品社区渗透率,指导营销、完善售后。
- 线下营销推荐:区域概况分析、线下营销推荐等。
地址知识图谱的应用表明银行业务中地址一类的非结构化信息蕴含的价值是丰富的,非结构化信息的运用技术也是成熟可行的。下一步,一方面我们将紧跟国家地址区域调整,及时维护更新地址知识图谱;根据银行业务需求,不断丰富完善地址知识图谱应用场景和技术。另一方面,我们将不断结合业务需求、与时俱进,运用数据智能技术,不断探索挖掘非结构化数据在商业银行不同业务领域的应用价值,以专业的技术能力服务于数字化、智能化银行建设!