1. 业务背景
由于缺乏足够品质的抵押物、财务状况不透明等因素,小微企业金融服务存在授信依据不足、尽调成本偏高、风险识别困难等难题。流水数据是一个非常有效的数据源,它反映了客户的经营状况、资产状况、以及上下游交易对手等信息。对于财务报表质量不高的小微企业来说,流水智能分析就成为了更有利的抓手。一方面,采用智能化的手段实现流水数据的标准化,能够提高流水审核效率和准确率;另一方面,基于标准化的流水数据,进行企业经营实质分析、异常交易分析、关联交易分析等,可以为银行业务提供可靠的营销和风控线索。
2. 小微流水智能分析解决方案
2.1 整体解决方案
中原银行数据智能团队2022年展开了小微流水智能分析的探索与应用,针对中小微企业、个体工商户、个人客户,开发完成了支持多种流水来源(如行内存量流水、他行流水、微信\支付宝流水),多种流水格式(图片、pdf扫描件、Excel等)的流水智能分析系统,结合行内移动作业平台、新一代信贷系统,成功应用于尽职调查、授信审批以及评分卡模型调优等场景。
图1 流水智能分析-解决方案
图2 移动端流水分析助手-流程架构
图3 流水智能分析系统-功能架构
2.2 主要功能介绍
本系统利用OCR识别、NLP解析、知识图谱以及大数据分析挖掘等智能化手段,完成七大功能模块建设(如图3所示),实现了多格式流水数据标准化、多来源流水一体化、多格式流水数据标准化、经营与风险动态指标可视化。该系统的核心功能如下:
- 流水模板归一化
利用OCR识别技术,将pdf影印、照片等图像格式的流水文件解析成标准的Excel版本;将不同银行的Excel版本流水进一步标准化,识别出流水数据中交易双方名称、汇款备注等关键要素。
- 流水业务语义识别
利用NLP语义识别技术,基于流水关键要素,识别出每笔交易的用途类型,如销售收入、付供应商、人力成本、税费缴纳等,为后期多维度量化分析提供标准化的数据基础。
- 关联交易分析
利用知识图谱技术,结合外部工商数据进行股权穿透,识别董监高、股权方等类型的关联交易。
- 经营实质分析
利用大数据分析技术,基于标准化的流水数据进行多维度统计分析,如流水规模分析、贷款与理财收支分析、指标性收支分析等,分析客户还款能力、经营趋势。
- 异常交易分析
利用大数据分析技术,进行多维度异常交易识别,包括:大额异常交易、企业间拆借、收支重合度高的交易对手方、往来金额较高的新成立企业等,并统计相关交易的流入流出规模。
3. 流水业务语义识别模型
流水业务语义识别是流水智能分析的关键问题,为关联分析、经营实质分析、异常分析提供了标准化的数据基础。下文将着重介绍该模型。
3.1 问题概述
流水业务语义识别,是基于流水关键要素识别出每笔交易的用途类型,如表1所示,流水中的关键要素信息有借贷类型、交易方、交易对手方、汇款备注,尤其是汇款备注是重要参考信息。
表1 流水数据交易类型-示例
序号 | 借贷类型 | 交易方 | 交易对手方 | 交易对手方类型 | 汇款备注 | 交易类型 |
---|---|---|---|---|---|---|
1 | 收入 | **果业有限公司 | **食品有限公司 | 企业 | 采购款、货款、苹果汁、梨果糖等 | 销售收入 |
2 | 支出 | **果业有限公司 | **燃气有限公司 | 企业 | 燃气费用、气款 | 水电能源 |
3 | 支出 | **压缩天然气有限公司 | **燃气有限公司 | 企业 | 原料气款、气款 | 付供应商 |
3.2 技术难点
流水业务识别任务所涉及的因素比较复杂,一方面汇款备注信息复杂多样,另一方面,还需要根据交易双方的名称所蕴含的行业信息,综合判断每笔交易的真实用途,具体的示例如下:
(1)不同汇款摘要对应同一个交易类型。样例1,交易类型为销售收入,摘要内容涉及采购款、货款、以及包含具体商品种类的苹果汁款、梨果糖款等。
(2)相同汇款摘要对应不同交易类型。样例2和样例3,摘要内容为气款,对于果业有限公司来说,该笔交易是维持日常经营所缴纳的燃气费用,交易类型为水电能源;对于压缩天然气有限公司来说,该笔交易是向供应链上游企业支付的原料款项,交易类型为付供应商。
3.3 方案设计
为解决以上问题,本文利用提示学习的思想,构造了融入背景信息的data-to-text模版来实现智能流水分析,通过引入提示模版,将结构化流水数据改造为流畅的自然语言文本作为模型输入来提升模型性能。
流水要素包括借贷标识、交易方、摘要、备注、交易对手方、交易对手方类型,两种data-to-text转换方式如下:
- data-to-text-native:借贷标识,交易方,摘要,备注,交易对手方,交易对手方类型;
- data-to-text-prompt:这是一笔{借贷标识}交易,交易方为{交易方},交易对手方身份为{交易对手方类型},交易对手方名称为{交易对手方},交易说明为{备注},我们需要重点根据交易对手名称和交易说明来推测该笔交易的类型。
3.4 模型设计
本文利用预训练语言模型BERT-base作为基础语义模型,结合微软提出的Unilm方案,将下游分类任务转化成Seq-to-Seq任务,构建流水业务语义识别模型。如图4所示,在模型的输入端包含两种输入方式,分别为:data-to-text-native和data-to-text-prompt;中间的Transformer Block采用了Bidirectional LM和Seq-to-Seq LM两种不同的[mask]方式,在Bidirectional LM方式中,利用[CLS]来预测流水类别;在Seq-to-Seq LM方式中,利用预测下一个[SEP]来表示流水类别。
两种[mask]方式的模型输入如下:
- Bidirectional LM 方式:[CLS] data-to-text-native/data-to-text-prompt[SEP]
- Seq-to-Seq LM 方式:[CLS] data-to-text-native/data-to-text-prompt[SEP]该笔流水类别为{流水类别}[SEP]
图4 模型架构图
3.5 实验结果
为验证模型有效性,我们设置了低资源场景和跨领域场景两组对比实验,如表2和表3所示,评估依据为分类准确率accuracy。
表 2 低资源场景对比实验
Model | 100-shot | 1000-shot | all-shot |
---|---|---|---|
data-to-text-native + Bidirectional LM | 0.806 | 0.817 | 0.908 |
data-to-text-native + Seq-to-Seq LM | 0.819 | 0.840 | 0.932 |
data-to-text-prompt + Bidirectional LM | 0.879 | 0.913 | 0.945 |
data-to-text-prompt + Seq-to-Seq LM | 0.899 | 0.943 | 0.965 |
低资源场景下,n-shot代表使用n个训练样本对模型进行微调。仅改变模型的训练方式,由Seq2Seq代替全连接层进行分类,性能可以小幅提升;使用基于提示学习思想的data-to-text可以使模型准确率显著提升;当样本量达到1000时,data-to-text-prompt+ Seq-to-Seq LM模型组的准确率与全样本all-shot仅相差2.2%。
表3 跨领域场景对比实验
Model | all-shot | field_1 | field_2 | field_3 |
---|---|---|---|---|
data-to-text-native + Bidirectional LM | 0.908 | 0.864 | 0.805 | 0.852 |
data-to-text-native + Seq-to-Seq LM | 0.932 | 0.886 | 0.823 | 0.895 |
data-to-text-prompt + Bidirectional LM | 0.945 | 0.898 | 0.852 | 0.884 |
data-to-text-prompt + Seq-to-Seq LM | 0.965 | 0.925 | 0.896 | 0.905 |
跨领域场景下,all-shot 代表全领域10个行业随机抽取的测试集,field_1,filed_2,field_3分别代表三个不同行业的测试集。相对于全领域,跨领域迁移会使模型的准确率有一定程度的下降,这主要是由于新的领域有不一样的领域特征,模型未能完全学习到。同时,我们可以看到,data-to-text-prompt+ Seq-to-Seq LM模型组模型准确率下降幅度最低。
上述两组实验结果表明,流水业务语义识别模型采用融入背景信息的data-to-text转换方式和Seq-to-Seq训练方式,不仅能在低资源场景下有较好的效果,而且可以使模型有更好的领域迁移能力,能够为后期多维度分析提供标准且可靠的数据基础。
4. 结论与展望
本文主要介绍了流水智能分析系统的整体解决方案和核心功能,并重点介绍了流水业务语义识别模型的技术创新点。
目前流水智能分析系统已成功落地实施,实现了小微企业行内流水数据的每日监测,他行流水、微信支付宝流水的在线实时分析等功能,下一步工作规划主要有:
- 流水价值挖掘方面,结合财报智评,沉淀流水基础数据资产,包括行业指标数据、经营指标数据。
- 业务场景拓展方面,除小微场景外,开展流水智能分析在公司、个人等客户场景下的应用,提升全行风险控制与客户营销的智能化水平。