1、BI的起源与发展
BI又称商业智慧或商务智能,是指用现代数据仓库技术、线上分析处理技术、数据挖掘以及数据展现技术进行数据分析以实现商业价值。
商业智能的概念最早在1996年由加特纳集团提出,加特纳集团在商业智能的定义中指出,商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,并将这些数据转化为有用的信息,然后分发到企业各处。
图1:商业智能系统
2、BI系统的应用现状
当前的BI分析系统一般包含数据准备,数据处理,数据可视化,大数据引擎等模块。在商业智能方面,分析系统可以将大量的数据处理过程流程化,提升数据分析的效率。在一个完整的数据分析流程中,数据处理会占据整个过程70%的时间。在BI系统的加持下,可以帮助业务和分析人员的更加快捷高效的对数据进行处理,节省大量时间。若系统能实现对数据的实时分析,无疑将是有重要的业务意义。比如:应用中上线一个新功能,在分析系统上立刻就能看到最新的访问数据,达到对新上功能的测试与监控。
在用户使用上,商业智能分析系统可以极大地降低数据分析的门槛,通过一系列交互化的方式,让业务自己进行各类的分析,不需要写SQL,直接拖曳式分析即可。对于一些常用的监控项目或者指标,可以在系统中搭建好,后续可自动化更新。门槛的降低使得分析系统可以让很多业务自己用起来,降低了业务和分析之间的巨大沟通成本,业务创建的分析报告就更有针对性与业务价值。对于分析师而言,节省出来的时间,可以将更多的精力放在一些“高精尖”的项目上,集中精力攻克更难的问题。
商业智能发展至今,已经有丰富的BI分析模型供分析师或业务人员使用。在进行数据分析时通常需要使用各种模型来验证自己的分析观点,一是为了使自己的结论更具备说服力,二是让自己的论证过程更具备逻辑性和条理性。常见的分析方法如RFM模型、关联分析、对比分析、归因分析、KANO模型及AARRR海盗模型等,皆为经典易用的商业分析模型,具有极强的科学性。然而传统的BI分析模型,需要分析师凭借日常积累的经验进行探索性、预测性及验证性的分析总结,且在分析过程需要消耗一定的时间,实时性稍显不足。
图2:RFM模型简图
3、智能化BI解决方案
3.1 BI系统智能化解决方案
传统的BI系统如图3,实际的使用过程中往往不具有智能,而只有数据分析。需要业务人员通过尝试多种模型或者分析方法然后再进行决策,而这些分析往往需要非常丰富的的分析经验而且通常时效性不够强,在瞬息万变的商业竞争中失去先机。基于以上的应用瓶颈,我们初步对智能化BI的实现进行探索
图3:传统BI平台交互图
本文尝试引入智能化的BI系统如图4所示,会基于报表的异常进行主动分析,通过构建智能算法能主动分析与决策,并直接反馈给业务人员。
图4:智能化BI分析平台
首先通过配置标签库,构建相应的业务场景,然后产生相应的报表,如果报表分布出现异常波动变化则会产生预警。针对产生的异常波动预警,BI系统会抽取特征库中的特征构建智能算法,通过智能算法可进行特征贡献度筛选进行归因分析,同时还能生成相应的决策。
3.2 建模算法
1. 决策树
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。在构建决策树的节点过程中,通常使用信息增益与基尼系数来对特征混沌程度进行区分,用以决定那个特征作为父节点,哪个特征作为字节点。
<1>信息增益
设数据集为D,对于数据集D计算其经验熵如公式1
其中|D|是数据集中所有样本个数,k是目标变量的类别数,|Ck|是该分类下的样本个数。
经验条件熵,即数据集D在特征为A的条件下的熵如公式2
信息增益即为公式3,信息增益即为特征的混沌程度,信息增益越大说明特征的混沌程度越低,区分度越大
<2>基尼系数
表示在样本集合中一个随机选中的样本被分错的概率,Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。其公式如公式4 ①pk表示选中的样本属于k类别的概率,则这个样本被分错的概率是(1-pk) ②样本集合中有K个类别,一个随机选中的样本可以属于这k个类别中的任意一个,因而对类别就加和
条件基尼系数,即在数据集D中,特征为A的基尼系数,如公式5
<3>决策树可视化
如图5为一个模型构建好的决策的可视化
图5:决策可视化
2.XGBOOST算法
XGBOOST算法是一种BOOSTing改进模型,可以理解为一堆决策树进行相加来预测一项内容,由于其构成是由多棵决策树,因此准确度更高。在构建模型完以后,能筛选出特征的重要程度。 其损失函数可以写为如公式6:
3.智能算法在BI系统中的作用
在前文的图4中描述了整个智能BI系统的组成,而其中建模的部分即是算法的处理流程如图6,从中可以看出使用XGB算法与决策树算法完成特征贡献度的计算与决策路径的生成
图6:算法处理流程图
4、智能BI系统探索
1. BI系统的归因分析
下面以具体的营销场景与归因分析为例子,介绍一下智能化BI系统的功能。传统BI系统的归因分析,需要事先引入一些固定好的用户画像因子。而通常用户画像的因子较多,只能从画像库中筛选出一小部分部分进行图表展示,而通常客户画像库中会有上百上千的特征,很多时候往往从画像库中查找导致波动异常的指标比较困难如图7所示。
图7:归因分析(此图来源于网络)
2. 智能化BI系统工作流程
智能化BI系统除了能提供给业务人员进行相关BI分析,还能够自动基于BI报表的异常分析将相关分析决策主动推荐给业务人员,免除业务人员通过各种复杂的分析模型及经验进行探索分析。其流程如图8所示
图8:工作流程
<1>首先通过标签系统构建出业务场景,例如通过标签系统构建理财复购预测的业务场景(筛选出过去3个月内,第二次购买理财产品的人员为理财复购1,否则0) <2>然后根据业务场景产生相应的BI报表,如理财流失预警的BI报表,发现最近的一个节点理财复购较多如图9,构建智能算法模型进行自动分析。
图9:归因分析
<3>从指标特征库导入相关的特征指标构建智能算法,智能算法能能进行特征指标贡献度筛选与生成决策路径。如图10所示,从指标特征库的上百指标中筛选出10个贡献度最高的指标。
图10:理财复购预测
<4>智能算法还能生成如下决策路径如图11,用于供业务人员进行参考,并配置相关的决策引擎筛选出复购人群。
图11:决策路径
通过决策引擎配置上述生成的决策规则,筛选出人群如图12,在决策引擎中配置相应的规则图12:配置决策引擎筛选人群
5、结束语
本文主要总结了传统BI系统的主要组成及分析模型,然后提出一个基于异常报表监控的主动推荐式的BI引擎,将BI系统由过去被动的让业务人员去使用,变成一个有一定智能能够进行主动决策推荐的智能化BI系统