面向智能化BI分析平台建设的初步探索 | 社区征文

社区征文

1、BI的起源与发展

BI又称商业智慧或商务智能,是指用现代数据仓库技术、线上分析处理技术、数据挖掘以及数据展现技术进行数据分析以实现商业价值。

商业智能的概念最早在1996年由加特纳集团提出,加特纳集团在商业智能的定义中指出,商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,并将这些数据转化为有用的信息,然后分发到企业各处。 image.png

图1:商业智能系统

2、BI系统的应用现状

当前的BI分析系统一般包含数据准备,数据处理,数据可视化,大数据引擎等模块。在商业智能方面,分析系统可以将大量的数据处理过程流程化,提升数据分析的效率。在一个完整的数据分析流程中,数据处理会占据整个过程70%的时间。在BI系统的加持下,可以帮助业务和分析人员的更加快捷高效的对数据进行处理,节省大量时间。若系统能实现对数据的实时分析,无疑将是有重要的业务意义。比如:应用中上线一个新功能,在分析系统上立刻就能看到最新的访问数据,达到对新上功能的测试与监控。

在用户使用上,商业智能分析系统可以极大地降低数据分析的门槛,通过一系列交互化的方式,让业务自己进行各类的分析,不需要写SQL,直接拖曳式分析即可。对于一些常用的监控项目或者指标,可以在系统中搭建好,后续可自动化更新。门槛的降低使得分析系统可以让很多业务自己用起来,降低了业务和分析之间的巨大沟通成本,业务创建的分析报告就更有针对性与业务价值。对于分析师而言,节省出来的时间,可以将更多的精力放在一些“高精尖”的项目上,集中精力攻克更难的问题。

商业智能发展至今,已经有丰富的BI分析模型供分析师或业务人员使用。在进行数据分析时通常需要使用各种模型来验证自己的分析观点,一是为了使自己的结论更具备说服力,二是让自己的论证过程更具备逻辑性和条理性。常见的分析方法如RFM模型、关联分析、对比分析、归因分析、KANO模型及AARRR海盗模型等,皆为经典易用的商业分析模型,具有极强的科学性。然而传统的BI分析模型,需要分析师凭借日常积累的经验进行探索性、预测性及验证性的分析总结,且在分析过程需要消耗一定的时间,实时性稍显不足。 image.png

图2:RFM模型简图

3、智能化BI解决方案

3.1 BI系统智能化解决方案

传统的BI系统如图3,实际的使用过程中往往不具有智能,而只有数据分析。需要业务人员通过尝试多种模型或者分析方法然后再进行决策,而这些分析往往需要非常丰富的的分析经验而且通常时效性不够强,在瞬息万变的商业竞争中失去先机。基于以上的应用瓶颈,我们初步对智能化BI的实现进行探索

image.png

图3:传统BI平台交互图

本文尝试引入智能化的BI系统如图4所示,会基于报表的异常进行主动分析,通过构建智能算法能主动分析与决策,并直接反馈给业务人员。 image.png

图4:智能化BI分析平台

首先通过配置标签库,构建相应的业务场景,然后产生相应的报表,如果报表分布出现异常波动变化则会产生预警。针对产生的异常波动预警,BI系统会抽取特征库中的特征构建智能算法,通过智能算法可进行特征贡献度筛选进行归因分析,同时还能生成相应的决策。

3.2 建模算法

1. 决策树

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。在构建决策树的节点过程中,通常使用信息增益与基尼系数来对特征混沌程度进行区分,用以决定那个特征作为父节点,哪个特征作为字节点。

<1>信息增益

设数据集为D,对于数据集D计算其经验熵如公式1

image.png

其中|D|是数据集中所有样本个数,k是目标变量的类别数,|Ck|是该分类下的样本个数。

经验条件熵,即数据集D在特征为A的条件下的熵如公式2

image.png

信息增益即为公式3,信息增益即为特征的混沌程度,信息增益越大说明特征的混沌程度越低,区分度越大

image.png

<2>基尼系数

表示在样本集合中一个随机选中的样本被分错的概率,Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。其公式如公式4 image.png ①pk表示选中的样本属于k类别的概率,则这个样本被分错的概率是(1-pk) ②样本集合中有K个类别,一个随机选中的样本可以属于这k个类别中的任意一个,因而对类别就加和

条件基尼系数,即在数据集D中,特征为A的基尼系数,如公式5

image.png

<3>决策树可视化

如图5为一个模型构建好的决策的可视化

image.png

图5:决策可视化

2.XGBOOST算法

XGBOOST算法是一种BOOSTing改进模型,可以理解为一堆决策树进行相加来预测一项内容,由于其构成是由多棵决策树,因此准确度更高。在构建模型完以后,能筛选出特征的重要程度。 其损失函数可以写为如公式6:

image.png

3.智能算法在BI系统中的作用

在前文的图4中描述了整个智能BI系统的组成,而其中建模的部分即是算法的处理流程如图6,从中可以看出使用XGB算法与决策树算法完成特征贡献度的计算与决策路径的生成 image.png

图6:算法处理流程图

4、智能BI系统探索

1. BI系统的归因分析

下面以具体的营销场景与归因分析为例子,介绍一下智能化BI系统的功能。传统BI系统的归因分析,需要事先引入一些固定好的用户画像因子。而通常用户画像的因子较多,只能从画像库中筛选出一小部分部分进行图表展示,而通常客户画像库中会有上百上千的特征,很多时候往往从画像库中查找导致波动异常的指标比较困难如图7所示。

image.png

图7:归因分析(此图来源于网络)

2. 智能化BI系统工作流程

智能化BI系统除了能提供给业务人员进行相关BI分析,还能够自动基于BI报表的异常分析将相关分析决策主动推荐给业务人员,免除业务人员通过各种复杂的分析模型及经验进行探索分析。其流程如图8所示 image.png

图8:工作流程

<1>首先通过标签系统构建出业务场景,例如通过标签系统构建理财复购预测的业务场景(筛选出过去3个月内,第二次购买理财产品的人员为理财复购1,否则0) <2>然后根据业务场景产生相应的BI报表,如理财流失预警的BI报表,发现最近的一个节点理财复购较多如图9,构建智能算法模型进行自动分析。 image.png

图9:归因分析

<3>从指标特征库导入相关的特征指标构建智能算法,智能算法能能进行特征指标贡献度筛选与生成决策路径。如图10所示,从指标特征库的上百指标中筛选出10个贡献度最高的指标。

image.png

图10:理财复购预测

<4>智能算法还能生成如下决策路径如图11,用于供业务人员进行参考,并配置相关的决策引擎筛选出复购人群。 image.png

图11:决策路径

通过决策引擎配置上述生成的决策规则,筛选出人群如图12,在决策引擎中配置相应的规则

image.png

图12:配置决策引擎筛选人群

5、结束语

本文主要总结了传统BI系统的主要组成及分析模型,然后提出一个基于异常报表监控的主动推荐式的BI引擎,将BI系统由过去被动的让业务人员去使用,变成一个有一定智能能够进行主动决策推荐的智能化BI系统

0
0
0
0
关于作者
相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论