数字化转型以爆炸性的增长率创造价值,是所有市场和行业的热门话题。考虑到制造业的工业物联网(IIOT)的价值为1610亿美元,增长率为25%,到2027年,互联汽车市场的价值将为2250亿美元,增长率为17%,或者在前三个月2020年,零售商在短短三个月内实现了十年的数字销售渗透率。尽管编写的大部分内容都与使能技术平台(云或边缘端或单点解决方案,如数据仓库)或驱动这些收益的用例有关(例如:将预测性分析应用于预防性维护,金融机构的欺诈检测或预测性健康监控),而不是基础数据。这其中缺少的一章不是关于点解决方案或用例的成熟历程。缺少的一章是关于数据的,它总是与数据有关,最重要的是,从边缘端到人工智能洞察所编织而成的数据旅程。
这是一个由六部分组成的博客系列的第一个系列,该系列概述了从边缘到人工智能的数据之旅,以及在此之旅中产生的商业价值。数据旅程不是线性的,但它是一个无限循环的数据生命周期–在边缘启动,通过数据平台进行编织,并产生了应用于实际业务关键问题的业务命令见解,从而导致了新的数据主导的计划。我们将这一过程简化为五个独立的步骤,其中第六个步骤涉及数据安全性和治理。六个步骤是:
- 数据收集 –边缘处的数据摄取和监控(边缘端可能是工业传感器,也可能是实体零售店中的人员)
- 数据丰富 –数据流水线处理、聚合和管理,准备数据以进一步完善
- 报告 –提供业务的企业见解(例如销售分析和预测、市场研究、预算编制)
- 服务– 控制和运行基本的业务操作 (ATM交易,零售结帐或生产监控)
- 预测性分析– 基于AI和机器学习的预测性分析(例如:欺诈检测、预测维护、基于需求的库存优化等)
- 安全与治理– 在整个数据生命周期中的一组集成的安全、管理和治理技术
图1:企业数据生命周期
为了说明数据之旅,我们选择了一个非常相关且具有可持续发展意识的制造主题–电动汽车的制造,其选择是因为制造业务通常本质上是革命性的(高度的数字成熟度部署了最新的数据工具) ,与“成熟程度较低”的“老派进化论”相比,大多数此类汽车都是作为互联移动平台制造的,这不仅使汽车成为运输工具,而且还提供了基于数据的知识和见解的平台。这个故事将展示如何使用Cloudera Data Platform收集、丰富、存储、服务数据,然后将其用于预测汽车制造过程中的事件。
该故事将介绍一个名为 电动汽车公司 (ECC) 的电动汽车 的模拟互联汽车制造公司。ECC在全球设有多家制造工厂,并垂直整合制造自己的汽车以及许多关键组件,包括电动机、电池和辅助部件。每个工厂都负责制造不同的组件,并最终在少数几个地理位置优越的工厂进行组装。
数据收集挑战
在制造过程中管理所有工厂的所有数据的收集是一项艰巨的任务,它带来了一些挑战:
- 难以评估IoT数据的容量和种类: 许多工厂利用来自多家供应商的现代和传统制造资产以及设备,并使用各种协议和数据格式。尽管控制器和设备可以连接到OT系统,但是它们通常不以易于与IT系统共享数据的方式连接。为了实现互连的制造和新兴的IoT用例,ECC需要一种解决方案,该解决方案可以从边缘处理所有类型的各种数据结构和架构,对数据进行规范化,然后与包括大数据应用程序在内的任何类型的数据使用者共享。
- 管理实时数据的复杂性: 为了使ECC能够驱动预测分析用例,数据管理平台需要启用对流数据的实时分析。该平台还需要实时或近实时有效地摄取、存储和处理流数据,以便立即提供见解和行动。
- 将数据从独立的孤岛中解放出来: 制造价值链中的特殊过程(创新平台、QMS、MES等)奖励针对独特孤岛解决方案量身定制的不同数据源和数据管理平台。这些利基解决方案限制了企业价值,只考虑了跨企业数据可以提供的洞察力的一小部分,同时划分了业务并限制了合作机会。正确的平台必须具有从价值链的各个方面摄取、存储、管理、分析和处理流数据的能力,并将其与数据历史学家、ERP、MES和QMS来源相结合,并利用它来形成可行的见解。这些见解将提供驱动高价值制造业用例的仪表板,报告和预测分析。
- 平衡边缘: 了解边缘和云中的数据处理之间的正确平衡是一个挑战,这就是为什么需要考虑整个数据生命周期的原因。行业中的趋势令人担忧,因为公司选择专注于一个或另一个而又没有意识到自己可以并且应该同时做这两个事情。云计算可用于长期分析和大规模部署,但它受到带宽的限制,并且通常收集大量数据却仅使用其中的一小部分数据。边缘的价值在于在将最有价值的数据发送到云以进行进一步的高性能处理之前,以零延迟对影响最大的边缘起作用。
使用Cloudera数据平台收集数据
步骤1:收集原始数据
ECC制造业务中的数据包括多种来源-工业机器人、白车身磷酸盐涂层处理罐(温度、浓度或补给),供应链远程信息处理或主要零件信息等。在此特定示例中,原始零件ECC的五个工厂中每个工厂的主数据已收集,准备送入Apache NiFi(见图2)。
步骤2:为每个工厂配置数据源
将使用Cloudera的Data Flow体验(由Apache NiFi提供支持)来说明该数据收集、以检索该原始数据并将其拆分为单独的工厂流(由Apache Kafka管理)、以更准确地类似于真实场景(请参见图2)。为了简化示例,为工厂生成的每个零件选择了以下数据属性标签:
- 工厂编号
- 机器编号
- 制造时间戳
- 零件号
- 序列号
图2:数据收集流程图。
步骤3:监控每个工厂的数据吞吐量
现在,所有数据都流入单独的Kafka流中,数据架构师正在监视每个工厂的数据吞吐量,并调整所需的计算和存储资源,以确保每个工厂都具有将数据发送到平台所需的吞吐量。
步骤4:从Apache Kafka流捕获数据
Kafka捕获所有工厂数据流并将其收集到处理器中,这些处理器将进行过滤和丰富,以用于控制和运行由运营数据库提供支持的基本业务运营,或者通过企业数据仓库或用于高级分析的业务企业见解。
ECC最近开始生产仅在Factory 5中生产的电动机的升级版,该数据将用作数据生命周期中后续步骤的说明
步骤5:将数据推送到存储解决方案
由于ECC制造和质量工程师希望密切监视此电动机的部署和现场使用,因此特定的制造可追溯性数据被过滤到单独的路径中,并保存在Apache Hive中自己的表中。这将允许工程师稍后在Cloudera Data Warehouse中针对数据进行临时查询,并将其与企业数据仓库中的其他相关数据结合起来,例如维修订单或客户反馈,以产生诸如保修,预测性等高级用例维护程序或产品开发输入。
或者,如果需要控制和运行基本业务操作 ,则将带有已处理时间戳的整个数据集发送到Apache HBase支持的Cloudera Operational Database中。此数据将用作ECC运行其库存平台的基础,这将需要使用恒定的读/写操作,因为每天可以添加和删除库存数千次。由于HBase旨在大规模处理此类数据事务,因此它是应对这一独特挑战的最佳解决方案。
结论
这个简单的插图显示了正确摄取数据的重要性,因为这是从运营数据库、企业数据仓库或高级分析机器学习预测分析中获得洞察力的基础。“正确处理”的价值包括使用来自任何企业源的数据,从而打破数据孤岛,使用所有数据(无论是流数据还是面向批量的数据),以及将数据发送到正确位置以产生所需的下游洞察力的能力。
使用CDP,ECC数据工程师和其他业务用户可以开始将收集的数据用于各种任务,从库存管理到零件预测到机器学习。由于Cloudera Data Flow促进了从任何企业源获取实时数据,因此可以扩展和维护它,而无需广泛了解各种编程语言和专有数据收集方法。如果遇到独特的问题,工程师还可以创建自己的过程以进行真正的细粒度控制。
寻找下一个将深入研究数据丰富及其如何支持数据生命周期故事的博客。此外,该故事还将通过数据驱动的演示加以扩展,以演示数据生命周期每个步骤中的数据旅程。
更多数据收集资源
要查看所有这些操作,请单击下面的相关链接以了解更多数据收集:
- 视频 –如果您想查看和了解其构建方式,请参阅链接中的视频。
- 教程–如果您希望按照自己的节奏进行操作,请查看详细的演练,其中包括屏幕截图和逐行说明,以了解如何进行设置和执行。
- 聚会-如果你想与专家Cloudera的直接对话,请加入虚拟聚会看现场直播演示。最后会有时间进行直接问答。
- 用户–要查看特定于用户的更多技术内容,请单击链接。
原文作者:Tui Leauanae& David LeGrand和Nicolas Pelaez
原文链接:https://blog.cloudera.com/digital-transformation-is-a-data-journey-from-edge-to-insight/