工业大数据分析与应用——知识总结 | 社区征文 - 文章 - 开发者社区

工业大数据分析及应用

1 工业大数据概述

1.1 大数据的产生
1.2 大数据的概念和特点
1.3 大数据的影响
1.4 大数据的引用
1.5大数据的关键技术
1.6 工业大数据的概念与特征
1.7 工业大数据与流程工业智能制造

1.1 工业大数据的产生

大数据的产生原因

新的数据来源/新的数据采集方法
全时空数据的可采集性
智能算法的使能
非结构的数据形态
数据获取成本、存储成本和处理成本的下降

1.1.1 第三次信息化浪潮

1.1.2 信息科技为大数据时代提供技术支撑

存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加

1.1.3 数据产生方式的变革促成大数据时代的来临

大数据产业链的4个环节
- 大数据生产与集聚
  - 如交易数据、交互数据、传感数据。
- 大数据组织与管理
  - 如开展分布式文件系统、分布式计算系统、数据库、数据仓储、MOLAP、HOLAP、数据转换工具、数据安全等。
- 大数据分析与发现
  - 如数据挖掘、数据统计、基于大数据的业务分析与预测、基于大数据的决策、商业智能、人工智能、数据可视化等。
- 大数据应用服务
  - 如数据运营、大数据交易、分析与预测服务、决策支持服务、数据分享平台、数据分析平台等。
大数据IT基础设施：存储设备、运算设备、一体机、操作系统、基础软件、IT支撑等。

1.1.4 大数据的发展历程

1.2 大数据的概念与特点

概念：大数据(Big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
多重属性
- 大量化
- 快速化
- 多样化
- 价值化
特点
- 速度（velocity）：实时分析，流信息，即时需求
  - 从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少
  - 1秒定律：这一点也是和传统的数据挖掘技术有着本质的不同
- 大量（volume）：海量数据，超规模、数字化生活、数据商务
  - 大数据的数据量大，指的就是海量数据。
  - 由于大数据往往采取全样分析，因此大数据的"大”首先体现在其规模和容量远远超出传统数据的测量尺度，一般的软件工具难以捕捉、存储、管理和分析的数据，通过大数据的云存储技术都能保存下来，形成浩翰的数据海洋，目前的数据规模已经从TB级升级至PB级。
  - 大数据之"大”还表现在其采集范围和内容的丰富多变，能存入数据库的不仅包含各种具有规律性的数据符号，还囊括了各种如图片、视频、声音等非规则的数据。
- 价值（value）：低价值密度，大量的不相关信息，需要深度分析
  - 价值密度低，商业价值高
- 多样（variety）：多源异构性，不同形式（文本、图形、视频数据）、无模式或者模式不明显、不连贯语法和句义
  - 大数据是由结构化和非结构化数据组成的
    - 10%的结构化数据，存储在数据库中
    - 90%的非结构化数据，它们与人类信息密切相关
  - 结构化数据，简单来说就是数据库。
  - 非结构化数据，数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二位逻辑表来表现的数据。

1.3 大数据的影响

思维方式上，完全颠覆了传统的思维方式：全样而非抽样、效率而非精确、相关而非因果
社会发展上，大数据决策逐渐成为一种新的决策方式，大数据应用有力促进了信息技术与各行业深度融合，大数据开发大大推动了新技术和新应用的不断涌现
就业市场上，大数据的兴起使得数据科学家成为热门职业
人才培养上，很大程度上改变中国高校信息技术相关专业的现有教学和科研体制

1.4 典型大数据的应用

略

1.5 大数据关键技术

数据采集：将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础；或者也可以把实时采集的数据作为流计算系统的输入，进行实时处理分析。
数据存储和管理：利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等，实现对结构化、半结构化和非结构化海量数据的存储和管理。
数据处理与分析：利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析；对分析结果进行可视化呈现，帮助人们更好地理解数据、分析数据。
数据隐私和安全：在从大数据中挖掘潜在的巨大商业价值和学术价值的同时，构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全。

两大核心技术：分布式存储、分布式处理

1.6 工业大数据的概念与特征

概念：工业大数据就是在工业领域信息化相关应用中所产生的海量数据，“相关应用”包括企业内和产业链以及客户、用户和互联网上的数据

工业4.0四化特征：数字化、网络化、自动化、智能化

为什么今天提出“工业大数据”?

数字化装备和产品的普及；
装备和产品网络化连接的普及（互联网+）；
企业向服务型制造转型；
"从摇篮到摇篮”制造的必然要求。

工业大数据从哪里来？

工业大数据来源于产品生命周期的各个环节，包括市场、设计、制造、服务、再利用各个环节，每个环节都会有大数据，**“全”**生命周期汇合起来的数据更大，且企业外、产业链外的“跨界”数据也是工业大数据“不可忽视”的重要来源。

工业大数据的特点

多源性获取，数据分散，非结构化数据比例大
数据蕴含信息复杂，关联性强
持续采集，具有鲜明的动态时空特性
采集、存贮、处理实时性要求高
与具体工业领域密切相关

1.7 工业大数据与流程工业智能制造

与一般意义上的智能制造相比，流程工业智能制造必须解决以下几方面的技术创新，而工业大数据在其中扮演着重要、核心角色。

生产全流程一体化控制
1. 生产全流程一体化过程控制系统的模型体系、结构与建模： 2)大数据、机理分析和知识驱动的工业过程整体优化控制： 3)生产制造全流程运行优化控制； 4)综合自动化系统的体系结构、设计方法和实现技术。
企业生产与运行管理中的建模与优化决策 1)大数据与模型相融合的多目标智能优化； 2)企业运行管理中的建模与优化决策； 3)流程工业一体化计划调度； 4)制造执行系统的体系结构、设计方法与实现技术； 5)流程工业生产计划调度和物流与供应链计划调度中的建模与优化理论与技术。
具有综合复杂性的工业过程混合智能建模与控制 1)复杂工业过程混合智能建模； 2)多变量智能解耦控制； 3)大数据驱动的具有综合复杂性的工业过程智能控制； 4)复杂工业过程的分析与优化控制； 5)重大耗能设备智能优化控制系统。
难测工艺参数与生产指标的软测量与检测技术及装置 1)黑体空腔辐射测温理论与钢水、板坯测温； 2)高精度固液相混合流量检测； 3)管道破损内检测与实时泄露检测定位； 4)难测工艺参数与性能指标的软测量； 5)与生产过程质量、效率、能耗、物耗相关的生产指标在线检测。
生产过程的运行工况故障预测、诊断与自愈控制 1)复杂工业过程监控； 2)模型与大数据驱动的复杂工业过程运行工况的故障预报、诊断与自愈控制； 3)生产过程全流程控制欲管理决策中的故障诊断、预报与安全运行控制； 4)工业过程故障诊断与安全运行系统的体系结构、设计方法与实现技术。

第2章云计算与工业大数据

2.1 概述

2.1.1 云计算的定义

云计算是一种动态扩展的计算模式，通过网络将虚拟化的资源作为服务提供，通常包含基础设施即服务（Infrastructure as a Service, IaaS）、平台即服务（Platform as a Service, PaaS）、软件及服务（Software as a Service, SaaS）。

（简而言之）云计算是一种通过互联网以服务的方式提供动态可伸缩的虚拟化资源的计算模式，其资源是分布式的，通过虚拟化技术动态易扩展

IaaS:消费者通过 Internet ，可以从完善的计算机基础设施获得服务
- 按照自己需求向云计算服务商租用
- 根据自己的业务需要增大或减少租用设备的性能和数量，灵活方便，节省费用
PaaS：将软件研发的平台作为一种服务，以SaaS的模式提交给用户
- 属于SaaS模式的一种应用，其加快了SaaS应用的开发速度
- 用户利用云计算服务商提供的平台开发或运行软件，供自己使用或为他人提供商业服务
SaaS：通过Internet 提供软件的模式，用户无需购买软件，而是向提供商租用基于Web的软件，来管理企业经营活动

SaaS：软件及服务，侧重于服务，通过网络提供软件程序服务

PaaS：平台即服务，侧重于服务，以服务器平台或者开发环境提供服务

IaaS：基础设施即服务，注重计算资源的共享，消费者通过Internet可以从完善的计算机基础设施获得服务

SaaS、PaaS、IaaS三者之间的关系

从用户体验角度分析：从用户体验角度而言，它们之间关系是独立的，因为它们面对的是不同类型的用户。SaaS主要面对的是普通用户，PaaS主要的用户是开发人员。
从技术角度分析：云计算的服务层次是根据服务类型来划分的，从技术角度而言，它们有一定的继承关系，即SaaS基于PaaS,PaaS基于IaaS,但并不是简单的继承关系。

2.1.2 云计算的概念模型

云计算的实质是网络下的应用，是业务实现的概念模型，包含多层含义：

用户的公共性（包括应用软件、中间件平台）
设备的多样性

注：中间件是一种独立的系统软件或服务程序，分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机/服务器的操作系统之上，管理计算机资源和网络通讯，它是连接两个独立应用程序或独立系统的软件。

商业模式的服务性
提供方式的灵活性

2.1.3 云计算的特点

具有大规模并行计算能力
资源虚拟化（Virtualization）和弹性调度
数据量巨大并且增速迅猛
高可靠性：应用数据多副本容错，计算节点同构可互换等保证措施
通用性

2.1.4 典型的云计算基础架构

以Google的云计算架构为例：三个相互独立又紧密结合在一起的系统：GFS分布式文件系统、针对Google应用程序的特点提出的MapReduce变成模式、大规模分布式数据库BigTable

Google技术解决方案：

数据处理：MapReduce并行编程模式
大文件存储：GFS
大规模数据库管理系统：BigTable
云计算服务：Goggle App Engine

Hadoop（分布式计算）是对以上前三者核心技术的开源实现。

2.2 云计算的关键技术

2.2.1 虚拟化技术

虚拟化技术概念

（百度百科）虚拟化，是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机，每个逻辑计算机可运行不同的操作系统，并且应用程序都可以在相互独立的空间内运行而互不影响，从而显著提高计算机的工作效率。

虚拟化的目的

对基础设施进行简化，可以简化对资源以及对资源管理的访问
- 用户可以通过受虚拟资源支持的标准接口对资源进行访问，使用标准接口可以在基础设施发生变化时对消费者的破坏降到最低
虚拟化降低了应用系统与资源之间的耦合程度

虚拟化技术的分类

模拟计算机硬件平台
模拟计算机存储资源
- 存储虚拟化是将所有的物理存储设备整合到一起结成一个大的存储池，而提供给计算机系统，是一个逻辑层面的接口。
- 不需要关心数据真正存放位置，只需要通过逻辑接口进行读写操作
网络虚拟化（指虚拟专用网络VPN）
- 整合所有的网络资源为一个可控的虚拟网络，并统一提供服务
- NVF(Network Function Virtualization)网络功能虚拟化
  - 关注网络转发功能的虚拟化和通用化
  - 始于运营商，最初主要是大型运营商在用
  - NFV处理的是OSI模型中的4-7层
  - 优化网络的功能，比如负载均衡，防火墙，WAN网优化控制器等
- SND(Software Defined Network)软件定义网络
- 关注于网络控制面和转发面的分离，这是核心
- 起源于园区网，成熟于数据中心
- SDN处理的是OSl模型中的2-3层
- 优化网络基础设施架构，比如以太网交换机，路由器和无线网络等
存储虚拟化
- 整合所有存储资源为一个存储池，对外提供逻辑存储接口，用户可以通过逻辑接口进行数据的读写。无论多少设备，对外看到的只有一个。
- 两种方式：
  - 块虚拟化（Block Virtualization）
    - 通过SAN将远程的硬盘块挂载到本地，如iSCSI。.然后再通过LVM的方式将这些硬盘块组合到一起成为一个新的硬盘。支持块虚拟化技术有Fibre Channel,,iSCSI,SAS,FICON等
  - 文件虚拟化（File Virtualization）
    - 通过SAN将远程的文件系统路径挂载到本地。如NFS与SMB。在本地看到的则是指定路径下的文件，而并非一个硬盘块。
- 三种方法
  - 基于主机的虚拟存储
  - 基于存储设备的虚拟化
  - 基于网络的虚拟存储（包括基于互联设备的虚拟化、基于路由器的虚拟化）
服务器虚拟化
- 也称平台虚拟化，通过VMM(Virtual Machine Monitor,虚拟机监视程序)提供虚拟的计算机硬件环境，将此虚拟环境称之为VM(Virtual Machine,虚拟机)。安装在这个环境之上的系统称为Guest OS(客户系统)，运行VMM的操作系统称Host OS（本地操作系统)
- 虚拟化前后差别
  - 虚拟化前：软件必须与硬件结合；每台机器上只有单一的操作系统镜像，每个操作系统只有一个应用程序负载
  - 虚拟化后：每台机器上有多个负载；软件相对于硬件独立
- 服务器虚拟化优点
  - 提高硬件使用率：虚拟化使得低利用率的服务器负载整合到一台服务器
  - 快速统一部署服务器
  - 降低服务器投资成本：典型的平均整合比率在8:1-15:1
  - 降低能耗

虚拟化技术优势（下面还有一个PPT中整理的优势与劣势）

确保系统高可用
- 发生服务器故障时在其他的物理服务器上自动重启虚拟机
- 客户优势
  - 对所有的应用实现了高可用性，并且成本很低
  - 不需要完全一致的重复硬件
  - 比传统的集群有更高的成本优势，同时易于使用和操作
资源优化：动态、智能地分配硬件资源来满足业务部门的不同需求
- 跨资源池动态平衡计算资源
- 基于预先设定的规则智能分配资源
- 对客户的优势
  - 基于业务优先级分配资源
  - 简化运行，大幅度提高系统管理员的生产率
  - 动态添加硬件资源而避免在繁忙时段服务器的过载
  - 动态硬件维护能力
启用“即插即用”数据中心
- 原理
  - 插入：接通新服务器电源。新服务器即加入群集。
  - 使用：群集中所有的虚拟机会自动重新平衡，以纳入新的可用资源。
- 优势
  - 负载分配规则设定一次，永远有效，自动执行
  - 按需分配容量
  - 易于扩展
  - 避免业务繁忙时段的过载
分布式电源管理
- 原理
  - 集群需要的资源越少，就将工作负载整合到越少的服务器上
  - 将不需要的服务器置于待机模式
  - 工作负载需要增加时，再恢复服务器在线状态
- 优势
  - 保证服务级别的同时减少电力消耗
  - 虚拟机不中断、不停机
保护数据：集中的、文件级的备份实现了简单、可靠的数据保护
- 集中的、无代理的虚拟机备份
- 将备份移出虚拟机
- 减少备份代理和数量
- 消除生产虚拟机的备份负载
- 充分利用虚拟机快照功能
- 支持和主流的第三方备份产品预集成
- 客户优势
  - 在白天就可以执行备份任务
实现物理到虚拟迁移
- 在线无缝的将物理系统转化为虚拟机

虚拟化技术的优势与劣势

优势
- 减少物理资源的投入，节约成本
- 虚拟数据资源移植方便
- 提高物理资源的使用率
- 更加环保，节省能源
- 易于自动化维护与操作，减少维护成本
- 数据安全更有保障
劣势
- 业界没有统一的虚拟化技术标准与平台，没有开放的协议。
- 如果没有对数据进行备份，应用虚拟化技术会存在一定的风险
- 虚拟数据中心的迁移，特别是对在线服务的迁移，对用户影响巨大。

2.2.2 并行计算与集群技术

并行计算是相对于串行计算而言的：

并行计算的定义、基本思想、内容

并行计算是指同时使用多种计算资源解决计算问题的过程，旨在提高计算机系统计算速度和处理能力的一种有效手段。
它是由运行在多个部件上的小任务合作来求解一个规模很大的计算问题的一种方法。
基本思想是用多个处理器来协同求解同一问题，即将被求解的问题拆分成若干个部分，各部分均由一个独立的处理机来并行计算。
并行计算实际上是由多个计算单元组成，运算速度快、存储容量大、可靠性高的计算机系统。
并行计算的内容包括了并行计算机体系结构、编译系统、并行算法、并行编程、并行软件技术、并行性能优化与评价、并行应用等。
并行计算可以定义为连接并行计算机系统和实际应用问题之间的桥梁。

并行计算的层次（并行粒度由粗到细）

程序级并行
子程序级并行
语句级并行
操作级并行
微操作级并行

各类存储结构

共享存储结构
- 各CPU共享主存
- 单一地址空间
- 规模可扩展性差，节点数一般小于64
分布存储结构
- 不同CPU具有各自的主存
- 分离的地址空间
- 规模可扩展性较好
层次结构
- 每个节点内共享主存，节点间不共享主存
- 规模可扩展性较好

并行计算与分布式计算的区别与联系

二者都属于高性能计算范畴
并行计算是相对于串行计算来说的
- 主要目的是加速求解问题速度和提高求解问题规模
- 强调时效性和海量数据处理，各任务之前的独立性较弱，而且关系密切，每个结点之间的任务时间要同步
分布式计算是相对于集中式计算来说的
- 任务包之间有独立性
- 对实时性要求不高，允许存在计算错误
- 有大量无用的数据块，速度尽管很快，但真正的效率很低

并行算法定义

用多个CPU联合求解问题的方法和步骤
由一些独立的、可以并行运行的计算模块（进程）构成，模块之间能相互作用和协调，已完成对一个给定问题的求解

并行算法设计的目标

开发问题求解过程中的并行性
寻求并行算法与并行结构的最佳匹配
合理地组织并行任务，减少额外开销

并行算法的设计原则

根据问题求解过程，将任务分成若干子任务
根据处理数据的方式，形成多个相对独立的数据区，由不同的处理器分别处理
将一个循环分成多个循环并行执行

并行算法的分类

单指令多数据流(SIMD)算法和多指令流多数据流(MIMD)算法
- SIMD是采用一个控制器来控制多个处理器，同时对一组数据（数据向量）中的每一个分别执行相同的操作，从而实现空间上的并行性的技术
- MIMD是使用多个控制器来异步的控制多个处理器，能实现作业、任务、指令、数组各级全面并行的多机系统
同步算法和异步算法
- 同步算法（synchronized algorithm）：算法的各个进程的执行必须相互等待的一类并行算法。SIMD算法属于其特例
- 异步算法（asynchronous algorithm）：算法的各个进程的执行不必相互等待的一类并行算法
数值计算算法和非数值计算算法
共享存储算法和分布存储算法
分布并行算法（distributed algorithm）：将同一任务分解为若干个子任务，使之分布在由通信链路连接的多个节点上协同完成运算的算法
- 分布式算法的执行时间，在很大程度上受通信开销的影响
确定算法（deterministic algorithm）：每个运算步骤上均确定唯一的操作的算法。【例：线性方程组求解算法】
不确定算法（non-deterministic algorithm）：在问题求解的搜索过程中，提出多种可供选择的操作，它们中的任一种都有希望获得问题的解答，但都不能肯定解出，有时甚至不能确定这些操作中哪一种求解的可能性更大些。对此，只能选择其中任意一种搜索下去。
随机算法（randomized algorithm, probabilistic algorithm）：计算步骤具有随机性的算法。在算法的某一步或某些步上，可以在指定范围内随机的选择下一个演算步的走向

为了能对计算机系统进行简单、明确的描述，发现一般规律，通常在不同层次上进行抽象来定义模型，不同层次模型的关系图如下：

并行计算模型的主要作用

并行算法实现的基础
- 对同一问题在不同的模型上的不同解决办法，来比较该问题究竟更合理在哪一种模型上实现
给并行算法设计和分析提供了一个简单、方便的框架
- 撇开了硬件的繁杂的细节
使并行算法设计具有一定的生命力
- 集中精力开发应用问题自身的并行性和算法的性能，并使算法具有一定的通用性

注：由于并行计算机正在处于飞速发展中，但尚未定型，因此到现在为止，还没有一个通用的并行计算模型。人们只能将某一类并行机的基本特征抽象出来，形成各种特定的并行计算模型，以便并行算法的设计与理论分析。

并行算法实现技术方面的挑战

复杂性挑战
- 结构的复杂性，大规模、多层次
- 管理的复杂性，资源的配置、优化、管理等
工艺方面的挑战
- 高频增加工艺难度
- 高密度组装
可靠性问题
功耗问题

并行软件开发方面的挑战

并行软件设计与人们已习惯的思维方法不符合串行程序设计只有一种基本模型，而并行程序设计存在多种不同的模型
并行软件开发工具（如并行调试器，编译器等)少
并行软件开发远落后于并行硬件，很多应用缺少相应的并行软件

并行计算目前热点研究方向

大趋势：从“高性能”走向“高效能”
提高并行计算机系统性能、可编程性、可移植性和稳定性并努力降低系统开发、运行及维护成本。
并行算法优化
并行程序性能优化
硬件/软件功耗优化
硬件可重构及容错
光计算
量子计算

集群的基本概念

集群系统是一组独立的计算机（节点）集合体，节点间通过高性能的互联网络连接，各节点除了作为一个单一的计算资源供交互式用户使用外，还可以协同工作，并表示为一个单一的、集中的计算资源，供并行计算任务使用。集群系统是一种造价低廉、易于构建并且具有较好可扩放性的体系结构。

集群系统的重要特征

集群系统的各节点都是一个完整的系统，节点可以是工作站，也可以是PC或SMP器。
互联网络常使用商品化网络，如以太网、FDDI、光纤通道和ATM开关等，部分商用集群系统也采用专用网络互联。
网络接口与节点的I/O总线耦合相连。
各节点有一个本地磁盘。
各节点有自己的完整的操作系统。

集群系统的分类

高可用性集群系统
- 高可用性集群系统通常通过备份节点的使用实现整个集群系统的高可用性，活动节点失效后备份节点自动接替失效节点工作。
负载均衡集群系统
- 负载均衡集群系统中所有节点都参与工作，系统通过管理节点(利用轮询算法、最小负载优先算法等调度算法)或利用类似一致性哈希等负载均衡算法实现整个集群系统内负载的均衡分配。
高性能集群系统
- 高性能集群系统主要是追求整个集群系统计算能力的强大，其目的是完成复杂的计算任务，在科学计算中常用的集群系统就是高性能集群系统，目前物理、生物、化学等领域有大量的高性能集群系统提供服务。
虚拟化集群系统
- 在虚拟化技术得到广泛使用后，人们为了实现服务器资源的充分利用和切分，将一台服务器利用虚拟化技术分割为多台独立的虚拟机使用，并通过管理软件实现虚拟资源的分配和管理。

2.2.3 云存储技术

存储分类（下文有云存储技术分类、存储类型）

封闭式系统的存储
开放式系统的存储
- 内置存储
- 外挂存储
  - 直连式存储（Direct-Attached Storage, DAS）
  - 网络存储（Fabric-Attached Storage, FAS）
    - 网络接入存储（Network-Attached Storage, NAS）
    - 存储区域网络（Storage Area Network, SAN）
  - DAS/SAN/NAS组网示意图

DAS、NAS、SAN三种形态介绍与比较（最下面有比较表格）

DAS 直连式存储：存储设备是通过电缆（通常是SCSI接口电缆）直连到服务器，I/O请求直接发送到存储设备
- DAS优势
  - 连接简单
    - 集成在服务器内部、点到点连接、距离短
    - 安装技术要求不高
  - 低成本需求
    - SCSI总线成本低
  - 较好的性能
  - 通用的解决方案
    - DAS投资低，绝大多数应用可以接受
- DAS劣势
  - 有限的扩展性
    - SCSI总线的距离最大2.5米，最多15个设备
  - 专属的连接
    - 空间资源无法与其他服务器共享
  - 备份和数据保护
    - 备份到与服务器直连的磁带设备上
    - 硬件失败将导致更高的恢复成本
  - TCO（总拥有成本高）
    - 存储容量的加大导致管理成本上升
    - 存储使用效率低
NAS 网络连接/附加/接入存储：存储设备连接到现有的网络上，提供数据和文件服务，应用服务器直接把File I/O请求通过LAN传给远端NAS中的文件系统，NAS中的文件系统发起Block I/O到与NAS直连的磁盘。主要面向高效的文件共享任务，适用于那些需要网络进行大容量文件数据传输的场合。
- NAS优势
  - 资源共享
  - 构架于IP网络之上
  - 部署简单
  - 较好的扩展性
  - 异构环境下的文件共享
  - 易于管理
  - 备份方案简单
  - 低的TCO
- NAS劣势
  - 扩展性有限
  - 带宽瓶颈，一些应用会占用带宽资源
  - 不适应某些数据库的应用
SAN 存储区域网络：一个用在服务器和存储资源之间的、专用的、高性能的网络体系。它为实现大量原始数据的传输而进行专门的优化。
- SAN优势
  - 实现存储介质的共享
  - 非常好的扩展性
  - 易于数据备份和恢复
    - 实现备份磁带共享
    - LAN Free和Server Free
  - 高性能
  - 支持服务器群集技术
  - 容灾手段
  - 低的TCO
- SAN劣势
  - 成本较高
    - 需要专用的连接设备如FC交换机以及HBA
  - SAN孤岛
  - 技术较为复杂
    - 需要专业的技术人员维护

	DAS	NAS	FC-SAN	IP-SAN
传输类型	SCSI、FC	IP	FC	IP
数据类型	块级	文件级	块级	块级
典型应用	任何	文件服务器	数据库应用	视频监控
优点	易于理解，兼容性好	易于安装，成本低	高扩展性，高性能，高可用性	高扩展性，成本低
缺点	难以管理，扩展性有限；存储空间利用率不高	性能较低；对某些应用不适合	比较昂贵；配置复杂；互操作性问题	性能较低

云存储技术分类

分布式存储
- 分布式块存储；分布式文件存储；分布式对象存储；分布式表存储
虚拟化存储
- 基于主机的存储虚拟化；基于网络的存储虚拟化；基于存储设备的存储虚拟化

存储类型

块存储技术
- 块存储将存储区域划分成固定大小的小块，是传统裸存储设备的存储空间对外暴露方式。块存储系统将大量磁盘设备通过SCSl/SAS或FC SAN与存储服务器连接，服务器直接通过SCS/SAS或FC协议控制和访问数据。块存储方式不存在数据打包/解包过程，可提供更高的性能。
- 块存储技术主要包括DAS和SAN两种存储方式
  - （左）直接附加存储DAS以主机为中心，将外部的数据存储设备通过SISC/IDE/ATA等I/O总线直接连接到服务器上，使数据存储设备是服务器结构的一部分
  - （右）SAN采用块数据组织，通过可伸缩的高速专用存储网络互联不同类型的存储设备和服务器，提供内部任意节点间多路可选择的数据交换
分布式文件存储
- 文件存储以标准文件系统接口形式向应用系统提供海量非结构化数据存储空间。分布式文件系统把分布在局域网内各个计算机上的共享文件夹集合成一个虚拟共享文件夹，将整个分布式文件资源以统一的视图呈现给用户。它对用户和应用程序屏蔽各个节点计算机底层文件系统的差异，提供用户方便的管理资源的手段或统一的访问接口。分布式文件系统的出现很好的满足互联网信息不断增长的需求，并为上层构建实时性更高、更易使用的结构化存储系统提供有效的数据管理的支持。在催生了许多分布式数据库产品的同时，也促使分布式存储技术不断的发展和成熟。
- 技术特点
  - 提供NFS/CIFS/POSIX等文件访问接口
  - 协议开销较高、响应延迟较块存储长
  - 应用系统跟存储系统的耦合程度中等
  - 存储能力和性能水平扩展
- 适用场景
  - 适合TB~PB级文件存储，可支持文件频繁修改和删除。例如图片、文件、视频、邮件附件、MMS的存储
  - 海量数据存储及系统负载的转移
  - 文件在线备份
  - 文件共享

存储技术趋势——数据优化技术将成为热点

存储虚拟化
固态硬盘
重复数据删除
语义化检索
存储智能化
存储优化
- 精简配置
- 自动精简配置可以按照应用需要自动可以扩展逻辑卷大小
- 客户可以根据业务发展，动态采购物理设备，优化存储投入
- 分层存储
  - 自动分层存储可以根据数据活动状况将数据转移到不同的存储介质
  - 热点数据存储在高速的SSD设备中，提高存储效率和存储投入
- 数据重删
  - 重复数据删除技术着眼于删除重复出现的数据块
  - 重复数据删除更适合于备份应用或者NAS应用的场景
- 数据压缩
  - 数据压缩技术通过对数据重新编码来降低其冗余度
  - 数据压缩更适用于一些结构化的数据应用

2.3 云计算与工业大数据

云计算与工业大数据的关系

本质上，云计算与工业大数据的关系是动与静的关系：云计算强调的是计算，这是动的概念，而工业大数据则是计算的对象，是静的概念。如果结合实际的应用，前者强调的是计算能力，后者看中的是存储能力。
从技术上来看大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特点在于对海量数据进行分布式数据挖掘，但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术等。
从应用角度上讲，云计算给工业大数据提供信息化的基础设施，更有效利用资源；从产业发展的角度上讲，运用云平台，每天可以处理大批量的工业数据，并对这些数据进行科学，快速，智能检索。
整合是云计算的主要功能，无论你采取何种数据分析模型，还是运算方式，它都是通过将海量的服务器资源通过网络进行整合，以整理出有效的数据信息，并将其分配给各个目标客户，从而解决用户因存储资源不足所带来的问题。

2.4 工业云与智能制造

云制造和云计算的关系

云制造是云计算提供的IaaS（基础设施即服务）、PaaS（平台即服务）、SaaS（软件即服务）在制造领域的落地和拓展，丰富、拓展了云计算的资源共享内容、服务模式和支撑技术。

在资源共享内容方面的拓展

云计算共享的资源类型主要为IT计算资源（如存储、计算器、软件、数据等)，云制造共享的资源类型除T计算资源外，还包括：
- 软制造资源：制造过程中的各种模型、（大）数据、软件、信息、知识等；
- 硬制造资源：（大）制造硬设备如机床/机器人/加工中心/计算设备/仿真试验设备等；
- 制造能力：制造过程中有关的论证、设计、生产、仿真、实验、管理、(产品)运营、（产品)维修、集成等专业能力（包括人力/知识、组织、业绩、信誉、资源、流程和产品等)。

在服务内容与模式方面的拓展

在服务内容方面，云计算提供了基础设施即服务(laaS)、平台即服务(PaaS)、软件即服务(SaaS)。云制造对此进行了拓展，使之与制造全生命周期各环节服务相互交叉。在设计、生产加工、实验、仿真、经营管理等各个服务环节中。
在服务模式方面，云计算主要提供了用户按需提交作业与操作计算资源的计算服务模式。而云制造提供了“以用户（制造企业用户，产品用户）为中心”的
- 按需动态架构：按照用户需求，随时随地提供制造服务；
- 互操作：支持制造资源间与制造能力之间的互操作；
- 协同：面向制造多用户协同、大规模复杂制造任务执行的协同；
- 网络化异构柔性横向、纵向集成与全局优化：支持网上分布异构的制造资源/能力的横向、纵向柔性集成与全局优化；
- 超强、快速、灵活的创新能力：可快速、灵活组成各类服务（无限）以响应需求；
- 全生命周期制造：服务于制造全生命周期，融合智能科学技术等实现跨阶段的全程制造。

在支撑技术方面的拓展

云计算技术为云制造系统提供信息、资源与能力的存取/共享协同及智能计算使能技术；
物联网/信息物理系统技术为云制造信息系统提供“人一机一物一环境”融合一体使能技术；
服务计算技术为云制造系统提供制造资源/能力的服务化使能技术，
建模仿真技术为云制造系统提供高效智能研制与运行使能技术；
自动控制技术为云制造系统提供自动监控、运行、评估、服务使能技术；
高效能计算技术为云制造系统提供求解复杂制造问题和开展大规模协同制造使能技术：
大数据技术为云制造系统提供全生命周期活动的精准化、高效化、智能化使能技术；，
电子商务技术为云制造系统提供全生命周期中的商务活动使能技术；
安全技术为云制造系统提供系统安全使能技术；
网络通信技术为云制造系统提供随时随地按需获取信息传输使能技术；
智能科学技术为云制造系统提供人/机/物/信息的智能识别、融合、运算、监控和处理使能技术；
新信息化（大）制造技术为云制造系统提供云制造的重要基础技术。

制造云、工业4.0个工业互联网的区别和联系

第3章工业大数据架构

3.1 概述

大数据架构概念

大数据架构是用于摄取和处理大量数据（通常称为“大数据”)的总体系统，因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。

使用大数据架构的优势

降低成本。在存储大量数据时，Hadoop和云计算分析等大数据技术可以显著地降低成本
做出更快、更好地决策。使用大数据架构的流组件，企业可以实时做出决策
预测未来需求并创建新产品。大数据可以帮助企业衡量客户需求并使用分析预测未来趋势

大数据架构分类

目前围绕Hadoop体系地大数据架构主要有传统大数据架构、流式架构、Lambda架构、Kappa架构以及Unifield架构等。

传统大数据架构：其定位是为了解决传统BI(商业智能)的问题，简单来说，数据分析的业务没有发生任何变化，主要是因为数据量、性能等问题导致系统无法正常使用，需要进行升级改造。
流式架构：在传统大数据架构的基础上，流式架构非常激进，直接去掉了批处理，数据全程以流的形式处理，所以在数据接入端没有了ETL(数据仓库技术)，转而替换为数据通道。
Lambda架构：大数据系统里面举足轻重的架构，大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支：实时流和离线。实时流依照流式架构，保障了其实时性；而离线则以批处理方式为主，保障了最终一致性。
Kappa架构：在Lambda的基础上进行了优化，将实时和流部分进行了合并，将数据通道以消息队列进行替代。因此对于Kappa架构来说，依旧以流处理为主，但是数据却在数据层面进行了存储。
Unifield架构：上述架构都围绕海量数据处理为主，Unifield架构则更激进，将机器学习和数据处理融为一体，从核心上来说，Unifield依旧以Lambda为主，不过对其进行了改造，在流处理层新增了机器学习层。

3.2 Hadoop架构

Hadoop架构介绍

Hadoop(分布式计算)是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（Hadoop distributed file system, HDFS）和MapReduce（Google MapReduce的开源实现）为核心，为用户提供了系统底层细节透明的分布式基础架构。

Hadoop特点

Hadoop是一个由一系列软件库组成的框架，这些软件库也称为功能模块，各自负责Hadoop地一部分功能。
Hadoop适合处理大规模数据，并能够实现分布式存储和分布式计算。
Hadoop被部署在一个集群上。（集群式一组通过网络互联地计算机，集群里的每一台计算机被称为一个节点）

Hadoop核心组件

三大核心组件：HDFS、YARN、MapReduce

HDFS（Hadoop Distribute File System）：Hadoop的数据存储工具
- 文件系统，用于存储文件，通过目录树来定位文件，是分布式的，有很多服务器联合起来实现其功能。
YARN（Yet Another Resource Negotiator ,另一种资源协调者）：Hadoop的资源管理器
- Apache Hadoop YARN是一种新的Hadoop资源管理器，是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度
MapReduce：分布式计算框架
- 是一个能并发处理海量数据的并行编程模型，简单易学，适用广泛。

3.3 HDFS

HDFS优缺点

HDFS是基于流数据模式访问和处理超大文件的需求而开发的，是一个分布式文件系统，是继GFS之后出现的另外一种文件系统。

处理超大文件。这里的超大文件通常是指百MB、甚至数百MB大小的文件。但是，目前在实际应用中，HDFS已经能用来存储管理PB级(1PB=1024TB)的数据了。
流式数据访问。HDFS的设计建立在“一次写入，多次读写”任务的基础上。
运行于廉价的商用机器集群上。Hadoop设计对应急需求比较低，只需运行在低廉的商用硬件集群上，而无需运行在昂贵的高可用性机器上。

HDFS构成

HDFS关键元素包括：Block、NameNode、DataNode

Block:将一个文件进行分块，通常一个块的大小是64M。
NameNode:保存整个文件系统的目录信息、文件信息及分块信息，这是由唯一一台主机专门保存，这台主机如果出错,NameNode就失效了。
DataNode:分布在廉价的计算机上，用于存储Block块文件。

3.4 MapReduce框架

MapReduce框架定义

MapReduce:是Google.系统和Hadoop系统中的一项核心技术。它是一个软件框架，可以将单个计算作业分配给多台计算机执行。它假定这些作业在单机上需要很长的运行时间，因此使用多台机器缩短运行时间。

MapReduce,是一种分布式计算模型，在处理海量数据上具有很明显的优势，因此常被用于大规模数据集的并行计算。

MapReduce:是一个简单、方便的分布式编程模型，主要面向存储在HDFS中的数据。采用“分而治之”的思想，MapReduce将一个大规模数据分解为多个小规模数据，并将其分发给集群中的多个节点共同去完成。

3.5 工业大数据技术架构

航空大数据整体架构
大数据技术架构
工业大数据技术架构

第4章工业大数据采集与清洗

4.1 预备知识——常见距离测量

4.1.1 欧几里得距离

在数学中，欧几里得距离或欧几里得度量是欧几里得空间中两点间的“普通”(即直线)距离。使用这个距离，欧氏空间成为度量空间，相关联的范数称为欧几里得范数。

二维空间公式：

ρ = \sqrt{{(x_{2} - x_{1})}^{2} + {(y_{2} - y_{1})}^{2}}, ∣ X ∣ = \sqrt{x_{2}^{2} + y_{2}^{2}} \rho=\sqrt{\left(x_2-x_1\right)^2+\left(y_2-y_1\right)^2},|X|=\sqrt{x_2^2+y_2^2}

其中， $\rho$ 为点 $(x_2,y_2)$ 与点 $(x_1,y_1)$ 之间的欧氏距离， $|X|$ 为点 $(x_2,y_2)$ 到原点的欧氏距离。

三维空间公式：

\begin{gathered}\rho=\sqrt{\left(x_2-x_1\right)^2+\left(y_2-y_1\right)^2+\left(z_2-z_1\right)^2},\\|X|=\sqrt{x_2^2+y_2^2+z_2^2}\end{gathered}

$n$ 维空间公式：

d\left( x,y \right) :=\sqrt{\left( x_1-y_1 \right) ^2+\left( x_2-y_2 \right) ^2+\cdots +\left( x_n-y_n \right) ^2}=\sqrt{\sum_{i=1}^n{\left( x_i-y_i \right)}^2}

欧氏距离优缺点

优点：计算简单，易于理解，在低维空间效果较好
缺点
- 欧氏距离不是尺度内变异的，这意味着计算出的距离可能是倾斜的，取决于特征单位。通常情况下，在使用这种距离测量方法之前，人们需要将数据标准化。
- 随着数据维度的增加，欧氏距离的作用就越小。这与”维度诅咒"有关，即高维空间的作用并不像我们直观地从二维或三维空间期望的那样。

4.1.2 余弦相似度

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估两者的相似度。余弦相以度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

两个向量间的余弦值可以通过使用欧几里得点积公式求出：

\mathbf{a}\cdot\mathbf{b}=\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta

给定两个属性向量A和B，其余弦相似性 $\theta$ 由点积和向量长度给出：

\mathrm{similarity}=\cos(\theta)=\frac{A\cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^{n}A_i\times B_i}{\sqrt{\sum_{i=1}^n(A_i)^2}\times\sqrt{\sum_{i=1}^n(B_i)^2}}

其中， $A_i,B_i$ 分别代表向量A和B的各分量。

余弦相似度优缺点

优点：计算简单，易于理解
缺点：
- 运算中不考虑向量大小，只考虑其方向。在实践中，意味着数值的差异没有被充分考虑。
- 以推荐系统为例，余弦相似性没有考虑到不同用户之间的评分标准的差异。

余弦相似度应用案例

当有高维数据并且向量的大小不重要时，经常使用余弦相以性。对于文本分析来说，当数据是由字数表示的时候，这种测量方法是经常使用的。

例如，当一个词在一个文件中比另一个文件出现得更频繁时这并不一定意味着一个文件与这个词更相关。可能是文件的长度不均匀。那么，我们最好使用余弦相以度，它不需要考虑大小。

4.1.3 Hamming距离

Hamming距离是两个向量之间不同值的数量。通常用于比较两个等长的二进制字符串，也可用于字符串，通过计算彼此不同的字符数来比较它们之间的相似程度。

在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说，它就是将一个字符串变换成另外一个字符串需要替换的字符个数。如：

1011101与1001001之间的Hamming距离是2
"toned"与"roses"之间的Hamming距离是3

Hamming距离优缺点

优点：计算简单，易于理解
缺点：
- 当两个向量的长度不相等时，Hamming距离很难使用。
- 当幅度是一个重要的衡量标准时，不建议使用这种距离衡量标准。

汉明距离应用案例

当数据通过计算机网络传输时的错误纠正/检测，可以用来确定二进制字中失真的比特数，作为估计错误的一种方法。
可以用Hammingi距离来测量分类变量之间的距离

4.1.4 曼哈顿距离

曼哈顿距离，通常称为出租车距离或城市街区距离，计算实值向量之间的距离。在平面上，坐标 $(x_1,y_1)$ 的 $i$ 点与坐标 $(x_2,y_2)$ 的 $j$ 点的曼哈顿距离为：

{d(i,j)=|x_1-x_2|+|y_1-y_2|}

数学性质如下：

非负性： $d(i,j) \ge 0$ 距离是一个非负的数值
同一性： $d(i,j) = 0$ 对象到自身的距离为0
对称性： $d(i,j) = d(j,i)$ 距离是一个对称函数
三角不等式： $d(i,j) \le d(i,k)+d(k,j)$ 从对象 $i$ 到对象 $j$ 的直接距离不会大于途径的任何其他对象 $k$ 的距离和。

曼哈顿距离优缺点

优点：计算简单，易于理解
缺点：
- 尽管曼哈顿距离对于高维数据来说似乎效果不错，但它是一个不如欧氏距离那么直观的度量，尤其是在高维数据中使用时。
- 其更有可能给出一个比欧氏距离更高的距离值，因为它不可能是最短的路径。

曼哈顿距离应用案例

当数据集有离散和/或二进制属性时，曼哈顿距离似乎很好用，因为其考虑到了在这些属性值中实际可能采取的路径。

以欧氏距离为例，它可以在两个向量之间建立一条直线，而在现实中这可能并不可行。

4.1.5 马氏距离

马氏距离可以定义为两个服从同一分布并且其协方差矩阵为 $\varSigma$ 的随机变量之间的差异程度。

单个数据点的马氏距离：

D_M\left( x \right) =\sqrt{\left( x-\mu \right) ^T\varSigma ^{-1}\left( x-\mu \right)}

数据点 $x,y$ 之间的马氏距离：

D_M\left( x,y \right) =\sqrt{\left( x-y \right) ^T\varSigma ^{-1}\left( x-y \right)}

其中 $\varSigma$ 是多维随机变量的协方差矩阵， $\mu$ 为样本均值。

协方差矩阵为单位阵-->马氏距离简化为欧式距离
协方差矩阵为对角阵-->成为正规化的欧氏距离

马氏距离的优缺点

优点：
- 不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关，由标准化数据和中心化数据（即原始数据与均值之差)计算出的二点之间的马氏距离相同。
- 马氏距离还可以排除变量之间的相关性的干扰。
缺点：
- 协方差矩阵必须满秩。计算中有求逆矩阵的过程，要求数据要有原维度个特征值，如果没有可以考虑先进行主成分分析(PCA),这种情况下PCA不会损失信息。
- 不能处理非线性流形(manifold)上的问题。只对线性空间有效，如果要处理流形，只能在局部定义，可以用来建立KNN图。

4.1.6 闵氏距离

闵氏距离是一个用于规范化矢量空间（维实空间）的度量，这意味着它可以用于距离也可以表示为有长度的矢量的空间。

闵氏距离有时也指时空间隔
设 $n$ 维空间有两点坐标 $x,y,p$ 为常数，闵氏距离定义为：

D(x,y)=(\sum_{u=1}^{n}|x_u-y_u|^p)^{\frac{1}{p}}

$p$ 的常见值： $p=1$ 为曼哈顿距离， $p=2$ 为欧氏距离， $p=\infty$ 为切比雪夫距离

闵氏距离优缺点

优点：原理简单
缺点：
- 与Manhattan、Euclidean和Chebyshev距离度量类似，对其深刻理解极为重要
- 参数p的使用实际上很麻烦，根据使用情况，很难找到正确的值

闵氏距离应用案例

p的好处是可以对它进行迭代，找到最适合情况的距离测量，这样距离度量就有很大的灵活性，如果对p和许多距离度量非常熟悉，这将是一个得天独厚的优势。

4.2 工业大数据采集

工业数据采集定义

工业数据采集又称数据获取，是将工业数据自动及主动采集的过程，其目标是从企业内部和外部数据源中获取各种类型的数据，获取的有效数据信息是工业大数据处理、分析和应用的基础。

原文链接：https://xie.infoq.cn/article/cde2bcb578938148326e23186

工业大数据分析与应用——知识总结 | 社区征文