基于Hadoop的制造过程大数据存储平台构建(2)

大数据是指无法通过传统流程或者软件工具进行处理和分析的数据集合，具体体现为 3V 特征，即海量(Volume)、高速(Velocity)、多样(Variety)：海量指数据容量巨大，一般达到 TB 级甚至 PB 级；高速指处理海量数据的速度和响应持续加快；多样指数据类型繁多，包括结构化、半结构化和非结构化数据等。大数据技术能够掌握复杂的信息，同时对这些含有意义的信息进行专业化计算。正因为如此，大数据逐渐成为新一代信息技术的关键，也是促进工业化和信息化两化融合的引擎。通过对海量制造过程大数据的分析和价值挖掘，能够提升数字化工厂运行效率，加速数字化工厂向智慧工厂的转型升级[2]。论文网

Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构，实现了 Google 用来支持互联网级数据处理的 MapReduce 编程模型和底层文件系统 GFS，并且支持在大量廉价的硬件设备组成的集群上运行应用程序，能够构建具有高可靠性和扩展性的分布式系统[3]。

本课题主要是针对在企业生产制造环节中产生的海量数据，使用基于 Apache Hadoop 大数据存储平台，搭建制造大数据存储环境，为制造过程大数据的存储与处理提供基础支撑，进一步帮助制造企业在信息化建设和数字化工厂转型中整合生产过程中的数据和信息。1.3 大数据及 Hadoop 平台概述

1.3.1 大数据的相关理论

大数据（Big Data）是指规模巨大、传输速度要求很高、存在多种结构形式的数据集合，其无法通过传统数据库系统或者软件工具进行处理和分析，并且具有 3V 特征。大数据中隐含着许多有价值的模式和信息，主要体现在两个方面：分析提取和再开发。对大数据的分析研究能提取出其中隐藏的有用信息，例如超市对商品销售、区位和社会信息的分析能挖掘出消费者的消费倾向信息。基于大数据的再开发技术则受许多大型网络公司的重视，例如 Facebook 利用大数据技术，结合海量用户的信息，定制高度个性化的广告模式。大数据具有的 3V 特征如下所示:

1) 海量（Volume）

海量指数据量巨大、数据规模完整，数据的存储从 TB 级别扩大到 PB 级别。这主要与数据存储和网络技术的快速发展密切相关。随着数据的处理加工技术迅速提高，网络带宽成倍增加，以及社交网络技术飞速发展，数据生成量和存储量也成倍增长。实质上，相对数据的数量级大小，数据海量性更强调的是数据完整。

2) 高速（Velocity）高速指两个方面的内容，一是数据产生和更新的频率快速，例如短短一天内百度的访问

流量高达 6000 万次，数据更新交换的频率非常快。二是指面对海量的数据，大数据技术的处理速度和响应速度迅速提升，实现对新增加的数据进行实时的加工处理，以满足数据的时效性需求。

3) 多样（Variety）

多样指数据的来源、种类和结构复杂多样。互联网时代，社交网络的快速发展使得大量网络数据产生，智能手机的更新换代也造成大量诸如位置信息、通话记录和图片数据的产生，此外还有来源于企业和工厂传统的加工及库存等数据。其中，超过 80%的都是半结构化或非结构化的数据，例如道路视频监控数据、工厂传感器数据和网络流媒体数据等。

1.3.2 基于 Hadoop 大数据处理关键技术

1) HDFS

HDFS(Hadoop Distributed File System)是由 Hadoop 平台提供的分布式文件系统，可以存储海量数据、支持分布式应用和块存储等。基于Hadoop的制造过程大数据存储平台构建(2):http://www.751com.cn/jisuanji/lunwen_78211.html