我国目前对大数据的研究还处于起步阶段,特别是制造业对数据和信息的利用水平仍落 后于其他行业[4]。除了部分大型制造企业利用大数据技术分析需求、监测生产过程和传递信 息外,绝大多数制造业大数据的应用没能形成系统化的思路和方案,缺乏理论体系的支撑。 以下是国内外针对大数据平台构建和制造过程大数据应用的相关研究。69382
李学龙和龚海刚[5]结合近二十年来许多领域都产生海量数据的情况,对大数据系统进行 了详尽的文献调研,并将其分解成数据产生、数据获得、数据存储和数据分析等四个模块, 由此构成了大数据的价值链。他们的研究目的在于提供大数据的全景知识,为读者构建大数据平台提供辅助思想和参考方案。 彭宇、庞景月、刘大同和彭喜元[6]就大数据技术的处理流程,即生成、存储、预处理、
分析、挖掘及展现,归纳得出应用大数据处理的一套通用技术标准,并且分析了技术标准中 各流程技术的发展状况,最后对大数据的发展趋势和对工业 4.0 及赛博物理系统的影响进行
深入的探讨,指出大数据技术的全面应用将加速工业 4.0 时代到来。 除了上述对构建大数据系统的理论研究和文献调研外,还有许多研究者对实现真正的大
数据存储和管理平台构建提出自己的思路和想法。 广东工业大学的王淑芬[7]认为传统的基于关系数据库的数据处理分析技术已经难以满足
工业海量数据分析的应用需求,于是设计了一个支持对海量工业生产数据及企业管理数据进 行存储、管理、分析的基础平台。其在平台结构上选择的是 Master-slaves 的分布式架构,各 模块间的通信则是基于消息中间件来进行,最后通过 Hadoop 分布式文件系统和 MapReduce 框架实现数据存储和分析。论文网
华中师范大学的苏蓉[8]认为将大数据与数字图书馆联系在一起是一种必然的趋势,她尝 试找出大数据应用到数字化图书馆的信息服务的可行性,并从理论上提出了基于大数据的数 字化图书馆的信息服务内容,构建了基于大数据的数字化图书馆信息服务的具体模式,但最 后并没有提供真正的实例。
成都理工大学的韩欢[9]则使用云平台来存储计算智能交通中的海量数据,他利用 Hadoop 平台和 YARN 框架,再结合 KNN 算法和单源最短路径算法进行数据挖掘,最终构建了基于 Hadoop 的云计算智能交通系统,并给出了上述两种算法的具体实现和分析比较。
哈尔滨工业大学的研究生李云桃[10]基于互联网上每天产生的大量信息,决定构建一个成 本较低的分布式海量数据处理系统。他通过对 Hadoop 开源平台的封装,建立了基于插件的 任务开发与调度机制,将系统中的任务都定义为插件来运行,极大地减少了维护成本。
东华大学的费仕忆[11]着重研究 Hadoop 与传统数据仓库之间如何进行分工协作,从而实 现数据采集、传输、存储和处理的工作,他在已有的传统数据库的基础上提供了对 Hadoop 的支持,弥补传统数据仓库在海量数据处理、存储方面的不足,甚至还可以依靠 Hadoop 的 横向扩展能力突破单节点的传统数据仓库在存储和计算能力上的瓶颈。
国外也有许多互联网巨头投入了对大数据技术的研究,如 Yahoo 是 Hadoop 平台的最大 支持者,初期 Yahoo 公司对 Hadoop 项目大力投入人力物力,才使得 Hadoop 能迅速发展壮大, 从而成为大数据领域的主流平台[12]。
Facebook 一直使用 Hadoop 来存储内部日志与多维数据,并以此作为报告、分析和机器 学习的数据源。此外,Facebook 还在 Hadoop 的基础上建立了一个名为 Hive 的高级数据仓库 框架[13]。