大数据分析挖掘算法实现-平台的监控(3)

1.4 名词解释
HDFS
这是大数据存储的物理基础。
它是一个分布式文件系统，擅长存储单个大文件。
Hive
对MR进行了SQL封装的一个实现。
如果数据是结构化并且很规整，那么可以直接使用Hive，以允许SQL的方式来生成报表。
HBase
基于HDFS的一个Big Table的实现。
它是基于列的数据库，可以存储海量的数据。
可以用key的方式快速检索出数据，也可以用Scan的方式获取一批数据。
当数据是海量的，且格式容易变化的时候可以采取这个方案。
MapReduce
是一种编程范式，适合分布式计算，提倡并行思想。
Map是对数据映射到另一组数据，而reduce则是以一定的方式将一组数据进行计算求值。
Gmod
数据采集器，位于每个Node上。
Gmetad
数据混合收集器，每个cluster都有一个，便于构建多级网络。
1.5 论文结构
论文由七个部分组成，第一章主要讲述了大数据时代来临，发展大数据相关技术已是大势所趋的背景，在这种背景下国内大数据相关技术却令人担忧，在大量的分析下，得出了本文的主要工作和选题背景。第二章主要研究了课题需要用到的平台，第三章则是重点了解当前监控的现状，对几个涉及到的监控软件进行了研究和对比，最终选择比较适合的工具。第四章则是为了验证前面的结论，证明它们的适用性，搭建平台，配置环境，在本地主机上运行它们、使用它们，发现问题。第五章总结收获，提出建议。大数据分析挖掘算法实现-平台的监控(3):http://www.751com.cn/jisuanji/lunwen_21073.html