基于hadoop的海量文本分类算法研究(5)

(5) (可选)分组后的数据进行归约Combiner。

第二步：reduce任务处理

(1)　对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。一个parttition输出到一个reducer，不同parttion输出到不同reducer

(2)　对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

(3)　把reduce的输出保存到文件中。

图2.3中所对应的blick就是HDFS上面的块文件，在hadoop2版本默认设置128MB为一个块，默认一个切片split对应一个块block，但是，切片大小也可以自己设置，根据hadoop的MapReduce源码可以看出来，决定切片split大小是有FileInputFormat类中的long splitSize=computeSplitSize (blockSize,minSize,maxSize)有三个参数决定，其中blockSize=134217728字节=128M，maxSize =2的63次幂-1；computeSplitSzie方法return Max.max(miniSize,Max.min(maxSize,blocSize)); minSize=1，maxSize<blockSize,所以，默认splitSize=128Mb。尽量使用默认大小128M，一个block对应一个split对应一个map，可以避免不同datanode之间的网络传递。一个切片split对应一个map，所以只要知道有多少个切片split就知道启用多少个map。

上文中已经详细介绍了HDFS存储机制和MapReduce程序详细的执行过程，下文进行详细介绍一个hadoop程序如何进行完整的计算。从读取数据到MapReduce计算到输出数据。整个hadoop程序计算流程如下。

(1)．客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...)

(2)．JobClient通过RPC和JobTracker进行通信，返回一个存放jar包的地址（HDFS）和jobId

(3)．client将jar包写入到HDFS当中(path = HDFS上的地址 + jobId)

(4)．开始提交任务(任务的描述信息，不是jar, 包括jobid，jar存放的位置，配置信息等等)

(5)．JobTracker进行初始化任务

(6)．根据任务的输入信息读取HDFS上的要处理的文件，计算文件处理的分块，然后分配MapperTask的大小。

(7)．TaskTracker通过心跳机制领取任务（任务的描述信息）

(8)．下载所需的jar，配置文件等

(9)．TaskTracker启动一个java child子进程，用来执行具体的任务（ MapperTask或ReducerTask）

(10)．将结果写入到HDFS当中

图2.2 MapReduce的工作流程

图2.3 MapReduce执行任务流程图

2.3 高可用HADOOP集群搭建及优化

本节首先将对将Hadoop云平台的软硬件信息进行详细介绍，然后将对Hadoop集群的搭建和优化过程进行详细分析和测试，从最底层的Linux到Hadoop的监控界面的搭建详细研究，并在最后搭建一个完全分布式、高可靠性的Hadoop集群。

2.3.1 集群整体架构设计

本小节将详细介绍hadoop集群的搭建，首先将概况讲解本文hadoop集群的软件信息，接着讲解详细的集群搭建过程。设定整个hadoop集群软件配置如下表2.1所示。

Hadoop搭建环境要求是Linux，本文选用CentOS6.6版本；JDK选用jdk1.75版本，apache-hadoop版本选用cloudera稳定版本hadoop-2.5.0-cdh5.3.6，zookeeper使用zookeeper-3.4.5-cdh5.3.6版本呢，以上均使用稳定版本的。

表2.1 系统开发组件及软件信息表

开发平台 CentOS6.6

集成开发环境 JDK 1.7

软件开发工具 MyEclipes

Hadoop版本 hadoop-2.5.0-cdh5.3.6

协调服务zookeeper 基于hadoop的海量文本分类算法研究(5):http://www.751com.cn/jisuanji/lunwen_69628.html