基于Hadoop的微博用户行为分析(4)

（5）HDFS能够很好的和其它框架相连接[19-22]。比如亚马逊的Amazon S3分布式文件系统，比如传统型数据库Oracle，Mysql都能把数据安全迁移到HDFS上。

理解HDFS存储机制，首先要理解HDFS块的概念，HDFS存储大文件的时候首先是按字节进行切分，每一个块默认切分大小是128MB，如此，一个大文件就会被切分为一个个128MB的块文件，如果文件小于128MB，这个文件是不会被切分的，而是作为一个单独文件存储，而且这个文件不会占据整个块的空间。

在HDFS文件系统中，使用文件块能够解决很多问题，最重要的是，一个大数据文件被分块后能够存放于任何小于块大小的磁盘空间中，而且分块后能够很好的对块文件做备份，提高分布式文件系统的可靠性和容错性。

如图2.1是HDFS的整体架构，HDFS文件系统中负责存储文件的节点都是datanode，负责顶层操作控制这个HDFS运行的节点是Namenode；datanode和namenode是以工作者-管理者的模式运行的，简单的说明，就是一个namenode管理多个datanode，namenode负责监控子节点的运行情况，并随时做出调整。

HDFS整体架构中，Namenode节点负责管理元数据信息，存储了子节点中所有信息的元数据信息，包括HDFS文件系统树结构信息，及树结构下的所有块文件的信息(存储目录，块大小，存储地址，备份信息等)，上传新的文件时候，namenode负责分配新的存储地址，并调用子节点datanode进行存储，client下载的时候首先访问namenode寻找所下载文件的元数据信息，然后根据namenode反馈的元数据信息到相应的子节点进行下载，以完成client的读写请求。

HDFS整体架构源'自-751;文,论`文'网]www.751com.cn

2.2 分布式计算MAPREDUCE

Hadoop的另外一个底层架构是MapReduce。MapReduce是作为一个计算框架对存放在HBase，HDFS，Hive表中的数据进行分布式计算。开发MapReduce程序不需要深入理解hadoop的底层框架，只需要按开发要求实现mapper函数和reduce函数，mapper函数和reduce函数均是类似于map的<key,value>格式进行传输的。其中map输出的是<k2,v2>，reduce读取map输出的值。然后输出的是<k3,v3>。一个MapReduce的工作流程如图2.2所示。

MapReduce程序详细的执行过程如下所示[19-21]：

第一步：map任务处理

（1）读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、 value对（一行内容解析成一个key-value）。每一个键值对调用一次map函数。一千行数据调用一千次map函数。

（2）编写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

（3）对输出的key、value进行分区partition。

（4）对不同分区的数据，按照key进行排序、分组。相同key的value放到一个集合中。

（5）(可选)分组后的数据进行归约Combiner。

第二步：reduce任务处理

（1）对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。一个parttition输出到一个reducer，不同parttion输出到不同reducer。

（2）对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

（3）把reduce的输出保存到文件中。

图2.3中所对应的blick就是HDFS上面的块文件，在hadoop2版本默认设置128MB为一个块，默认一个切片split对应一个块block，但是，切片大小也可以自己设置，根据hadoop的MapReduce源码可以看出来，决定切片split大小是有FileInputFormat类中的long splitSize=computeSplitSize (blockSize,minSize,maxSize)有三个参数决定，其中blockSize=134217728字节=128M，maxSize =2的63次幂-1；computeSplitSzie方法return Max.max(miniSize,Max.min(maxSize,blocSize)); minSize=1，maxSize<blockSize,所以，默认splitSize=128Mb。尽量使用默认大小128M，一个block对应一个split对应一个map，可以避免不同datanode之间的网络传递。一个切片split对应一个map，所以只要知道有多少个切片split就知道启用多少个map。基于Hadoop的微博用户行为分析(4):http://www.751com.cn/jisuanji/lunwen_56282.html