基于Hadoop的微博用户行为分析(2)

2.1 分布式存储HDFS 6

2.2 分布式计算MAPREDUCE 7

2.3 数据采集FLUME 9

2.4 非关系型数据库HBASE 11

2.5 数据仓库HIVE 12

2.6 分布式数据迁移SQOOP 13

3 高可用HADOOP集群搭建及优化 14

3.1 集群整体架构设计 15

3.2 LINUX环境配置 17

3.3 HADOOP集群搭建 20

3.4 HIVE和HBASE集群搭建 26

3.5 SQOOP数据迁移框架设计 29

3.6 本章小结 31

4 用户行为挖掘算法研究 31

4.1 微博用户原始数据 32

4.2 微博用户数据数据预处理及分区存储 33

4.3 分布式并行分词算法研究 36

4.4 用户行为分析研究 39

4.5 本章小结 45

5 实验及结果分析 45

5.1 分布式数据导出 46

5.2 数据挖掘结果展示 48

5.3 录制视频展示成果 52

6 总结与展望 52

6.1 本文工作总结 53

6.2 未来的工作展望 53

致谢 53

参考文献 54

攻读学位期间发表的学术论文 56

1 引言

本章首先介绍了课题的研究背景，主要介绍了云计算和大数据的一些研究现状，并且分析现有用户行为分析中存在的一些问题，并对存在的问题进行阐述；在此基础上，详细介绍了本文的研究目标，研究内容和意义；最后简介本文的组织结构。

1.1 研究背景

互联网的广泛使用和物联设备的爆炸性增长，以及社交网络、传感器网络的飞速增长，带给人们是无所不在的连接和便利。我们已经从人与人的连接走向人与网络的连接，我们逐渐走向一个新的互联网时代，我们也越来越离不开网络。我们的每一个行为都将产生新的网络数据存储在互联网中[1]。

2012年互联网设备已经达到55亿，超过全球人口的70%，社交网络拥有20亿的用户，传感器网络设备超过100亿。这些设备和网络无时无刻生成数据[2]，互联网数据中心（Internet Data Center）IDC统计2014年新增了4.1ZB的数据。2015年全球数据增长7.9ZB以上[3]。而且还保持着快速增长，基本保持了每十八个月全球数据翻一倍的速度进行增长。

1.2 国内外研究现状

1.2.1 大数据国内外研究现状

1.2.2 用户行为分析研究现状

1.3 主要工作

互联网数据量大，数据稀疏，用户广，对于数据存储和挖掘都带来了很大的挑战。本文基于hadoop云平台研究用户行为数据的存储和用户行为挖掘。设计并实现分布式、高可靠、高可用性的数据存储模块，解决现在数据量大存储困难的问题。提出基于MapReduce的分布式并行分词算法，调用集群的所有计算节点，对海量的中文文本进行分词计算，相比较传统中文分词能够提高三倍以上的分词效率，并能够解决现阶段海量文本分词困难的现状。本文将hadoop云平台结合微博用户行为数据进行分析，首先对重庆地区的微博信息进行分词，然后分析挖掘重庆每天各区县关于“感冒”、“肺炎”、“发热”、“咳嗽”的词汇统计，很好的解决微博内容稀疏，价值隐藏深，挖掘困难等问题，实现重庆相关部门对本地医疗的监控和预警。设计数据挖掘结果展示模块，基于Mysql+jdbc+http+Ajax多维度多方位全面的展示微博用户行为分析结果。基于Hadoop的微博用户行为分析(2):http://www.751com.cn/jisuanji/lunwen_56282.html