菜单
  
    6

    2.1 分布式存储HDFS 6

    2.2 分布式计算MAPREDUCE 7

    2.3 数据采集FLUME 9

    2.4 非关系型数据库HBASE 11

    2.5 数据仓库HIVE 12

    2.6 分布式数据迁移SQOOP 13

    3 高可用HADOOP集群搭建及优化 14

    3.1 集群整体架构设计 15

    3.2 LINUX环境配置 17

    3.3 HADOOP集群搭建 20

    3.4 HIVE和HBASE集群搭建 26

    3.5 SQOOP数据迁移框架设计 29

    3.6 本章小结 31

    4 用户行为挖掘算法研究 31

    4.1 微博用户原始数据 32

    4.2 微博用户数据数据预处理及分区存储 33

    4.3 分布式并行分词算法研究 36

    4.4 用户行为分析研究 39

    4.5 本章小结 45

    5 实验及结果分析 45

    5.1 分布式数据导出 46

    5.2 数据挖掘结果展示 48

    5.3 录制视频展示成果 52

    6 总结与展望 52

    6.1 本文工作总结 53

    6.2 未来的工作展望 53

    致谢 53

    参考文献 54

    攻读学位期间发表的学术论文 56

    1 引言

    本章首先介绍了课题的研究背景,主要介绍了云计算和大数据的一些研究现状,并且分析现有用户行为分析中存在的一些问题,并对存在的问题进行阐述;在此基础上,详细介绍了本文的研究目标,研究内容和意义;最后简介本文的组织结构。

    1.1 研究背景

    互联网的广泛使用和物联设备的爆炸性增长,以及社交网络、传感器网络的飞速增长,带给人们是无所不在的连接和便利。我们已经从人与人的连接走向人与网络的连接,我们逐渐走向一个新的互联网时代,我们也越来越离不开网络。我们的每一个行为都将产生新的网络数据存储在互联网中[1]。

    2012年互联网设备已经达到55亿,超过全球人口的70%,社交网络拥有20亿的用户,传感器网络设备超过100亿。这些设备和网络无时无刻生成数据[2],互联网数据中心(Internet Data Center)IDC统计2014年新增了4.1ZB的数据。2015年全球数据增长7.9ZB以上[3]。而且还保持着快速增长,基本保持了每十八个月全球数据翻一倍的速度进行增长。

    1.2 国内外研究现状

    1.2.1 大数据国内外研究现状

    1.2.2 用户行为分析研究现状

    1.3 主要工作

    互联网数据量大,数据稀疏,用户广,对于数据存储和挖掘都带来了很大的挑战。本文基于hadoop云平台研究用户行为数据的存储和用户行为挖掘。设计并实现分布式、高可靠、高可用性的数据存储模块,解决现在数据量大存储困难的问题。提出基于MapReduce的分布式并行分词算法,调用集群的所有计算节点,对海量的中文文本进行分词计算,相比较传统中文分词能够提高三倍以上的分词效率,并能够解决现阶段海量文本分词困难的现状。本文将hadoop云平台结合微博用户行为数据进行分析,首先对重庆地区的微博信息进行分词,然后分析挖掘重庆每天各区县关于“感冒”、“肺炎”、“发热”、“咳嗽”的词汇统计,很好的解决微博内容稀疏,价值隐藏深,挖掘困难等问题,实现重庆相关部门对本地医疗的监控和预警。设计数据挖掘结果展示模块,基于Mysql+jdbc+http+Ajax多维度多方位全面的展示微博用户行为分析结果。

  1. 上一篇:jsp《计算机通信及网络》课程试题库设计
  2. 下一篇:jsp+sqlserver医院管理系统设计与实现
  1. 基于MATLAB的图像增强算法设计

  2. jsp+sqlserver高校二手商品交...

  3. 基于Kinect的手势跟踪与识别算法设计

  4. JAVA基于安卓平台的医疗护工管理系统设计

  5. java+mysql设备监控记录的大...

  6. 基于核独立元分析的非线...

  7. 基于Hadoop的制造过程大数据存储平台构建

  8. 当代大学生慈善意识研究+文献综述

  9. 中考体育项目与体育教学合理结合的研究

  10. 十二层带中心支撑钢结构...

  11. 杂拟谷盗体内共生菌沃尔...

  12. 乳业同业并购式全产业链...

  13. 大众媒体对公共政策制定的影响

  14. java+mysql车辆管理系统的设计+源代码

  15. 电站锅炉暖风器设计任务书

  16. 酸性水汽提装置总汽提塔设计+CAD图纸

  17. 河岸冲刷和泥沙淤积的监测国内外研究现状

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回