摘要移动终端和互联网的飞速发展,使得网络产生的数据成爆炸性的增长。那么如何让这些海量的、异构的数据产生价值,怎样高效的处理这些看似毫无意义的纷繁的web日志数据,早已成为当今社会研究的热点,而云计算和大数据的处理技术的产生,正好为web日志的分析研究提供了新的视角和方向。26382
目前主流的大数据处理的开源框架就是Hadoop平台,其核心内容是Map/Reduce(分布式计算框架)和HDFS(分布式文件系统),但是与Hadoop相关的Hive、HBase等项目模块也是不可或缺的,它们提供了互补性服务或在核心层上提供了更高层的服务。本论文研究的就是结合Hadoop中Map/Reduce框架以及传统的MySQL以及Linux系统终端从而实现web日志的处理过程。
关键词 Hadoop;Map/Reduce;会话构建;页面跳转预测
毕业论文外文摘要
Title Big data analysis and systems development based on Hadoop
Abstract
The rapid development of mobile terminals and the Internet make the data generated by the network into explosive growth. In that case, how to make these massive, heterogeneous data generate value, and how to deal with these seemingly meaningless and intricate web log data effectively, have long been a hotspot for Social Research. Fortunately, the generation of cloud computing and processing of big data, just provides a new perspective and direction for the web log analysis.
Currently the widely popular big-data-processing, open-source framework is Hadoop, and its core content is Map/Reduce (distributed computing framework) and HDFS (Distributed File System), but the importance of other project modules such as Hive and HBase which are associated with Hadoop are also unassailable, and they provide a complementary service or provides a higher level of service in the core layer. The study of this paper is to combine Map/Reduce framework in Hadoop, the traditional MySQL and Linux system terminal, to realize the process of web logs.
Keywords Hadoop;Map/Reduce;Session Construction;Page jump prediction
目 录
1 绪论 1
1.1 本文研究背景 1
1.2 研究现状 2
1.3 本文研究内容 3
2 大数据处理的工具和技术 4
2.1 Hadoop介绍 4
2.2 辅助技术介绍 6
3 基于Hadoop的web日志分析系统的需求分析与设计 7
3.1 系统开发背景与目标 7
3.2 系统开发的总体框架 7
4 基于Hadoop的web日志分析系统的技术支持与实现 9
4.1 实验平台的搭建 9
4.2 初始数据准备模块 9
4.3 会话构建模块 12
5 基于马尔科夫模型的用户访问预测研究 20
5.1 马尔科夫模型基本思想 20
5.1.1 马尔科夫链 20
5.1.2 马尔科夫链理论的应用 21
5.2 基于马尔科夫模型的用户访问预测分析 21
结论 24
致谢 25
参考文献 26
1 绪论
1.1 本文研究背景
在2013年左右,大数据(big data)一词以迅雷之势出现在我们日常的视野当中,力度之迅猛让人感觉到焦虑和紧迫、甚至无力的感觉。众多的行业都主动或是被动地去融入这波洪流。据悉,目前关于数据单位的划分已经不再是GB、TB,而是使用PB、EB甚至是ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB)。2013年,世界上存储的数据总量为1.2ZB,如果将这些数据用CDR只读光盘进行刻录,那么将其堆起来的高度,将是地球和月球之间距离的5倍[1]。中国大数据网站上称[2],中国移动一个省的电话通联记录数据每月可达 0.5PB~1PB,而作为IT巨头的百度,目前的总数据量已超过1000PB,每天需要处理的网页数据可达到100PB,而随着社会的发展,其各行各业产生的数据量只会越来越大,且其增长速度也会越来越快。
- 上一篇:基于众包理论的网络舆情意见领袖形成的BDI模型建模研究
- 下一篇:大数据环境下突发社会舆情在不同阶段的演变路径演变表现和演变动因
-
-
-
-
-
-
-
十二层带中心支撑钢结构...
当代大学生慈善意识研究+文献综述
中考体育项目与体育教学合理结合的研究
电站锅炉暖风器设计任务书
杂拟谷盗体内共生菌沃尔...
河岸冲刷和泥沙淤积的监测国内外研究现状
java+mysql车辆管理系统的设计+源代码
乳业同业并购式全产业链...
大众媒体对公共政策制定的影响
酸性水汽提装置总汽提塔设计+CAD图纸