菜单
  

    4、web服务器的性能瓶颈:这个信息爆炸的时期,用户对于网站的效应速度容忍度已经达到毫秒的级别,因为一个网站的性能直接关系到用户的响应速度,所以对于性能的改进,对于用户的体验能够有很大的帮助,通过对web日志挖掘,可以看出网站性能的瓶颈在哪里,从而能够改进web的负载均衡及数据分布策略等。
    1.4    论文组织结构
    论文第一章主要介绍了本课题的研究背景,包括web日志数据量的快速增长,调研了国内外各种web日志挖掘工具的优缺点,分析了现在日志挖掘的瓶颈,引出分布式计算框架hadoop[13]。并且给出了本文的研究内容和研究意义。
    论文第二章,重点介绍hadoop生态圈,介绍分布式存储系统HDFS的结构和运行机制,介绍mapreduce分布式计算框架的结构。并且介绍数据采集工具flume的运行机制,介绍基于mapreduce的HIVE数据挖掘工具、Hbase分布式数据库和sqoop并行数据迁移工具[14]。
    论文第三章,介绍web日志挖掘的需求分析,重点介绍web日志挖掘系统的整体设计包括数据采集系统设计,web日志预处理算法设计,数据迁移和数据展示设计[15]。
    论文第四章,主要进行系统的实现,并进行测试和性能分析。搭建测试环境,主要包括配置hadoop、HDFS、mapredece、Hbase、hive、sqoop、flume、mysql等框架;然后使用配置好的环境进行实验并对实验结果进行分析、性能测试、测试结果分析[16]。
    论文第五章,主要是总结本文的工作,并对一些不足的地方提出改善的建议。
    1.5    本章小结

    本章主要介绍了本课题的研究背景,包括web日志数据量的快速增长,调研了国内外各种web日志挖掘工具的优缺点,分析了现在日志挖掘的瓶颈,引出分布式计算框架hadoop。并且给出了本文的研究内容和研究意义。最后列出了本文的组织结构,并简单介绍了每一章节的内容。
    2    Hadoop整体架构
    2.1    hadoop生态系统简介
    Hadoop系统模型最初是受到Google公司的早期产品GFS、Map-Reduce和BigTable启发而进行立项的,并在2008年成为apache的顶级开源项目,全球开发者进行文护和开发。同时,随着这个hadoop生态系统的完善,已经不仅仅只是一个分布式文件系统和分布式计算框架,其包含了flume,hive,sqoop,hbase,impala,pig,mahout,zookeeper等子框架。其中HDFS类似于Google的GFS分布式文件系统,但性能优于GFS文件系统,其根本就是一个文件存储系统;mapreduce类似于Google的Map-Reduce分布式计算模型;Hbase非关系型数据库类似于Google的BigTable数据库;flume是一个服务器数据采集或者数据迁移框架,负责把所需的数据传输到HDFS或者其他分布式文件系统中;hive其实际是一个数据仓库,负责对建立于HDFS上的表进行数据分析和数据挖掘;sqoop是一个并行数据迁移框架,能够很好的连接传统型数据库(Oracle、mysql等)和HDFS上,并进行数据迁移;impala类似于hive角色,是新一代的数据挖掘工具,其性能优于hive;mahout是基于mapreduce开发的机器学习框架,包含了基本的分类,聚类机器学习算法;zookeeper是负责hadoop所有节点的负载均衡[1
  1. 上一篇:银行叫号系统的程序设计
  2. 下一篇:基于hadoop的数据挖掘算法研究与实现
  1. 基于MATLAB的图像增强算法设计

  2. 基于Kinect的手势跟踪与识别算法设计

  3. JAVA基于安卓平台的医疗护工管理系统设计

  4. 基于核独立元分析的非线...

  5. 基于Hadoop的制造过程大数据存储平台构建

  6. php+mysql志愿者服务平台前端页面设计

  7. 基于安卓系统的测量软件...

  8. java+mysql车辆管理系统的设计+源代码

  9. 杂拟谷盗体内共生菌沃尔...

  10. 酸性水汽提装置总汽提塔设计+CAD图纸

  11. 十二层带中心支撑钢结构...

  12. 电站锅炉暖风器设计任务书

  13. 中考体育项目与体育教学合理结合的研究

  14. 河岸冲刷和泥沙淤积的监测国内外研究现状

  15. 大众媒体对公共政策制定的影响

  16. 当代大学生慈善意识研究+文献综述

  17. 乳业同业并购式全产业链...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回