现在对于日志挖掘的研究中,主要是从性能和算法中做深入研究,从算法角度,主要是是使用一些聚类算法,如北京邮电大学付伟使用K-Means聚类算法进行日志挖掘;该文通过研究了很多开源的日志挖掘工具,从功能的角度上,开发出类似于alter wind log日志挖掘系统进行挖掘web日志中的有用信息[5]。39468
目前,web日志挖掘工具大部分功能都比较简单,主要挖掘用户的在线时间,用户的访问路径,有些工具因为追求精确性,所以处理的速度非常慢,同样的,本文认为,日志挖掘不仅仅要追求精确度,还要追求处理速度,现在是一个追求快速响应的时代,人们对于互联网响应的容忍时间低至毫秒度,所以本文在日志挖掘的速度上面进行追求,选择分布式框架hadoop,并基于hadoop开发日志挖掘算法[6]。论文网
如今,除了Oracle自带有一个日志挖掘工具包-logminer,还有以下几个日志挖掘工具,本文仅列出各个工具名称,并不对其详细介绍。
(1)M5 analyzer ,主要是对网页的树状进行分析,能够分析出访问路径的特点
(2)deep log analyzer ,能够挖掘的内容很多,但是过于详细导致速度过慢
(3)alter wind log,主要挖掘用户的ip内容等
(4)Absolute Log Analyzer Pro,可以支持web集群的日志挖掘
(5)123 log ,主要挖掘用户的在线时间等信息,界面比较简单
(6)happy Log ,对网页进行树状的列表,并且进行统计
(7)website analyser,操作界面比较简单,挖掘的功能较少
(8)Nihuo Web Log Analyzer,主要挖掘ip,用户信息等功能
(9)SurfStats Version 8.0.0.0,日志挖掘后的报告支持多种格式
(10)weblogstorming,挖掘用户的访问路径
(11)web log explorer,统计访问的各种信息,并且报表的展示功能做的比较好。
(12)web log expert,统计访问的各种信息
从上面各种工具的特点可以看出来,现在对于日志挖掘的工具原理都比较简单,而且功能也比较强大,基本可以满足现在web日志分析的要求,但是,现在web日志的数据量增长速度之快,大网站动则上亿访问量,日志大小多达几十T,而上诉这些挖掘工具,基本都是基于单机开发的,即使是存储这些日志已经是很困难了,更谈不上读入内存,进行处理。
这是因为以上种种的原因,对于大数据级的日志处理,科学家开发出了相应的平台,如hadoop、spark、storm、fourinone等,其中尤以Hadoop 使用最为广泛。第一,从成本的角度上考虑,hadoop是apache旗下的顶级开源项目,面向用户完全免费,而且,hadoop对于硬件的要求并不高,只要能够运行linux系统的设备都可以安装hadoop框架,对于公司的使用成本大大降低。第二,hadoop使用非常灵活,不仅能够处理结构化数据,对于非结构化数据支持也非常好,并且能够很容易的处理GB、TB以上的数据,以前只能使用单机处理相同数据需要花费几小时或者几天,现在使用hadoop只需要几小时或者几十分钟即可完成,而且开发者可以根据自己的需求编写mapreduce程序,并且设置启用更多的map节点和reduce节点,以达到更快速处理数据的要求,通过调用多台或几十台机器的cpu和内存进行计算,可以简单的说,通过则加节点数量,可以处理任意大的数据。并行计算,并且使用方便,成本低廉,这也就是hadoop的最大优点。 日志挖掘国内外研究现状:http://www.751com.cn/yanjiu/lunwen_39774.html