目前国内外针对WEB用户访问模式的挖掘研究大多是基于WEB服务器日志数据,主要集中在对用户浏览路径的挖掘。研究要么将数据挖掘技术直接应用于WEB数据中,要么将WEB数据经过一定的转换保存在数据库或者数据仓库中,在利用数据挖掘技术发现用户访问模式。而且主要以提供个性化服务、改善WEB站点设计和分析WEB站点性能为目标。64821
主要方法有以下几种:
(1) 统计分析
统计技术是最常用的获取用户访问模式的方法。通过统计计算得到访问频率最高的网页、网页的平均浏览时间以及访问路径的平均长度等统计信息,来改善系统性能,增强系统安全性和为改造网站拓扑结构提供依据。
(2) 关联规则
这里关联规则指的是满足给定置信度的网页关系,这些网页往往同时被浏览。这些规则也可以帮助改善站点的拓扑结构或是作为通过“提前取页”计算来减少网页的切换延迟的启发依据。
(3) 序列模式论文网
挖掘序列模式目的是发现用户所浏览页面之间时间顺序上的关联关系。利用已经发现的频繁序列模式可以预测用户未来的访问情况。
(4) 聚类
对用户进行访问模式的聚类,可以应用于个性化网站中,为不同类别的用户动态生成针对该类用户个性的网页。
(5) 分类
通过对网站现有用户进行聚类所得到的类别特征的抽取和选择,可以得到用以判断新用户所属类别的分类依据。
针对序列模式挖掘,已经提出一些经典算法。序列模式首先是由Agrawal.R和Srikant.R提出的,大多序列模式的方法都是Apriori类方法的改进。AprioriAll算法和GSP算法都是类Apriori算法,由于在算法中要求逐层对数据库进行遍历,并且候选项集可能很多大,这使得算法的复杂度变得很大;而FreeSpan算法和PrefixSpan算法都直接产生频繁项项集,不需要对候选进行计数,并且通过投影数据库很大程度上降低了对序列遍历的规模,它们算法复杂度因此也比前面两种算法得到很大的改善。