Web日志挖掘来源于互联网的快速发展,其含义就是通过挖掘web日志记录以发现用户访问web页面的模式、挖掘有用模式和预测用户浏览行为的技术。目前关于web日志研究的主要流程包括下面几步:26382
(1)预处理过程:企业服务器上的web日志中,记录了用户的每一次点击访问,有的是真实且有用的,有的却是虚假且错误的,比并且各个服务器上存储的web日志的内容格式也是千差万别。这些就要求我们在对这些日志文件加以解读和分析利用前,必须要先对它们进行处理,已消除其中数据的无效性、不规则性以及不完整性。这是一个较为细致的过程,其中包括数据清理、用户识别、会话识别、路径的补充以及会话拆分[7]等过程。论文网
(2)序列模式识别[8]:其本质主要是找到用户在访问网站的过程中,群体选择的较长且较为频繁的序列。首先是通过MF算法(Maximal Forward References)来消除用户在访问网站过程中因为后退而产生的影响,从而得到最大的向前引用集。接着利用Chen等人提出的FS(Full Scan)和SS(Selective Scan)两种算法,从上步中的引用集里面找到频繁出现的引用序列。最后从大引用序列中确定“最大引用序列”[9](Maximal Reference Sequences),找出没有包含在其他任何大引用序列中的大引用序列即可,也就是频繁中的最大的引用序列。
(3)序列模式分析[10]:针对得到的用户的访问序列模式,就可以就此展开相应的后续工作。例如,改善网站的组织结构,增删网站链接的位置,按照大多数访问者的浏览行为习惯对网站加以重组等。 关于web日志挖掘的研究现状:http://www.751com.cn/yanjiu/lunwen_20550.html