关于web日志挖掘的研究现状

Web日志挖掘来源于互联网的快速发展，其含义就是通过挖掘web日志记录以发现用户访问web页面的模式、挖掘有用模式和预测用户浏览行为的技术。目前关于web日志研究的主要流程包括下面几步：26382
（1）预处理过程：企业服务器上的web日志中，记录了用户的每一次点击访问，有的是真实且有用的，有的却是虚假且错误的，比并且各个服务器上存储的web日志的内容格式也是千差万别。这些就要求我们在对这些日志文件加以解读和分析利用前，必须要先对它们进行处理，已消除其中数据的无效性、不规则性以及不完整性。这是一个较为细致的过程，其中包括数据清理、用户识别、会话识别、路径的补充以及会话拆分[7]等过程。论文网
（2）序列模式识别[8]：其本质主要是找到用户在访问网站的过程中，群体选择的较长且较为频繁的序列。首先是通过MF算法(Maximal Forward References)来消除用户在访问网站过程中因为后退而产生的影响，从而得到最大的向前引用集。接着利用Chen等人提出的FS(Full Scan)和SS(Selective Scan)两种算法，从上步中的引用集里面找到频繁出现的引用序列。最后从大引用序列中确定“最大引用序列”[9](Maximal Reference Sequences)，找出没有包含在其他任何大引用序列中的大引用序列即可，也就是频繁中的最大的引用序列。
（3）序列模式分析[10]：针对得到的用户的访问序列模式，就可以就此展开相应的后续工作。例如，改善网站的组织结构，增删网站链接的位置，按照大多数访问者的浏览行为习惯对网站加以重组等。关于web日志挖掘的研究现状:http://www.751com.cn/yanjiu/lunwen_20550.html