菜单
  
    Web日志挖掘来源于互联网的快速发展,其含义就是通过挖掘web日志记录以发现用户访问web页面的模式、挖掘有用模式和预测用户浏览行为的技术。目前关于web日志研究的主要流程包括下面几步:26382
    (1)预处理过程:企业服务器上的web日志中,记录了用户的每一次点击访问,有的是真实且有用的,有的却是虚假且错误的,比并且各个服务器上存储的web日志的内容格式也是千差万别。这些就要求我们在对这些日志文件加以解读和分析利用前,必须要先对它们进行处理,已消除其中数据的无效性、不规则性以及不完整性。这是一个较为细致的过程,其中包括数据清理、用户识别、会话识别、路径的补充以及会话拆分[7]等过程。论文网
    (2)序列模式识别[8]:其本质主要是找到用户在访问网站的过程中,群体选择的较长且较为频繁的序列。首先是通过MF算法(Maximal Forward References)来消除用户在访问网站过程中因为后退而产生的影响,从而得到最大的向前引用集。接着利用Chen等人提出的FS(Full Scan)和SS(Selective Scan)两种算法,从上步中的引用集里面找到频繁出现的引用序列。最后从大引用序列中确定“最大引用序列”[9](Maximal Reference Sequences),找出没有包含在其他任何大引用序列中的大引用序列即可,也就是频繁中的最大的引用序列。
    (3)序列模式分析[10]:针对得到的用户的访问序列模式,就可以就此展开相应的后续工作。例如,改善网站的组织结构,增删网站链接的位置,按照大多数访问者的浏览行为习惯对网站加以重组等。
  1. 上一篇:大数据处理国内外研究现状
  2. 下一篇:网络舆情国内外研究现状
  1. 量化交易算法国内外研究现状

  2. Web信息抓取技术研究现状

  3. 道光年间的禁烟问题研究现状

  4. 钛合金微弧氧化技术的研究现状和参考文献

  5. 医学图像去噪国内外研究现状

  6. Bi0.5Na0.5TiO3陶瓷研究现状

  7. 国内外关于机构投资者参与公司治理研究现状

  8. 杂拟谷盗体内共生菌沃尔...

  9. 当代大学生慈善意识研究+文献综述

  10. 酸性水汽提装置总汽提塔设计+CAD图纸

  11. 乳业同业并购式全产业链...

  12. 大众媒体对公共政策制定的影响

  13. java+mysql车辆管理系统的设计+源代码

  14. 电站锅炉暖风器设计任务书

  15. 河岸冲刷和泥沙淤积的监测国内外研究现状

  16. 十二层带中心支撑钢结构...

  17. 中考体育项目与体育教学合理结合的研究

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回