菜单
  
    11

    3.3.2 Jpcap抓包的步骤 11

    3.3.3 抓包的过滤 12

    4 数据预处理 14

    4.1 最大向前路径介绍 14

    4.2 算法步骤 15

    5 频繁访问模式的挖掘 16

    5.1 相关基本概念介绍 17

    5.2 Apriori算法 17

    5.3 序列模式挖掘其他算法 20

    5.4 url转换过程 21

    5.4.1 工具包介绍 21

    5.4.2 主要代码分析 22

    6 用户访问模式挖掘系统的实现与测试 23

    6.1 系统设计思想 23

    6.2 url抓取实现与测试 24

    6.3 获取MFP实现与测试 24

    6.4 发现频繁模式实现与测试 25

    6.5 获取url对应标题实现与测试 26

    6.6 结果分析 27

    结 论 29

    致 谢 30

    参考文献 31

    1 绪论

    1.1 问题提出的背景

    随着Internet技术的发展,尤其是Web的全球普及,使得Web上信息量无比丰富。虽然Internet上有海量的数据资源,但是由于Web是无结构的、动态的,并且Web页面的复杂程度大大超过了文本文档。面对如此庞大而且急剧增长的信息海洋,如何有效的组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。在信息检索界开发了许多搜索引擎,但其覆盖率有限,因此查全率较低,而且不能针对特定的用户提供个性化的服务。

    而将传统的数据挖掘技术和WEB结合起来进行WEB挖掘则是解决上述问题的途径之一。我们可以借助WEB挖掘从中发现潜在的、有益的模式、结构和知识。然而与传统结构化数据和数据仓库相比,WEB上的信息大多不是结构化的,经常可能经常变化,而且可能产生错乱的,所以很难直接从WEB网页上获得的数据不易进行处理,必须进行必要的数据处理。

    1.2 国内外研究现状

    1.3 本文研究内容

    本文组织共分为五章。

    第一章绪论概述了本课题的选题背景,国内外研究现状,以及WEB挖掘中对访问模式挖掘的常见方法。

    第二章主要介绍数据挖掘概念、步骤和技术,还有web挖掘的概念和分类。

  1. 上一篇:OpenGL虚拟人三维模型控制平台实现
  2. 下一篇:cximage路面病害识别系统设计
  1. Java+Socket校园局域网通信工具设计

  2. 面向BPEL的服务组合流程定义工具

  3. Apriori算法高密度仓储系统...

  4. 代数规约语言解析工具的设计与实现

  5. BP神经网络工具制作

  6. C++图像文件处理工具的设计

  7. 基于Apriori算法的关联规则挖掘研究与实现

  8. 圆柱绕流国内外研究现状

  9. 探讨“绿色生态”在都市设计中的体现

  10. 分光光度法测定水溶液中有机酸含量的研究

  11. 文化旅游主题展示设计广富林十里长街设计

  12. 机器人摩擦焊机头设计

  13. 合肥老乡鸡连锁餐饮企业的经营策略探析

  14. 《简爱》女性主义的象征

  15. 带式输送机技术英文文献和中文翻译

  16. 新生代农民工培训现状分析

  17. 公共服务均等化文献综述和参考文献

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回