基于用户心智模型聚类网站产品目录的个性化推荐研究(3)

   数据挖掘常用的分析数据的方法主要有分类、回归分析（regression analysis)、关联分析(Association Analysis)、聚类分析（Clustering Analysis）、可视化分析和偏差分析、分类预测（classificahon&Predication）等，它们是从不同的角度对数据进行挖掘。
2.2 Web挖掘与Web日志挖掘
2.2.1 Web挖掘概述
    随着Internet的迅速发展及Web的全球普及，使得Web上的信息量无比丰富，通过对Web的挖掘，可以利用Web的海量数据进行分析，获得想要的数据和规律。Web数据挖掘是从数据挖掘发展而来，是对Web上的文档内容，网络资源进行分析挖掘，找出隐藏其中有用的，隐性的，并且可以最终理解运用的信息。由于网络本身具有的数据量大，动态，异质，无统一结构的特点，使得Web挖掘比传统的数据挖掘要复杂很多。Web数据挖掘已经在各个领域都广泛的应用，不仅应用于网站结构，样式的设计，而且在电子商务上也有非常广阔的发展前景，这也是数据挖掘的重要的热点研究方向。
   Web挖掘不同与传统的挖掘，它是以互联网为基础的数据挖掘，由于互联网的特性，Web数据挖掘有如下特点：
（1）Web挖掘数据量庞大。网络上的数据量非常大，是以Tb来计算，并且还在飞速增长中。这就需要我们能准确筛选出有价值的数据信息，并且需要强大的统计分析工具。
（2）Web数据更新频繁。每天网络都会更新或发布新的信息，网络用户也会产生大量新的日志信息。
（3）数据结构复杂。网络上的数据类型、网页样式和结构都是不同的，内容格式远比文本格式复杂。
2.2.2 Web挖掘分类
   根据挖掘的对象不同，Web挖掘分为三种：Web内容挖掘、Web结构挖掘、Web日志挖掘。本节主要介绍Web日志挖掘。
（1）Web内容挖掘
Web内容挖掘是对Web文档内容和后台用户数据库挖掘有用的，隐性的信息的过程。Web内容挖掘不仅有文本资源，同时也包括图像，声音等资源。Web内容挖掘可以有效帮助用户过滤无效的信息，同时也可以发现网络信息中隐藏的价值。此外，Web内容挖掘的主要任务是对网络上的数据进行搜集，过滤，分析，建模来支持对Web数据的复杂查询。
（2）Web结构挖掘
   Web结构挖掘是指对Web页面之间的链接和Web页面内部的结构中挖掘有用的知识和模式。Web结构挖掘以网络分析和学术研究为基础，目的是为了提高站点结构和搜索性能。Web结构挖掘通常使用两种算法，分别为查询相关和独立算法。
（3）Web日志挖掘
    Web日志挖掘（又称Web使用挖掘），主要是通过对挖掘用户日志信息来获取用户行为模式和规律。用户日志中有用户浏览网站时间，访问IP，使用浏览器信息、请求页面URL、服务器端信息等，既能反映出用户的群体共性，也能体现用户个体行为特点。Web日志挖掘在电子商务领域已经得到不少应用。
2.3 Web日志挖掘
    用户浏览网页或者其他操作时，会产生相关的记录，形成服务器中的日志文件，这些就是Web日志挖掘的数据来源。Web日志挖掘可以从海量的Web日志中找出有价值的用户访问模式，找出用户使用规律，分析用户偏好，从而提供个性化服务，优化站点结构和发现潜在客户，增加产品竞争力。
    Web日志挖掘主要分为三个阶段：数据预处理、模式挖掘和模式分基于用户心智模型聚类网站产品目录的个性化推荐研究(3):http://www.751com.cn/jisuanji/lunwen_12862.html