第三章,对关联规则的经典算法进行分析,深入研究了Apriori算法的思想和步骤,并设计实现了Apriori算法,在最后还分析了其性能瓶颈。
第四章,论述了关联规则的改进算法,主要是基于数据分割、散列的方法,能够提高算法的处理效率。
2 数据挖掘与关联规则概述
2.1 数据挖掘概述
数据挖掘(Data Mining)是一个多学科交叉的研究领域,它融合了数据库技术(Database)、人工智能(Artificial Intelligence)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(knowledge Engineering)、面向对象方法(Object-Oriented Method)、信息检索(Information Retrieval)、高性能计算(High-Performance Computing)以及数据可视化(Data Visualization)等最新技术的研究成果,经过十多年的研究,产生了许多新概念和新方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。文献综述
因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
广义的数据挖掘与数据库中的知识发现(KDD)具有相同的含义,即都是从大量的数据中提取出对人们有用的规则、规律和模式的过程。该定义包含了以下四层含义:
1)原始数据必须是大量的、真实的;
2)发现的知识是用户感兴趣的、潜在有用的;
3)发现的知识要可理解、可接受、可运用;
4)发现的知识并不要求放之四海而皆准,它都是相对的,有特定的前提和约束条件的,是面向特定研究领域的。
数据挖掘商业角度的定义是,一种新型商业信息处理技术,其特点是对商业数据库中大量业务数据进行抽取、转换、分析以及其他模型化处理,从中提取出辅助商业决策的关键性数据。
数据挖掘的两个基本任务是预测和描述。预测任务的目标是根据其它属性的值,预测某些特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable),而用来做预测的属性称为说明变量(explanatory variable)或自变量(independent variable)。
描述任务的目标是导出概括数据中所潜在的联系模式(相关、趋势、聚类、轨迹和异常)。本质上讲,描述性数据挖掘的任务通常是探查性的,而且常常需要后续处理技术的验证和解释结果。
数据挖掘的过程,同时也是知识发现(KDD)的过程,而KDD又是一个反复迭代的人机交互的处理过程。该过程需要经历诸多步骤,而且其中的许多决策都需要由用户提供。从宏观上讲,KDD的过程主要包含三个部分,即数据整理、数据挖掘和对结果的解释与评价。
在上述过程中,数据挖掘占据着非常重要的地位,它利用某些特定的知识发现算法,在一定运算效率的范围内,从数据库中发现有用的知识,最终决定了整个KDD过程的效率与效果。