关联规则算法分析数据挖掘研究(2)

菜单

第三章，对关联规则的经典算法进行分析，深入研究了Apriori算法的思想和步骤，并设计实现了Apriori算法，在最后还分析了其性能瓶颈。

第四章，论述了关联规则的改进算法，主要是基于数据分割、散列的方法，能够提高算法的处理效率。

2 数据挖掘与关联规则概述

2．1 数据挖掘概述

数据挖掘(Data Mining)是一个多学科交叉的研究领域，它融合了数据库技术(Database)、人工智能(Artificial Intelligence)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(knowledge Engineering)、面向对象方法(Object-Oriented Method)、信息检索(Information Retrieval)、高性能计算(High-Performance Computing)以及数据可视化(Data Visualization)等最新技术的研究成果，经过十多年的研究，产生了许多新概念和新方法。数据分析本身已经有很多年的历史，只不过在过去数据收集和分析的目的是用于科学研究，另外，由于当时计算能力的限制，对大数据量进行分析的复杂数据分析方法受到很大限制。现在，由于各行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。但所有企业面临的一个共同问题是：企业数据量非常大，而其中真正有价值的信息却很少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。文献综述

　　因此，数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。

广义的数据挖掘与数据库中的知识发现(KDD)具有相同的含义，即都是从大量的数据中提取出对人们有用的规则、规律和模式的过程。该定义包含了以下四层含义：

1）原始数据必须是大量的、真实的；

2）发现的知识是用户感兴趣的、潜在有用的；

3）发现的知识要可理解、可接受、可运用；

4）发现的知识并不要求放之四海而皆准，它都是相对的，有特定的前提和约束条件的，是面向特定研究领域的。

数据挖掘商业角度的定义是，一种新型商业信息处理技术，其特点是对商业数据库中大量业务数据进行抽取、转换、分析以及其他模型化处理，从中提取出辅助商业决策的关键性数据。

数据挖掘的两个基本任务是预测和描述。预测任务的目标是根据其它属性的值，预测某些特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable)，而用来做预测的属性称为说明变量(explanatory variable)或自变量(independent variable)。

描述任务的目标是导出概括数据中所潜在的联系模式(相关、趋势、聚类、轨迹和异常)。本质上讲，描述性数据挖掘的任务通常是探查性的，而且常常需要后续处理技术的验证和解释结果。

数据挖掘的过程，同时也是知识发现(KDD)的过程，而KDD又是一个反复迭代的人机交互的处理过程。该过程需要经历诸多步骤，而且其中的许多决策都需要由用户提供。从宏观上讲，KDD的过程主要包含三个部分，即数据整理、数据挖掘和对结果的解释与评价。

在上述过程中，数据挖掘占据着非常重要的地位，它利用某些特定的知识发现算法，在一定运算效率的范围内，从数据库中发现有用的知识，最终决定了整个KDD过程的效率与效果。

上一篇：VC++电能质量监测系统设计
下一篇：桌面云中虚拟机集中入域的研究和实现

关闭

暂无收藏

About

751论文网手机版...

主页：http://www.751com.cn

关闭返回

基于MATLAB的图像增强算法设计

基于Kinect的手势跟踪与识别算法设计

JAVA+MYSQL《算法与数据结构...

神经网络算法在核素识别中的应用研究

人脸图像品质评估算法设计与实现

基于RGB-D摄像机的图像分割算法研究与实现

云虚拟环境下资源分配优化算法的研究

机器人摩擦焊机头设计

《简爱》女性主义的象征

分光光度法测定水溶液中有机酸含量的研究

带式输送机技术英文文献和中文翻译

公共服务均等化文献综述和参考文献

新生代农民工培训现状分析

圆柱绕流国内外研究现状

文化旅游主题展示设计广富林十里长街设计

合肥老乡鸡连锁餐饮企业的经营策略探析

探讨“绿色生态”在都市设计中的体现

栏目

About