近年来,企业的数据库中或数据仓库中所积累的数据越来越多。随着数据的快速积累,数据背后隐藏的众多重要的信息和巨大的价值逐渐引起了人们的注意。如何挖掘出这些数据中的隐藏信息成为当前面临的重要问题。而数据挖掘技术的出现解决了这个问题。随着数据挖掘技术和计算机技术不断成熟,人们研发出了很多与数据挖掘相关的软件,MATLAB正是其中之一,对于数据挖掘具有一定的现实意义。
1.1.2研究现状
当前,国外在数据挖掘研的究领域和应用上都崛起的很快,与此相关软件工具层出不穷,但并不能使人们感到满足,各种技术还在逐步完善当中。他们对建立开发解决问题的整体系统很关注,对建立孤立的系统不怎么热衷。数据挖掘方法的应用在许多计算机公司的发展是非常重要的,对公司未来的发展有关,因此这方面就是他们特别关注的问题,如SAS,SPSS,Matlab等等在应用方面。相比国外,我国内对数据挖掘的研究还是比较晚的,并且从事数据挖掘这一领域的研究人员主要都分布在大学里面,只有少数从业人员在研究所和公司中。所涉及的研究领域非常广泛,主要还处于对算法的学习和相关理论的学习阶段。因此,现在我国在数据挖掘方面还没有形成相对完善的整体系统。
1.2数据挖掘的定义
数据挖掘旨在从大量的、不完全、有噪声、模糊的、随机数据中,提取隐含在其中的、人们事先不知道的而又潜在有用的信息和知识。需要注意的方面有:首先,该信息是事先没有料想到的或称新颖性。其次,发现的模式能够被用户理解,用通俗易懂的语言来描述所发现的结果。发现的信息会有实用价值,即研究或讨论业务的有效信息,并能实现使用价值。最后,需要特殊的处理大量数据的应用,数据挖掘工具,然后比较分析结论。数据挖掘是一门汇聚了数据库、人工智能、统计学等多个领域的理论和技术的交叉学科。数据库,人工智能和统计三个强大的技术支持着数据挖掘研究。
数据挖掘的定义与另一个术语“知识发现”有紧密联系,有联系而又有区别。一种观点认为,KDD是数据挖掘的一个特殊存在,即数据挖掘就是从数据库、数据仓库以及其他数据库存储方式中汲取有价值的信息的过程。这其实强调的是多样性的数据挖掘中数据源的形式。还有一些人觉得,数据挖掘是KDD过程中的一个步骤,即KDD是一个更广泛的概念,它包括了数据剔除,数据集成,数据选取,数据转换,数据发掘,模式生成和评价估测等一系列环节。这仅仅是数据挖掘是KDD的CSCW系统的系统组成部分的基本功能的一个关键部分。数据挖掘算法的研究基本上属于这一类。有一种观点认为,数据挖掘是KDD,只是名字不同,但它们的意思基本上是相同的[1]。
1.3数据挖掘方法概述
数据挖掘根据挖掘方法可分为分析方法、决策树、神经网络、相关规则、数据可视化、遗传算法、近邻算法、连机分析处理、粗糙集等等。
2.MATLAB的概述
2.1 MATLAB软件介绍
MATLAB是一种贸易数学软件,由MathWorks公司推出,其主要作用包含提供高级技术开发的算法,高效的计算环境下的数据可视化,数据分析,和编程语言的数值计算。
2.2 MATLAB的优势
(1)用户使用方便
MATLAB语言是一种语言的解释器,它有许多优点:灵活、方便,各种方式的调试,调试快捷,简单易学大家都知道,任何一种语言编写的程序的人将经历编辑,编译,链接和执行四个步骤的调试。各个步骤之间的关系是顺序关系,这无形之中就给程序编辑员带来了比较多的麻烦。MATLAB语言来解决上述问题,实现编 辑、编译、连接和执行一体化。所有的步骤都能在同一画面上进行灵活操作,将快速排除书写错误、语法错误甚至语意错误这些令无数从数据挖掘研究头疼的问题得以完美解决[2]。 基于MATLAB的数据挖掘算法研究(2):http://www.751com.cn/shuxue/lunwen_38079.html