模糊关联规则知识发现算法研究+文献综述(2)

在这信息爆炸的时代，我们现在迫切的需要一种有效的、准确的信息分析工具的出现，人们用这种工具能从大量的数据间发现和挖掘出它们之间隐含的关系，并能从这些数据中分析并挖掘出对人们有用的知识和信息。虽然这种相对简单的数据统计技术很早就出现了，但是先进的人工智能的数据分析工具还是不够成熟。所以，在数据理解和数据生成之间还是存在着很大差距。知识发现就是为解决这一矛盾而出现的一种新型数据分析技术。知识发现旨在能从大型数据源中提取隐含的预测性信息。它能发掘出数据间潜在的模式，找出企业经营者可能忽视的信息，从而以观察与理解的形式传达给客户，并为企业作出预测性的决策提供非常重要的参考。
知识发现的一个重要应用就是从海量的原始数据库中发现出有用的、新奇的、可理解的模式，关联规则(Association)就是这样的一种模式表示形式。假如关联规则的前件和后件用准确的、确定的概念来表示，我们就定义它为确定性的关联规则。因为客观世界的复杂性和多样性，很多的事物人们都很难用确定的和准确的概念来表示，我们也不可能用具体的某一数值来表示。因此在这种情况下，确定性的关联规则就不能够有效地来表示出数据间隐含的关联关系，有一定的局限性[1]。该论文就是想利用模糊集合的理论来进行数据挖掘，引进了模糊关联规则这一概念，采用模糊集来表示出数据之间隐含的关联关系，转化数据源，从而拓宽了传统关联规则的表示与应用范围，同时给出了模糊关联规则的知识发现算法。
2. 知识发现
知识发现(Knowledge Discovery in Database, KDD)，是数据挖掘一种更为广义的说法，即从海量的信息中，发现不为人们所知但又对人们有用的知识。知识发现的目的就是在原始的数据，把其中的繁琐细节都给删除，从原始的数据中发现出有简洁的、意义的信息，然后提供给使用者。
知识发现的主要任务就是发现隐含在数据中不为人们所知道的模式，其中可以发现的模式我们可以分为两大类：预测型模式和描述型模式。其中预测型模式就是将时间作为关键的参数，根据时间序列型数据的当前的值和它的历史来预测出未来的值。而描述型模式是规范描述当前其数据中存在的事实，表绘出当前数据的一般特性。
基于数据挖掘和数据库的知识发现(KDD)还存在着混淆，通常这两个术语是可以替换使用。KDD表示将低层数据转换为高层知识的整个过程。可以将KDD简单定义为：KDD是确定数据中潜在有用的、新颖的、有效的、基本可理解的模式的特定过程。而数据挖掘可认为是观察数据中模式或模型的抽取，这是对数据挖掘的一般解释。虽然数据挖掘是知识发现过程的核心，但它通常仅占KDD的一部分(大约是15% 到25%) 。
因此数据挖掘仅仅是整个KDD过程的一个步骤，对于到底有多少步以及哪一步必须包括在KDD过程中没有确切的定义。然而，通用的过程应该接收原始数据输入，选择重要的数据项，缩减、预处理和浓缩数据组，将数据转换为合适的格式，从数据中找到模式，评价解释发现结果。其实知识发现在很早就已经应用商务、通讯等众多领域。如图1就是知识数据库技术的进化过程。

图1 数据库技术的进化
关联模式是反映出某一个事件和其他的事件之间可能依赖或关联的信息和知识，它的目的是生成出部分数据的概要，发现出数据子集之间的关联关系与数据之间的派生关系，即在同一事件中出现的不同项之间的相关性。假如有两项或者多个项属性它们之间是存在关联，我们就可以依据这些已知的属性值进行预测其中某一项的属性值。关联规则的发现可分为两步，第一步通过迭代识别所有的频繁项目集，第二步从所有的频繁项目集中构造出可信度不低于用户所设定的最小值的规则。关联规则知识发现算法的核心是发现和挖掘所有的频繁项目集，这也是知识发现其计算量最大的部分[2]。模糊关联规则知识发现算法研究+文献综述(2):http://www.751com.cn/tongxin/lunwen_1529.html