基于数据挖掘技术的专利信息分析及应用研究(4)

菜单

② 分类

指首先将一个样本数据进行分析，希望找到一个函数能够描述这个数据集合的典型特征。然后运用这个函数，将其分类识别某个需要定义的类或未知数据。分类方法很多，主要的有决策树方法、神经网络方法、统计方法等。

③ 区分规则

将目标数据的特征或者属性单独提取出来，以期通过这些不同区分出目标数据和对比数据。

④ 聚类分析

聚类是目前最为常见的描述性挖掘工作之一，将数据收集起来对其进行描述。换一种说法，也就是将数据分为多个类。

⑤ 关联分析

关联分析是指通过分析一些数据，从而发现一个项目和另一个项目之间的关联和相关关系。简单点来说可以描述为：满足A的元素或结论也可能满足B。

⑥ 预测分析

预测是指在对数据分析处理的基础上，来预测估计数据的特征性，如某些值的分布情况。一般是利用数理分析的方法，通过对一个数据集中的其他的数据进行统计分析，来预测这个数据集当中的某一个数据的属性。

⑦ 孤立点分析

在数据库中偶尔会出现这种情况，有一些数据对象，它们相对于一般的数据来说，偏离很大。成为孤立点。大多数时候这些点都会被丢弃，但是，在某些现实情况下，分析数据中的反常的实例会有很重要的作用。因此，我们偶尔也会对这些有偏差的数据进行分析。

（3）数据挖掘的过程

数据挖掘的过程一般包括选择数据、数据预处理、数据转换、数据挖掘以及分析同化形成同化的知识。其过程如下图2-2所示。

数据挖掘过程

① 确定业务对象

数据挖掘的第一步,也是重要的一步,就是确定挖掘业务的问题,弄清楚此次数据挖掘的目的。

② 数据准备

数据准备里有三个小的过程，分别是数据的选择，数据的预处理，数据的转换。

③ 数据挖掘

经过前面几步，数据已经经过了处理转换，此时就只需要进行挖掘了。所有工作系统都可以自动进行并且完善，挖掘者需要做的，就是完善之前选择的挖掘算法。

④ 结果分析

此时已得到挖掘的结果了。需要将得到的结果进行解释、评估。通常是运用可视化技术的方法进行分析。

⑤ 知识的同化

知识的同化是指将结果分析中所分析得到的知识和结论运用到业务信息系统中的组织结构中[2]。

（4）数据挖掘的主要方法

① 关联规则

关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。挖掘产生布尔关联规则所需频繁项集的基本算法就是Apriori算法，同时，Apriori算法也是最有影响的挖掘布尔关联规则频繁项集的算法。

Apriori算法的其核心是基于两阶段的频集思想的递推，主要是运用层次搜索的循环的方法来进行挖掘工作。该方法的核心思想就是利用k-项集来产生下一项(k+1)-项集[13]。详细的具体的做法如下：第一步是找出频繁1-项集，然后将此记做L1；第二步，就是运用L1来挖掘和产生L2，也就是频繁2-项集；按照这样的步骤，不断进行循环，一直做到无法发现更多的频繁k-项集为止。

② 分类/聚类论文网

所谓的分类就是建造一个分类模型，将带有某种特征的数据归类到这种特征的类别上，一般分类由创建模型和使用模型两个步骤构成。数据挖掘的领域中，核心的技术就是聚类分析。聚类分析的分类原则的是，根据各聚集内部数据对象间的相似度最大差异最小化，而各聚集对象间相似度最小差异最大化，同时，根据度量数据对象之间的相似度的计算公式，就可以将需要进行聚类分析的数据对象分为若干的群组，然后再进行分析，从而去发现整个数据集的典型模式以及空间分布规律。