不良数据辨识国内外研究现状综述(2)

2) 基于数据挖掘技术的不良数据辨识

首先给出数据挖掘的定义：从很多不完整的、有缺陷的、不易辨识的、随机产生出的实际应用数据中,找出其中所包含的不为人知的，但又对研究者有所帮助的相关信息和内容[10]。数据挖掘方法的提出促使人们可以更加方便、更加准确的从大量实时数据或是信息中快速、高效的提取出对自己有用的相关数据[8]。因此基于数据挖掘的不良数据辨识方法已经越来越多的为研究领域所发掘、应用。通过数据挖掘理论来从大量数据中找出自己需要的有用的数据，即省去了筛选的时间，也提高了应用的效率。数据挖掘的具体步骤如下:首先是数据准备(包括数据的汇合、对数据的选择、数据预处理和数据之间的相互转换等等)、数据挖掘及解释评估。

在对电力系统的不良数据进行处理时，需要聚类，即将一个数据集合中的所有数据划分为若干个组或者类的过程。聚类是数据挖掘方法中功能的体现之一，它属于一种无(教师)监督的学习方法，并且属于观察学习方法(learning by observation),这不同于示例学习法(learning by example)[8]，因此必须具有可扩展性、处理问题所体现出的不同阶段的能力、能准确高效的发现其他形状聚类的存在以及能够处理故障或是噪声数据能力，同时还有需要极高敏感度的要求。当然在应用领域中聚类分析也可以单独使用，用来了解数据、挑选数据继而选择有用的数据投身于不同领域的研究[10]。在数据划分的过程中，需遵循：尽量最大化同一组内数据的相似程度，将不同的组别之间的区别相似度尽可能减小的要求。其中，数据间的相似程度会用各个对象之间的“距离”来描述。

关于聚类分析的算法,在现有文献中可具体分为如下几类[8]：

a) 划分方法（Classification method）。

此方法就是将所有的共n个对象划分为k个子集（每个子集至少包含一个对象，每个对象也必须只能属于一个子集）。其具体过程为：首先给确定出子集的个数k,开始最初的划分,紧接着用循环再定位的技术,移动不同的划分中的子集实现在划分的过程中聚类的目的，最终达到优化的结果。另外通过研究表明，划分过程的启发方法通常有两种：即k-means聚类算法(每一个聚类均用相应聚类中对象的均值表示)还有k-medoids算法(用最近的对象来表示每个数据集与之相应类的中心)。其中k-means聚类算法，融合了人工神经网络技术[17]的优点，可以有效检测辨识电力系统中的不良数据，并且可以避免对于不良数据的漏检和误检的缺陷。但k-means聚类算法存在一定的缺点：它的实际运行需要非常依赖网络的训练流程，因此训练的样本的选择及其自身性质将很大程度的影响到最后的辨识结果[18]。

k-means算法的应用流程如下：在n个待检测数据中随机选取k个作为被初始化的聚类中心，计算剩下没有被选中的数据对象与已经选取好的聚类中心之间的各个“距离”，将它们分至与其各自对应最为相似的聚类，作为分类的标准“距离”可以用数据间的欧式距离表示。具体计算方法为：

　　（1-1）

其中，和分别是两个p维对象。

再计算得到的所有新的聚类的聚类中心(用聚类中所有数据的均值来表示)，经过这一过程的反复重复当达到收敛的结果，停止计算。

不过k-means算法也有缺陷，在于它只适用于聚类均值存在即有意义的情况，因此应用范围较为局限。其次，要求数据集中不可以包含诸如符号等属性，且用户必需事先将聚类个数k制定好。不良数据辨识国内外研究现状综述(2):http://www.751com.cn/yanjiu/lunwen_72711.html