b) 层次方法(hierarchical method)。
这种方法的原理就是将所有数据排列然后生成自上而下或者自下而上的各个层次,就像将数据对象组成一棵聚类的树。并且层次的聚类方法可以进一步分为凝聚(agglomerative)、分裂(pisive)两种分类。此方法的缺点在于其无法回溯,即无法纠正自身的错误。
c) 基于密度方法(Based on density method)。
这种方法的原理在于一直在增长所拥有的聚类知道达到某一个特定的阈值,算法结束。它是将簇看作成为数据空间中被低密度区域分割开的高密度区域,因此它的优点在于可以发现具有任何形状的聚类,而不像其他方法对聚类形状的选择有一定的局限性。
d) 基于网格方法(Based on grid method)。
将所有的对象按照一定的要求划分为一类一类的单元格来构成一个整体的网格截个,接下来的操作也将在这个网格上进行。这种方法的主要优点就是由于其运算速率与所有数据的个数没有关系而仅仅与网格数有关,因此其处理时间独立,具有很高的运算速度,效率显著。
e) 基于模型方法(Based on the model method)。
将每一个聚类假设成一个模型,再去发现与其符合的对象。这种方法的优点在于可以自动确定聚类个数,因而它可以产生强鲁棒性的聚类方法[10]。
3) 基于人工智能的方法
基于人工智能的不良数据的检测辨识方法又可以分为基于神经网络和基于模糊理论两种方法。
a) 基于神经网络的方法
误差反向传播神经网络(Back Propogation,BP网络)[11],用梯度向下的训练方法,可以形成很多层次的网格,并且包含了输入层、隐含层和输出层这三层层次。层与层之间实现全连接,但是不能实现向前的反馈,并且同层单元间之间互相没有连接。
文献[12]以电力电子三相逆变系统为例,将BP神经网络、RBF神经网络结合,结对逆变系统进行故障诊断。利用网络参数对神经网络故障诊断方法产生的影响,优化神经网络结构的设计,以此提高系统处理数据辨识问题的精确度。论文网
神经网络对数据的预处理,能使待测数据具有较高的精确性,在系统建模方面,由于不要求建立实际系统的辨识格式,故可以省略此步骤,因此有可能将它应用于在线控制[13]领域。
自BP算法[14]提出以来,广泛应用于电力系统不良数据的辨识研究中。下面论述一个为电力系统状态辨识并且恢复不良数据的方法:
文献[15]指出:首先,构造一个基于GMDH的神经元网络,采用输出变量是正则信息,对其进行不良数据的检测和辨识;其次,文献[16]基于熵测度理论,分析样本数据中每个数据,观察每个辨识值得特征值,比较他们的增益;最后,利用多层感知器处理这些特征值,并加以BP网格自适应共振理论模型,可以轻松辨识并恢复不良数据。
虽然神经网络应用于数据预处理时具有较高的精确性,但神经网络应用于数据辨识领域也具有一定的局限性。其原因主要有:因为局部极小值会造成神经网络局部收敛的结果并且算法收敛性还未完全解决[19];收敛阈值的选取显然带有较大的主观性和经验性,使得在投入实际应用中会显示比较困难的情况,即不同的情况需选择不同的阈值,麻烦很多,不够优化;其非常依赖网络的训练过程,因此训练样本的选定及其代表性将会影响辨识的效果。