万文网每天都有新的网页增加,并且新的网页总是喜欢和知名的网页连接。通过跟踪万文网的动态演化过程,Barabasi和Alert于1999年提出一个无标度网络模型—BA模型。生成的方法如下:
初始化网络,由给定的m个节点组成。
增长:在每个时间步,增加一个新节点与k条连接。
择优连接:新节点按照择优律选择性地与老节点连接,择优律的定义如下:
BA模型生成网络的平均路径长度短;度分布服从幂律分布,而且经过充分长时间的演化后,BA网络度分布趋于稳定,服从度指数为3的幂律分布;但BA网络的聚合系数很小,当网络规模充分大的时候,网络的聚合系数几乎为0,比具有明显的聚合特征。
3 复杂网络聚类分析
3.1 聚类分析
通过上述的描述,我们知道了复杂网络在现实世界中无处不在,它们大部分都有像小世界网络,无标度或者社区结构的特点。
像来自于现实世界中的复杂网络,很多来源于自然和社会的数据是有条理的并且有聚类特点。聚类问题已经在很多情况下在被很多学科的研究人员解决了。通过大量的文献[27]来看,聚类的重要性和跨学科的性质是显而易见的。聚类分析在一些探索性模式分析、分组、决策,以及机器学习情况都是有用的,包括数据挖掘、文献检索、图像分割和模式分类。
通过聚类分析,来源于科学实验的数据显示很多独特性,比如结构、关系和相似性。通常,为了寻找信息、关系、行为以及隐藏在其中的结构,数据通过有结构的图、树和可视化工具表现出来。这样做的优点是通过视觉图形或者图像的可视化已经成为有效的传递抽象又具体思想的方式。鉴于数据可以被通过图形表现出特征,它能否也建造出一些特殊网络呢?此外,我们能够通过聚类分析创建出一些特殊网络吗?
通过以上分析,我们知道聚类是大多数的实际网络和数据的普遍的特征,因此聚类分析方法将会成为它们之间建立关系的桥梁,并且能够构建出基于所给出数据的网络。本文中,数据通过坐标平面的点来表示,它们之间的关系用欧氏距离来衡量。一般来说,这些点可以是人、汽车、神经元和路由器等等,当然,也还有许多相对应于研究对象的关系。
3.2 聚类分析方法
聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。传统的聚类算法可以被分为五类:划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。
划分方法首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。FCM就属于很典型的划分方法,是本课题主要研究的聚类算法。
此外,层次方法创建一个层次以分解给定的数据集,该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式,为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位;基于密度方法根据密度完成对象的聚类,它根据对象周围的密度不断增长聚类;基于网格的方法,首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类;基于模型的方法,它假设每个聚类的模型并发现适合相应模型的数据。在此不作一一介绍。
3.3 模糊C均值算法
3.3.1 模糊C均值(FCM)聚类方法
模糊C均值(Fuzzy C-means, FCM)聚类方法,属于基于目标函数的模糊聚类算法的范畴。模糊C均值聚类方法是基于目标函数的模糊聚类算法理论中最为完善、应用最为广泛的一种算法。传统的聚类分析是一种硬划分(Crisp Partition),它把每个待识别的对象严格地划分到某类中,具有“非此即彼”的性质,因此这种类别划分的界限是分明的。而实际上大多数对象没有严格的属性,它们在性态和类属方面存在着中介性,具有“亦此亦彼”的性质,因此适合进行软划分。模糊集理论的提出为这种软划分提供了有力的分析工具。由于模糊聚类得到了样本属于各个类别的不确定程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性描述,更能客观的反映现实世界,从而成为聚类分析的主流。 基于改进FCM聚类的复杂网络节点重要性评估方法(5):http://www.751com.cn/jisuanji/lunwen_7564.html