图2.3-4 当参考度p=15*平均相似度时,关键字“house”的图像摘要结果
如图2.3-3和图2.3-4所示为搜索关键字“house”的图像摘要结果。当参考度p=10*平均相似度的时候,结果分为12类;当参考度p=15*平均相似度的时候,结果分为10类。由此得出的结论是参考度p值越大,最终聚类的数目越少。所以我们通过调节参考度p值的大小,来调节实验结果聚类的数目。
AP算法的具体工作过程如下:先计算N个点之间的相似度值,将值放在S相似度矩阵中,再选取P值(实验中初始值取S矩阵中相似度的平均值,若聚类数目过多或过少,则调整参考度p值)。设置一个最大迭代次数(默认值为500),迭代过程开始后,计算每一次的r值和a值,根据r(k,k)+a(k,k)值来判断是否为聚类中心,当迭代次数超过最大值(即maxits值)或者当聚类中心连续多少次迭代不发生改变(即convits值)时终止计算(默认设定连续50次迭代过程不发生改变是终止计算)。
AP聚类算法较传统算法有者多优点。(1)不用指定聚类个数;(2)不用指定初始聚类中心(3)较少出错以及计算时间较少。
2.4 图像范例的选择
通过2.2节叙述的方法求出相似度矩阵,将其做为AP聚类算法的输入,我们得到的结果就是图像分为了不同的类。摘要图像就是一组能代表整个图像集的内容概要的图像,也就是由图像聚类后每一类的代表图像组成,它可以分别代表所在类的内容,又称作图像范例。图像范例可以方便用户进行浏览和查询,所以从聚类后得到的图像聚类中选那些最具视觉代表性的图像作为对整个图像集的摘要是至关重要的。
聚类中心常常被看做是一个类别的代表,然而基于特征空间的聚类方法,其特征向量可能经过一些变化,不能真实地对应某一图像,所以本文不使用聚类中心作为代表性图像,而是用一种直观简单的方法来选择图像范例。
本文选取其特征向量最接近该类平均特征向量的图像作为图像范例。平均图像特征的运算公式为:
(14)
其中,M表示该类图像的数量;N表示特征向量的总文数; 表示平均图像特征。我们利用向量之间的距离大小来找到最接近平均特征向量的图像,计算公式如下所示:
(15)
其中, 表示第i张图像的第j文的分量值; 表示平均特征向量的第j文的分量值;N表示该类图像的总数目。上述公式表示该类图像特征与平均特征向量最接近的距离,在我们编写代码时可以在计算的过程中,记录下来i的值,来找到最近接平均特征向量的图像的编号,这样就可以找到每一类的图像范例。 网络图像搜索中的图像摘要技术研究(6):http://www.751com.cn/jisuanji/lunwen_6340.html