图像标注技术的研究现状

简单来说，图像标注的过程就是让计算机对未标记过的图像进行标记，而且所标记的关键词可以有效地反映其特点。通过利用已标记的图像与其他图像之间的视觉特征关系，进而对未标记的图像进行标注。如果能够使图像标注的准确率得到有效改善，那么图像检索问题将能够转化成一个相对来讲发展已较为成熟的文本检索问题。可以说，某种程度上，图像标注能够使图像高层语义与底层视觉特征间的“语义鸿沟”减少。25434
   1999年，Mori等人提出共生模型[2]，该模型的提出开辟了对图像标注领域进行不断探索。在此之后，该领域不断出现了各种各样新的图像标注算法，研究者们开始根据不同的角度对图像标注问题进行分析，希望能够探索出更好的标注方法。根据图像特征表示机制方面做出分析，我们可以将这些方法主要分为成两大类：第一类是利用图像的全局视觉信息，该类的方法使文本标注与图像特征彻底分离开来，通过在纯视觉层次上对图像进行相似度的比较，证明是有监督学习方法。第二类是先把图像划分成多个子块，然后基于区域划分来对图像的语义做标注。该类方法所采用的是图像分割算法，图像标注的实现是利用查找所标注的关键词语与整幅图像或区域语义对象之间的对应关系。论文网
基于全局特征的图像标注方法
   在早期，该标注方法与图像场景的自动分类大致是相同的。Oliva等人通过利用图像场景语义的方法来对图像进行标注[3,4]，此方法是基于图像的空间属性进而实现场景有意义的描述。算法验证的是全局统计特征能够在图像场景中用于分析对象是否存在，因此不必分割图像以及面向对象进行分析。
   Yavlinsky等人[5]也开始寻找仅通过图像的全局特征进行语义标注的可能方法。把基于鲁棒的非参数密度估计方法作为它的建模框架，所采用的是核平滑技术，主要研究的了各类全局图像特征对图像标注性能的影响大小，同时也显示了EMD距离标准能够有效地与该框架整合利用。结果表明，它的标注效果相当于推理网络方法以及基于CRM[6]方法的效果。而且该算法能够有效证明，在Corel数据集［7］上仅通过全局颜色信息完全能够达到非常好的标注效果。
   该类方法的优点在于，能够省去对图像区域进行分割、区域进行聚类以及面向对象进行国内分析等步骤。然而一般来讲，图像的全局特征仅适合表示简单或背景单一的图像，例如建筑物图像、纹理图像等。因为人眼在对图像进行观察时，经常无意识地把图像分解成两部分，即前景目标以及背景区域，所以当用户在对图像进行查询时，他们所侧重的是，该图像中是否有特定语义的特定目标或区域，而不是该图像的背景区域部分。图像的全局特征描述的仅仅是粗粒度的语义，而并没有考虑到图像中前景与背景之间的差别，所以无法反映出图像的细节语义，标注性能也就不能满足用户的需要。随着不断深入探究发现，与提取全局视觉特征相比，提取区域底层视觉特征与人们对图像语义的理解更为相似，因此，应运而生的是基于区域划分的图像标注技术。
基于区域划分的图像标注方法
   该方法的基本思想是：首先依据特定的分割算法把图像划分为多个同质的区域，并同时把这些区域的底层视觉特征提取出来；其次通过使用机器学习算法，进而能够得到图像与标注词之间的相关联语义。由实验中所采取的不同方法，我们可以将基于区域分块的标注算法主要分成三类：基于分类的自动图像标注算法、基于概率关联模型的图像标注算法以及基于图学习的自动图像标注算法。图像标注技术的研究现状:http://www.751com.cn/yanjiu/lunwen_19228.html