基于矩阵低秩分解的图像标注增强问题研究(2)

1 引言

1．1 研究背景、目的与意义

随着数字图像技术的飞速发展，我们在日常生活中所接触到的图像，其数量正在日益以指数型的趋势增加。这样的主流趋势，致使对数以万计的图像进行有效检索的技术的诞生与发展成为迫在眉睫的需求。论文网

如今，图像检索的方法大体上可以被归结为两类：一类是基于内容的图像检索（CBIR）[1]，另一类是基于关键词（即标注）的图像检索（TBIR）[2]。CBIR的方法用一幅图像本身作为查询，基于所查询的图像和其它图像之间的视觉相似性来匹配图像；它通过从图像中提取各种视觉特征，包括整体特征（如：颜色、质地、形状等）和一些局部特征，来对比图像之间的视觉相似性。尽管CBIR的方法已经被研究了十余年，其中也取得过一些有效的成果，但是它依然有三个局限性存在，从而限制了发展[3]。其一，由于在低等的视觉特征和高等的隐含在图像里的寓意之间存在“语义鸿沟”，CBIR的方法精确度一般较低。其二，由于视觉特征的维数很大，CBIR的方法效率一般较低。其三，由于可能没有合适的图像做查询样本，CBIR的方法便会不好实现。相比之下，TBIR的方法只是通过关键词（即标注）来完成对图像的检索，它允许用户提出他/她个人的信息需求作为本文查询，并且寻找基于关键词（即标注）来匹配有关的图像。与视觉信息相比，文本信息从本质上缓和了起因于“语义鸿沟”的挑战，反映了人对语义概念的理解，同时提供了低维度的信息，这使得TBIR的方法通常在识别、检索有关图像时更加正确、也更加高效。

在TBIR方法中所用到的本文查询可以是图像标题[4]、副标题、图像的描述说明、标注[5]等信息，但一般说来用户所提供的标注更加符合语义概念，对图像的描述也更加具体。尤其是如今随着网络图像规模的日益增长，基于标注的图像检索在实际应用中的需求越来越多。尽管如此，TBIR的方法依然难以达到非常好的效果，因为用户所提供的标注的可利用性和质量一般较低，使得对图像视觉内容的描述相符程度较差；同时不到10%的本文查询字被用来当作图像的标注，使得许多真正有用的标注正在从数据库中丢失。因此，为了快速、有效地实现基于关键词（即标注）的图像检索，满足用户对图像的正确、完整语义描述的需求，我们对图像标注进行完善的工作显得十分有必要。文献综述

1．2 整体框架设计

针对上述所说的标注不完整、不准确等问题，在本文中，我们基于矩阵低秩分解（low-rank）的方法完善标注的质量。我们采用一个标注矩阵D来表示标注与图像的关系，其中每行对应一个标注，每列对应一幅图像；矩阵中的每一项（i，j）都是实数，为1则表示图像j中有标注i，为0则表示图像j中没有标注i。经过低秩分解和若干次的迭代，我们最终得到一个完善的标注矩阵A和一个错误的标注矩阵E，即D=A+E。在这个标注完善的过程中，我们主要利用了图像和标注中的四个要素：

●低秩。本文查询的现有工作已经证实，文本关键词所构建的语义空间可以被一个取自于最初关键词集合的子集所构建的语义空间近似替代。如此一来，低秩的特性便得到了实现。

●图像内容一致性。从庞大的图像数据库中，我们可以看出，一般来说视觉上相似的图像反映了同类主题，同时也被在语义上相近的标注所注解。因此，内容一致性反映了视觉水平和语义水平之间的内在关系。

●标注相关性。同样地，与图像相关联的语义标注一般不会孤立地出现，而是与其它在语义上接近的标注同时出现。因此，标注相关性进一步体现了标注在语义水平上的内在关系。基于矩阵低秩分解的图像标注增强问题研究(2):http://www.751com.cn/jisuanji/lunwen_72183.html