NUS-WIDE基于信息传播模型的图像标注(2)

1、文本标签的信息量相对较少，不一定能够很好的描述出图像的所有内容；2、图像标注过程中还有一大部分是通过人工标注，这其中的工作量巨大，而如今互联往上流通的图像信息呈爆炸式增长，这样的开销过大；3、文本标签所描述的是一些抽象的信息，人工标注也具有着很大的主观性，不同的人对于同一幅图像可能会存在着完全不一样的理解，这其中缺乏了客观统一的标准，准确性不高。而到了 20 世纪90 年代以后，研发人员为了克服 TBIR 所具有的缺陷，就改良出了对图像的内容语义，如对图像的颜色、纹理、布局等特征进行分析和检索的方法，即基于文本的图像检索技术（Content-based Image Retrieval，简称 CBIR），CBIR 属于基于内容检索（Content-based Retrieval，简称CBR）中的一种，CBR 中还包含对动态视频、音频等其他形式多媒体信息的检索技术。在对发展历程的学习中，我们发现基于内容的图像检索算法与基于文本的图像检索算法在原理上是有很大的差别的，因为两种算法的索引信息从根本上就是不同的，基于内容的图像检索算法通过对图像本身特征的相似度进行处理来完成对训练集的学习。用户可以选择一幅或者多幅具有典型代表性特征的图像来进行查询，随后系统会根据与所给图像的相似度挑选出一系列的图像呈现给用户。相对于TBIR， CBIR 具有如下优势：
1、图像的表现形式相对更加的丰富多样，用户能够通过更多的特征来对图像进行检索；2、图像在内容上的表示完全通过计算机获得，不需要人为的图像标注工作，减少了许多工作量；3、基于内容的图像标注着重于图像本身的视觉内容，更加的客观。但是随着多媒体技术与图像检索技术的不断发展，只基于内容的图像检索技术也暴露出其不可避免的缺陷，由于“语义鸿沟”(Semantic gap)的问题，这种方法也不能够很好的匹配用户的检索意图。所谓“语义鸿沟”是指图像低层可视特征（颜色、纹理、形状等）的匹配，并不能够完全反映出用户更高层次的语义查询，例如：生命、呵护、沉思……为了克服以上的这些不足，人们又提出了基于语义的图像检索技术（Semantic-Base Image Retrieval，简称SBIR），这是一种基于目标和高级语义的图像检索技术，它能够最大程度的减小图像的低层特征与高层语义之间的“语义差距” ，在原有的检索系统中增加高层语义到低层特征的转化过程，可以在不改变现有的图像库和匹配方式的前提下完成对基于语义的图像检索技术的实现。
1.1.2 图像标注技术的发展与意义近年来，随着多媒体时代的高速发展以及手机、摄像机等图像采集设备的不断创新，图像在互联网上拥有着愈发重要的地位，其呈现出的爆炸式的增长趋势就能让我们感受到图像已经成为了我们生活中不可或缺的重要元素。而在这海量的图像信息中，如何能够更好的检索到用户所需要的信息；怎样理解海量用户产生的图像中所蕴含的情感信息等问题引发了无数计算机研发人员的思考。为了解决这些问题，图像自动标注技术的产生就成为了不可避免的，同时，这项技术也迅速成为图像检索工作中关键的一环。从图像标注所使用的训练集来看，自动图像标注技术经历了两个阶段的演变：第一个阶段可以认为是在有限的数据集上进行的图像标注工作，利用了一些传统的机器学习、物体识别的方法，建立出高层语义与低层特征之间的联系，例如：基于分类器的方法、基于翻译模型的方法、基于隐变量的生成式模型方法……第二个阶段主要是立足于互联网数据集的图像标注方法，这种方法相比于前者更多的从其本身的框架以及效率出发，充分利用到了互联网信息资源丰富多样的优势，很大程度的拓展了训练集的范围，因此更加能够适应当今互联网媒体发展形势之下的图像标注，也成为了近年来图像标注领域研究的热点。图像自动标注的关键字能够很好的描述出图像它所具有的高层语义信息，而且避免了人工标注可能引起的一些列问题，并在一定程度上减少了成本，这样就能够实现出基于语义的图像检索技术。图像语义自动标注成为了一个研究热点，但随着研究的展开与深入，这项技术所面临的一些问题也逐渐暴露出来，主要表现为以下的几个方面： NUS-WIDE基于信息传播模型的图像标注(2):http://www.751com.cn/jisuanji/lunwen_41612.html