图1:说明语义鸿沟的几张典型图片
对机器学习技术,通常大量可靠的已经标记的样本图片在学习过程中是必需的。而人工标记一个巨大的数据集是非常乏和耗时间的。为避免人工标记,一些基于网络图片和相关标签的方法被设计出来,然而标签中的一些噪音会传播到没有标签的图像上导致最终结果不尽人意。即使经过去噪处理,在引文[17]中的MAP值据报道也仅仅是0.16,这距离实际应用还远得很。
前文提到的自动标记法让我们从图形标注的最初目的来思考图像标记。图像标注的初衷是分配具有语义的标签给图像,自动标记的目的在于减少人的工作量。既然这样,如果我们设计一种可以一次性标记很大数量的人工方法,我们也达到了图像标注的目的。同时,标注结果将更加灵活,普适和准确,尤其对于那些有着巨大语义鸿沟的标签更是如此。
在此论文中,我们提出一种新颖的框架来用尽量少的图人力标记大规模的图片数据。由于如果一个标签准确描述了一个图片的一个或几个局部区域,那么这副图像就跟这个标签是相关的,因此我们可以把一幅图片分割成几个区域。然后设计一种动态多尺度集群标注方法来人工标注这些区域。在这个方法中,我们首先将图片分割后的不同区域利用高效的LSH算法映射到不同的桶中,这一步可被看作是粗糙的群聚,每一个桶都是一个集群。然后每一个集群被递归分成更小的集群直到所包涵的区域足够相似到可以用唯一的标签来描述。整个标注过程中,在我们标注完成几个桶后,局部的标签被反馈回来以改善哈希方法。待我们完成标志后,局部的标签会合并到整个图像的标签里。最终标签改善方法会被整体用来改善图片的标注。
整个过程中,我们仅需要标注多尺度的不同区域的聚集而不是一副单一的图像,这就使我们可以一次标记成百上千的图片了,因此人力成本大大节约。同时,人工标记法极大地保证了标签的准确性。在多尺度图像集NUS-WIDE上的试验表明人工标记法比自动标记法要有效的多,尤其对于具有大规模语义鸿沟的标签更是如此,同时,这种方法也相对更高效。据我们所知,这是第一个致力于研究大规模快速人工标注图像数据框架的工作。
2. 多尺度集群标注2.1 框架预览
图片2:快速人工标记法流程图
图像2阐释了提出的用于快速人工图像标注的多尺度集群标注框架。我们把流程图总结如下:
a. 我们把图像集里的每一副图片分成几个区域,每个区域用一些低级的特征来描述。把图像进行分割有两方面的理由:i)很多与图片的标签实际上是与图片的局部相关而不是整幅图片ii)和个别标签相关的局部特征要比相较于总体特征更可信。
b. 我们利用LSH映射所有未被标记的局部到不同的桶中,在这里哈希用来非常高效粗略地聚簇区域。我们用哈希来粗略的cluster是因为哈希能将相似的区域分派到同一桶(尽管它不能将所有相似的分配到同一个桶中但分配到同一个桶中的图像取样大体是相似的),在这里局部图像集是非常大的,用传统的聚类方法是非常费时间的。还有,在此步骤聚类分析没必要太精致因为要为如此多的聚类找到唯一的标签是非常困难的。这一步的目的是:i)有效地把一个大的聚类分成小的次级聚类以用更精致的聚类分析方法继续分析。ii)移除和背景相关的大的聚类
c. 我们选择最大的m个桶,然后用递归多尺度聚类方法人工标注每个桶中局部区域的聚类,这种策略后面详谈。在这里人工标注用在多尺度的聚类上而非单个图片上,这样相较一副一副图的标注节省了大量的人力。我们首选大桶进行人工标注,因为数据集中大量的局部区域和背景有关,二这些往往会被分派到大桶里。这样我们就能在大桶中很快地移除很多背景元素,这将帮助我们在接下来的聚类分析中提高准确性和效率。 图像标注中的高效用户反馈技术研究(2):http://www.751com.cn/tongxin/lunwen_8938.html