基于概率因子模型的社会图像标签细化(2)

了亟待解决的巨大挑战[1]
。
随着网络 2.0 技术的兴起和社交网站的普及，很多图像分享网站允许用户同时作为他们
所贡献图像的拥有者、标注者和评论者，以便在社交媒体对话中对这些图像进行交互或合作
[2]
。图像标注作为2.0 技术的一个新兴功能，成为了用户组织、检索和管理图像的重要手段之
一。
社交网站的流行和用户对自由上传图像等信息的喜爱无疑使得人工手动标注在当前时代
十分流行，然而标注效果时常不好。例如，一些用户可能在输入标签时拼写出错，一些用户
可能会为了节省时间选择“批量标注”[3]
，一些用户可能因为省事直接选择网页上提供的与
图像内容并不十分贴切的标签，从而引起诸多噪声。此外，由于掺杂了许多用户个人观点以
及受到上下文暗示的影响[4,5]
，用户提供的标签时常是不客观的，因此这些标签和大部分用户
可能会对该图像感兴趣的内容之间存在着差距。比方说，一位用户上传了一张宠物小猫的照
片，并贴上标签“小苹果” （宠物小猫的名字），这会使得这张照片出现在查询词为“小苹果”
的搜索结果中，而这张图与小苹果毫无关系。与此同时，由于普通用户在标注标签的过程中
不可能囊括一切，所以很多有用的标签可能会丢失。也就是说，即使这些图像具有用户标签、
评论、描述、地理位置等十分丰富的信息，但这些由用户标注的信息对于图片内容来讲往往
是不精确的、具有主观性的、甚至不完整的。
这些不精确的、具有主观性的、不完整的标签严重限制了社会图像检索与组织管理的性
能。也使得许多与标注相关应用的表现不尽如人意[6]
。本文致力于解决这类标签细化的问题，
即去除社会图像的不相关、噪声标签和补充相关标签的问题。该类问题的妥善解决有利于图
像的管理与检索，也将提高基于标签的应用的性能，具有一定的理论研究、实际应用等价值。
1.2 研究现状
要解决社会图像标签细化的问题，最直接的方法就是人工逐条检查与社会图像相关的每
一个标签，但是这种方法十分耗时耗力，且在图像与标签数量很大时不可行。因此，我们需要一些利用可获得的信息，如根据社会图像内容之间的相关性或者已有的标签来实现社会图
像标签的自动细化。目前为止，研究者们已经对这方面的研究投入了很多努力，提出了很多算法。根据图 1.1
中描述的标注结构，可根据相关工作利用的资源将它们进行分类[2]
。
首先是基于标签-标签关系的方法。作为图像标签细化的先驱，Jin 等人采用词网来估计
已标记标签间的语义关联，并除去薄弱的关联[7]
，但是这种方法由于完全忽略了图像的视觉
内容，故只能达到有限的效果。Wang等人建立了一种在标签间以任意步长重启的可靠传播，
来改善不精确的原始标注[8]
。Xu 等人提出的方法联合模拟标签相似性和标签相关性，并从主
题模型的角度来进行标签细化[9]
。
另一些文章探索了标签-标签、图像-图像、图像-标签之间的协同关系。Liu 等人明确考虑
了标签-图像和标签-标签的关系，并提出了一种双重交叉媒体模型[10]
。由于社会图像标注数
据中十分重要的用户交互总是被忽略，很多研究者探究了图像标签和视觉相似性之间的语义
关联[3,6,11-16]
，以解决噪声和丢失项问题。Liu 等人提升了标签分配，通过在最大化视觉相似点基于概率因子模型的社会图像标签细化(2):http://www.751com.cn/jisuanji/lunwen_20075.html