2.2 标签与大众分类法
标签是一种准确、灵活、开放的分类方式,是用户为自己的文章、图书、视频等电子信息资源定义的一个或多个描述[ ]。标签可以是有关任何方面的:可以是对资源主题、所在位置、预期用途的描述、一种提醒,或是完全不同的其他东西。标签可以是单独的词(如天气),也可以是短语(如美丽的风景)。
标签肯定是元数据,但是其并不容易被分到诸如描述型、管理型和结构型这样的类别中[ ]。人们基于不同的原因进行标记,对标签类型的分析很难详尽无遗。有时标签完全是个性化的,其含义和目的只有创建者知道。表1是标签作为元数据履行的7种功能的标签类型和相应的示例。
表 1 7种标签类型[7]
标签类型 示例
描述型 Css、webdesign 、ajax 、Minnesota、 drama 、gardening zen 、microfinance 、music 、halo3 、networks 、sushi、 hibascus
资源类型 Blog 、book、 viedo、 photo
所有权/来源 Nytimes 、genesmith 、newriders
观点 Cool、 funny 、lame 、beautiful 、crap 、defective by design
自我引用 Mystuff、 mine、 me
任务组织 Toread 、tada 、work
比赛与演出 Squaredcircle、 seenlive、 aka、 vogon、 poetry
大众分类法(folksonomy)已经成了一个描述源自社会化标记的自底向上分类系统的人们术语[ ]。其他分类系统定义了术语或术语所指的概念之间的关系(广义、狭义、等价、相关)。在大众分类法中,标签之间的关系是基于它们的使用模式来推断的[ ]。大众分类法是web2.0时代下的产物。互联网上的信息瞬息万变,传统的分类法无法满足现如今这种快速变化与更新的时代,而大众分类法恰好弥补了这个缺陷,它允许人们自由地对内容进行标注,所以在某种程度上有随意性、个性化的特点[ ]。大众分类法充分体现了人们的智慧,人们可以凭借自己的理解和喜好对信息进行个性化地组织和标注。所以在大众分类法下,新词语、新话题、新热点一下子就能显示出来,人们可以很容易地检索到自己感兴趣的话题。
与其他分类法不同,大众分类法并不为标签设定语义关系,标签之间的关系需要根据内容来推断。它可能没有事先确定好的语义关系,但确是能够真实地反应用户的行为。目前对大众分类法下的标签进行分析,推断语义关系的方法主要有以下几个[7]。
对标签进行计数。通过计数来看看哪个是最热门的,这是最简单的考察标记模式的方法。
同现(co-occurrence)算法。计算哪些标签是一起使用的,对于任何给定的标签,计算其他标签与它一起使用的频率,这就得出了一个统计相关的标签列表。同现算法粗略地估计了词典中的相关关系。
聚类算法(clustering)。着眼于两个标签的同时出现,从而计算其概率。然后,通过将其具有高同现概率的标签进行分组,标签的聚类就被计算出来了。
现国内对于Hashtag的研究还比较匮乏。
国外对于Hashtag的研究主要包括:对Hashtag的介绍[10-12]、Hashtag一些相关研究方法[13-16]以及Hashtag的应用[17-20]等。
在Hashtag介绍方面,Charles Darwin提到Facebook和Twitter成为一种文化现象,致力于实现连接全世界人民的目标[ ]。他强调了连通性的概念,将社会媒介运用其中。Krystal Evans说到许多学术会议利用社会媒介站点,例如Facebook和Twitter,联络组织者、报告人和代表[ ]。