2 社会化标签与文献主题描述概述
2.1 社会化标签概述
2.1.1 社会化标签的定义
目前,国内外对社会标签的概念仍然没有一个统一的定义,国外社会标签(social tagging)等同于folksonomy, collaborative tagging, social classification, social indexing。在我国,社会标签又被称为合作标签、社会分类法、社会标引[4]。
Folksonomy词汇的创造者Thomas Vander Wal认为标签既是对一个实体的描述,也是一个分类的过程[5]。同样的,T.B.MUNK与K.Mork[6]也指出,社会标签的本质即是用户自主创造的具描述性的元数据并应用在文本的标注和分类中。Ornella[7]将社会标签定义为,允许用户以交互方式对共享的资源使用一套非结构化的描述性用语。标签可用来导航、浏览并检索资源,已经成为在Web2.0环境下添加元数据资源并帮助传播思想、知识、流行趋势与时尚的一个主要的手段。司宪策[8]认为标签可以是任意一个不含空格的词或词组,甚至是用户自己造的词。与传统的索引方法相比,社会标签在标注词的选词范围和选词个数上都没有强制要求,是一种非常松散自由的方法。
2.1.2 社会化标签的应用
自从2004年社会标签产生以后,研究社会标签的文献增长非常快。无论是在图书馆、计算机领域,还是在教育、企业、商业和社会传媒领域,对社会标签的研究和应用都备受瞩目。Gene Smith[9]将社会标签定位在三个重要领域的交叉部分,这三个领域是:信息构建、社会软件和个人信息管理。社会标签的应用研究主要集中在社会标签在图书馆信息服务、图书馆编目、博物馆、企业以及教育领域应用与分析。
社会标注作为Web2.0环境下信息组织的方式之一,社会标注从作用上来讲就是分享标签所指的url链接中的信息资源,这些信息资源可以包括文献记录、博文、电子商务网站的商品、网络书签等等[10]。社会标签是用户以关键词的形式增加元数据来实现信息共享的过程[11]。田莹颖[12]觉得社会化标注是一种以人为本的、灵活的组织和管理在线信息、进行网络信息分类的方式,大众分类更近乎个人的知识体系,它的使用以个人的感性逻辑为线索,以个人所需信息的汇集、梳理和查询为目的,以个人的经验为基础,它不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。我们可以为每篇日志、每个帖子或者每张图片、每个视频,甚至我们认为需要或可以添加标签的任何网络信息资源都添加一个或多个标签。标签体现了群体的力量,使得内容之间的相关性和用户之间的交互性大大增强。网络用户可以通过添加多个标签为网络资源分类,也可以通过搜索某一个或几个标签发现其他用户具有相同标签的资源。
2.1.3 基于社会标签的标签分类系统
如今比较流行的网站几乎都能允许用户为特定的内容添加标签,即用户能够以自己指定标签来描述网站、图书、图像以及任何形式的资源内容。这实际上是一种公众分类法,是一种让用户使用自然语言对信息进行揭示的方法,也是一种根据社会大众标引内容形成的分类系统。
这种分类法是由用户个人自发性定义的。标签分类是公开共享的,可以被所有人看到,这种分类法是有用户群体定义的频率来决定的。
杨丹等人[13]认为用户对其发表的信息进行标注,系统把所有具有相同的标签信息归类整理,形成了一种全新的信息分类。在传统的Category分类方式中,信息几乎是固定的从属于某一个预先定义好的分类;而自由标注所特有的N对N对应方式,则将信息分类工作推迟在信息产生之后。标签是用户对信息内容的高度概括,带有用户的主观认知特点,而基于分词技术中词频分析得到的信息关联则是纯粹客观的算法,抹煞了信息的主观性。由于信息提供者比外来用户更加清楚自己的表述含义,所以用户自由标注所用的词语虽然可能在全文中的词频不高,但却比词频高的其他类型关键词更加能够反映出整个信息的特征。此外,基于词频分析的信息关联假设基础是:词频高的特征词更加能够代表信息的重点特征,从而决定信息内容在信息网络中的位置。但事实上,特征词的有效性很难定义,而特征词词频对信息内容的概括性也无法保障。而基于用户标签的信息关联的假设基础是信息创作者最了解自己文本的意义,其选择的关键字应该是最具有概括性的。 社会标签系统主题关键词与用户标签比较研究(3):http://www.751com.cn/jisuanji/lunwen_7520.html