社会标签系统主题关键词与用户标签比较研究(5)

本实验旨在研究标签与关键词的之间的差异，通过对比分析，找出关键词与标签在不同领域下相似度的差异以及标签与关键词各自的优缺点。
3.2   实验数据的准备
我国现在网络上流行的标签系统，例如百度、腾讯、新浪、优酷都有自己的自行标引平台，为了更全面的对社会标签和主题关键词的比较研究，笔者选择在豆瓣读书中的图书、新浪博客中的用户博文、优酷视频的视频标签，作为标签的来源，拟定为每种数字对象随机抽取300个原始数据作为研究对象。这三种数据来源中，数字对象的本身只含有标签，并没有带有关键词。笔者对三种数字对象的关键词提取方案如下：对于豆瓣读书中的图书，通过中国国家图书馆的馆藏资源检索，直接获取其编目数据中的主题词作为关键词；对于纯文本的博客，利用关键词自动抽取工具进行关键词的提取；对于优酷的视频，其中新闻报告之类的视频，通过寻找与其关联的文本报道中提取关键词，而大部分视频通过其简介与视频标题共同提取关键词。
对于每一个选定的信息源，对其标题、关键词、标签进行记录，记为Fx（ki,tj）,其中 ki代表信息源Fx的关键词，tj代表信息源Fx的标签，最终获得每组300个共900组的关键词—标签组合，3组数据分别如附件1-3所示。
3.3   基于搜索引擎的标签—关键词比较
3.3.1   标签——关键词的相似度分析方法概述
词语相似度是个数值，一般取值范围在[0,1]之间。一个词语与其本身的语义相似度为1。如果两个词语在任何上下文中都不可替换，则其相似度为0[22]。关键词与标签相似度的计算的时候，可以将标签与关键词分别放入一个海量的数据库中，获取各自出现的频率，接着将关键词与标签通过“与”操作，得到一组新的词汇，利用这组词汇在数据库中出现的频率，经过计算，得到关键词与标签的相似度，具体方法如下：
本实验以Google作为研究工具，来探讨基于搜索引擎的关键词与标签之间的关系，对于每一组Fx（ki,tj），首先将关键词ki放入搜索引擎的检索狂，记录下Google检索出的相关网页的数量，记作Q（ki）。然后，将与该组关键词相关的标签tj放入检索框，将返回的结果记作Q（tj）。最后，将同一组的关键词ki和标签tj做“与”操作，放入到检索框中，得到返回数目Q（ki∧tj）。定义ki与tj的相关性为[19]：

为了验证关键词和标签的相关性需要一个临界点,本文利用颜伟等在其论文《基于WordNet的英语词语相似度计算》所提供的Sanctity以及其同义词的相似度来确定以值，其中以Sanctity作为中心词，分别将与其相关的10个同义词按照F(k,t)的实验方法放入Google中做相似度比对。并对所求得的相似度取平均，最终得到行为2％。因此我们以2％为界，近似认为C<2％时标签与关键词不相关，反之则相关。
3.3.2   不同标签系统中标签与关键词相似度比较实验
根据上述方法，三种标签系统得到如表3所示实验结果：
表3 三种标签系统中关键词与标签的相似度统计社会标签系统主题关键词与用户标签比较研究(5):http://www.751com.cn/jisuanji/lunwen_7520.html