有监督的方法可以通过训练学习调节多种信息对于判断关键词的影响程度,因此效果更优,但在信息爆炸的网络时代,标注训练集合非常耗时耗力;更何况文档主题往往随着时间变化剧烈,随时进行训练集合标注更不现实[4]。
(2) 无监督学习方法
该方法消除了训练数据的需要。这种方法一般从给定的文档中选择一个候选词组,它使用一些计算排名的策略从文档中选择最重要的候选词作为关键词[3]。
(a)TFIDF
最简单的无监督的关键词抽取方法是1988年的Salton和Buckley[20]使用的TFIDF方法(term frequency-inverse document frequency)来排名候选关键词并选择排名靠前的候选词作为关键词。TFIDF仅根据候选词的统计频率来排名,可能会遗漏一些低频率的关键词[19]。
(b)TextRank
2004年,Mihalcea和Tarau[21]提出一种基于图的排序算法TextRank,用以进行关键词抽取和文档摘要。该方法的基本思想是将文档看作一个词的网络,该网络中的链接表示词与词之间的语义关系。基于与PageRank相似的思想,TextRank认为一个词的重要性由链向它的其他词的重要性来决定,利用PageRank计算网络中词的重要性,然后根据候选关键词的PageRank值进行排序,从而选择排名最高的若干个词作为关键词[4]。
在TextRank算法中,低频率出现的词将会受益于邻近的高频率出词,从而比用TFIDF算法中的排名要更靠前。这从某种程度上削减了词汇差距的问题。但是,在TextRank算法中,关键词抽取中仍然趋向于选择高频率的候选词,因为这些词可以与别的词有更多的链接的机会并且获得更高的PageRank值。此外,TextRank算法通常仅通过词的共现次数作为词与词之间的大概的语义关系,来构造一个词表图。这将会因为语义有关联但没有联系的单词而引入很多的噪音并且高度影响抽取结果[19]。
2.2 标签自动抽取研究概述
由于互联网上用户产生的标签是大量的并且大多数是随意的,这就使得用户要检索到有用的信息变得愈来愈难。于是学者们开始探索如何从大量标签中抽取出有意义的高质量的标签,对于标签的生成研究主要可以归结为两大类型。
2.2.1标签自动抽取
研究者通过标签的文本特征(如标签出现的频率、比例等)实现标签抽取,如Shilad等探索了通过标签的文本特征发现高质量的标签[22];Xian Chen等使用标签的文本特征、社会特征(如不同用户的标签共现频率)及贝叶斯分类法来发现与用户兴趣相关联的标签,他们的实验还发现文本特征有利于发现高质量的标签,而社会特征则有利于抽取有关于用户社会活动的有用信息[23]。还有部分研究者则是利用被标记的网页之间的联系实现标签抽取,如Fabian M.等通过分析标签的语义特征、标签之间的关系以及被标记的网页之间的内容来发现有意义的标签,并且发现越是流行的标签越是有意义的,另外他们通过对4000名参加者的研究发现有近三分之一的标签是由于推荐而被使用[24]。
2.2.2标签推荐
标签推荐把用户从人工为资源定义标签的费时工作中解放出来,使自由分类能够得到广泛应用。标签推荐通过向用户推荐一些潜在的、与资源内容和用户使用习惯相符的标签。它主要是利用标签-对象-用户之间的网络关系进行标签抽取进而实现标签推荐[25]。
目前标签推荐算法主要有基于协同过滤的标签推荐、基于图论以及基于文本的标签推荐[25]。如Xu等根据对象以往被标注的标签情况以及用户的标注行为对相关URL进行标签抽取并实现标签推荐[26];Adam Rae等人利用Flickr上的用户社会关系网络来抽取标签网络再进行标签推荐[27];ZSigma等是利用用户的协同标注行为为博客用户自动推荐相关标签[28]。钟青燕等人提出了基于层次聚类和语义的标签推荐,提高了标签推荐的预测精度[25]。清华大学刘知远提出利用词对齐技术的社会标签推荐,给定一个标签标注集合,需要训练一个标签推荐模型,可以对给定新的文档推荐相关标签[4]。 社会标签系统挖掘研究中文博客标签及标签云图的自动生成研究(5):http://www.751com.cn/jisuanji/lunwen_9456.html