第四章是系统设计实现与性能分析,讲述了实验数据的准备,系统设计实现及以及对实验结果分析。首先对所有用户标签及机器推荐的用户标签作对比分析,接着对单篇博文的标签推荐效果进行分析,再次对单个博主的所有标签推荐进行分析,最后对科学网标签时间走势图进行分析。
最后一章是总结与展望,本章中会阐述本文中所完成的工作,并对未来研究进行展望。
2 文献综述
本文相关工作分为关键词自动抽取,标签的自动抽取及标签去图的生成三个部分。以下对这三个部分的相关工作进行综述。
2.1 关键词自动抽取研究概述
一个关键词是一个简短的词组(它通常包含一到三个单词)。它提供了一个文档的关键思想。一个关键词列表是指一个短的关键字清单(一般为10个词组),它反映了一篇文档的内容,通过这样方式能获取主要讨论的议题,并提供其内容的简要[3]。关键词抽取,顾名思义,是从文档内容中寻找并推荐关键词[4]。一般关键词抽取分为以下两个步骤:
2.1.1选取候选关键词
从文档中选取候选关键词的难点在于如何正确判定候选关键词的边界。寻找正确的短语在多种任务中都涉及到,目前在英文关键词抽取中,一般选取N元词串(N-gram,N一般为1-3),然后通过计算N元词串内部联系的紧密程度来判断它是否是一个有独立语义的短语。该任务与搭配抽取(collocation extraction)和多词表达(multi-word expression)抽取任务类似,都需要准确地判断边界[4]。
搭配抽取曾尝试多种方式试题内部紧密程度[5],如均值与方差(mean and variance)[6],t测试(t-test)[7],卡方测试(χ2 test),点互信息(point-wise mutual information)[8]和二项拟然比测试(binomial likelihood ratio test, BLRT)[9]等。Tomokiyo和Hurst[10]提出利用语言模型试题词串内部联系的紧密程度。Silva和Lopes[11]提出使用多词表达抽取技术提取候选关键词[4]。
Hulth[12]则发现大部分关键词是名词性词组,符合一定的词性模式,如“形容词+名词”是最常见的模式。因此可以选取符合某种词性模式的词组作为候选关键词[4]。
2.1.2抽取关键词
现有的关键词抽取方法可分为有监督和无监督方法:
(1) 有监督学习方法
该方法将关键词抽取问题作为一个分类任务。在这种方法中,通过训练文档来构造一个模型。这些文档被已经被人标记了分配给它们的关键字[3]。
Peter Turney[13-15]是第一个系统阐述将关键词抽取作为一个有监督学习的问题。根据Turney的理论,文档中所有的词组都是潜在的关键字,但只有那些与人们分配的词组相匹配的词,才被认为是“正确的”关键字。Turney使用了一套参数启发式规则和遗传算法来完成关键词抽取过程[3]。
另一个值得注意的关键词抽取系统是KEA(关键词提取算法)[16]:它根据贝叶斯定理建立一个分类器来训练文档。它采用分类来从新的文档中抽取关键字。在训练和提取阶段,KEA根据字形的边界(如标点符号,换行等)分析输入文件,并利用两个文档特征:TF×IDF(长期频率×逆文档频率)和首次出现的词语[3]。
Chen[17]等人提出了从网页中提取关键词的实际的关键词提取系统。Chen等人利用回归模型来训练专家标记的文件,从新文件中提取的关键字句[3]。
Hulth[12]在确定设置的候选词中引进了语言知识,即词性标签(POS),她用56潜在的POS模式在文本中确定候选词。她的实验表明,使用具有选择功能的POS标签,可以显著改善关键词提取结果。另一个具有基于语言功能的系统,是LAKE(关键词提取的学习算法)[18]:它利用语言知识识别候选词的身份,并在最终的关键词选择中运用朴素贝叶斯分类。功能选择和学习模式是任何的关键词提取过程中的两个关键点,这个过程被当作一个分类任务处理[3]。 社会标签系统挖掘研究中文博客标签及标签云图的自动生成研究(4):http://www.751com.cn/jisuanji/lunwen_9456.html