表4. 1 博文类别分布表 16
表4. 2 两种算法的Overlap@N 22
表4. 3 博文1三种标签对比 22
表4. 4 博文2三种标签对比 24
表4. 5 博主个人信息与用户标签 26
1 绪论
1.1 选题背景
社会标签系统是允许用户对网络资源(如照片、博客、链接、地图、视频等)以个性化的关键词(Keywords、Tag),并共享Tag以通过Tag的聚合和相关度来实现信息组织的系统[1]。
博客(Blog)作为一种网络日志的形式,成为网络上的主要应用之一[2]。随着博客的发展,博客页面的数量呈指数级别上升。人们能过Blog发布自己的信息,也可以通过浏览别人的博客了解到自己感兴趣的知识和话题,博客逐渐成为一个人们共同发布信息、传播信息、发现信息的重要途径。
标签是Web2.0的特色元素。Tag(标签)是一种特殊的用户对信息的描述方式,即用户在数字资源上标记的关键字,借此实现对信息的基于关键词的分类和搜索。Tag本身具有非正式和个性化的特征 ——也就是说,Tag不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。
对于博客而言,标签是一种更为灵活、更优越的描述博文的方式,博主在每篇博文中,可以使用自由选择的词汇作为标签(Tag)来对文章进行主题标记,也可以使用机器推荐词汇作为关键词。
1.2 研究意义
我们的前期调研结果表明,目前,绝大多数中文博客网站标签自动推荐的Keyword或Tag效果并不好(如科学网博客 ),有些网站尚缺乏有效的标签云图对标签进行有效组织。图1.1为两个典型的标签云图。
(a) (b)
图1. 1 标签云图
针对目前中文博客系统尚无有效的标签生成系统这一现状,本文主要研究如何使得机器自动生成的推荐词汇更加契合文章的主题、并根据博主的一系列博文生成标签云图(Tag-Cloud)。
本文借鉴各种基于文档的关键词抽取技术、特别是多文档关键词提取的技术,选择一个真实的较大规模的数据集,即科学网博客数据集,开发一个文本标签自动生成系统,并在线生成博主每篇博文和全部博文对应的标签云图,以更加直接的方式展示各博主个性化特征。
1.3 本文的研究思路及内容
1.3.1本文的研究思路
本文首先对关键词自动抽取、标签抽取及标签云图的相关研究工作进行介绍、然后从ICTCLAS分词系统 、TextRank算法 、用户标签生成及标签云图生成四个方面讨论研究内容。最后采集科学网博客6万多篇博文,设计一个在线标签推荐及标签云生成系统。总体思路如图1.2所表示:
图1.2 本文的研究思路
1.3.2本文的组织结构
本文分为如下5个章节。
第一章为绪论,主要分析本文的研究背景,解释社会标签系统及中文博客标签及标签云图,并指明本文的研究意义,同时简单描述了本文工作。
第二章为文献综述,主要总结了关键词自动抽取技术,从有监督和无监督两方面介绍了各种关键词抽取方法。从标签自动抽取,标签推荐两方面阐述了标签自动抽取技术。最后分析了标签云图的表现形式和表现方法。
第三章为主要研究内容。首先描述了中国科学院ICTCLAS分词系统原理,再次,讨论了TEXTRANK关键词抽取算法和用户具体的标签生成方法,最后描述了标签云图的生成和展现。 社会标签系统挖掘研究中文博客标签及标签云图的自动生成研究(3):http://www.751com.cn/jisuanji/lunwen_9456.html