2.3.2 用户行为与标签质量的关系 5
2.4 标签质量评估研究工作 6
3标签质量及标签质量测评系统研究 7
3.1 社会化标签类型研究概述 7
3.2 本文的标签类型划分 7
3.3 标签质量评测系统研究 9
4 标签质量评测系统的设计与实现 11
4.1 数据来源 11
4.2系统的设计与实现 11
4.2.1 系统功能和框架 11
4.2.2 具体功能实现 13
5 标签质量评测结果分析 20
5.1 标签类型统计分析 20
5.2 标签质量相关统计 21
5.2.1 标签质量统计分析 21
5.2.2 标签质量相关性分析 23
6 总结与展望 25
6.1 本文工作总结 25
6.2 不足之处 25
6.3 展望 25
致谢 26
参考文献 27
1绪论
1.1选题背景
Web2.0不再是个模糊的概念,其具有的信息交互性、提倡个人体验等新特点,为用户在网上进行信息的交流与共建提供了一个全新的平台[1]。blog是Web2.0最典型的代表技术之一,人们通过blog发布自己的信息,也希望通过浏览别人的blog,了解自己感兴趣的知识和话题,blog逐渐成为了一个人们共同发布信息、传播信息、发现信息的重要途径。对于blog而言,标签是一种灵活、有趣的文章或图片等信息方式。用户标注的社会标签也被广泛用于学术博客的组织与检索,主要有组织博文和检索博文两大作用[2]。论文网
现如今,从Web上获得的大量的标签数据结果表明,来自不同背景的网络用户难以想象的速度注释网上的资源(即标签)[3]。然而,随着用户编辑标签更加自由,并不是所有的标签都是有用的和相关的,尤其是当这些标签是一些怀有恶意的垃圾邮件发送者所产生的。因此,识别高质量的标签是至关重要的,这就对标签的质量评估工作提出新的要求。
1.2研究意义
对社会化标注系统中的某一资源而言,一个标签使用的频率越高,就表示越多的用户倾向于用该标签来表示资源的特征,这些为大部分用户所认同高频标签可以认为是标注中的一种规范。然而,由于存在认识不全面或者是知识结构中局限性,部分用户所添加的部分标签会偏离主流用户的观点,这些标签只能代表小部分用户观点,缺乏普遍的意义。如果将用户在标注中的偏差标签吸收到用户模型的构建中 无疑会影响信息推荐的准确性[4]。文献综述
目前关于社会化标签质量评估方面的研究还未引起学术界的重视,仅有少数学者对此问题进行研究,缺少社会化标签质量评估的公开测试数据集。本工作的目的就是开发让志愿者对标签质量进行打分,对标签类型进行划分的公开网站。通过测试数据的收集,对未来的标签质量的评估提供训练数据集与测试数据集。
1.3本文的研究思路及内容
1.3.1本文的研究思路源[自[751``论`文]网·www.751com.cn/