中英文Hashtag标签的比较研究(4)

针对这一现状，本文从Twitter和新浪微博的博文数据入手，提取其中带有Hashtag的博文，利用分词方法对中英文的Hashtag的词性长度等方面进行比较研究，并且通过数据库和代码编写，以图表的方式更加直观明了的呈现出来。

1.3研究内容

本文以新浪微博和Twitter为研究对象，利用自动抓取爬虫程序工具，抽取微博用户相关信息，对微博内容进行收集、整理、加工和分析。并对Hashtags进行提取，构建分类体系，对数据进行预处理之后将中英文Hashtags进行分类、比较研究，重点比较研究中英文Hashtag在词性、长度等统计特征上的分布情况，最后根据分析结果，提出关于更好利用Hashtags的相关建议。

总体思路如图1所示。

图 1 本文的总体思路

1.4本文主要结构

本文分为如下5个章节：

第一章为绪论，主要分析本文的研究背景，Web2.0时代下微博的产生和发展，并指明本文的研究意义，同时简单描述了本文的研究内容。

第二章为文献综述，介绍了标签和分类系统的相关理论，包括标签的定义、类型及应用。调研了国内外关于Hashtag的研究现状。结合理论研究，在接下来的通过详细介绍数据处理及计算结果，对新浪微博和Twitter的Hashtag进行挖掘分析。来~自^751论+文.网www.751com.cn/

第三章为数据处理流程的总体介绍，主要是对本文关于中英文Hashtag在外部特征以及内部特征分析上的一个总体概括与介绍。

第四章为Hashtag的外部特征分析。抓取新浪微博与Twitter的数据并进行整理、加工和处理。调研科学网平台架构、用户群体特点及Hashtag的相关信息。提取中英文的Hashtag，并对数据进行外部特征分析，主要包括中英文Hashtag的数量、长度、频次以及在微博文中出现的位置等方面的统计分析与处理，使数据更加规范合理，便于接下来的分析与比较。

第五章为Hashtag的内部特征分析，针对爬虫程序抓取的微博数据，对Hashtag进行调查统计分析。具体内容包括：词性标注、构建分类体系对中英文Hashtag进行分类、流行标签的统计分析等。处理过程中使用数据库及java等编程语言处理数据。

最后一章是总结与展望，本章中会阐述本文中所完成的工作，并对未来研究进行展望。

中英文Hashtag标签的比较研究(4):http://www.751com.cn/jisuanji/lunwen_74784.html