3)微博文本数据预处理
文本去重、短句删除的意义在于当进行机器学习模型训练的时候,训练集中有相同文本或者文本的词数过少,会导致模型的性能降低。筛选的意义在于去除掉那些对训练没有帮助的微博数据,筛选的方式分为两种,第一种为过滤掉用户转发的微博;第二种过滤用户参加某种微博活动而自动转发的微博。
4)微博文本相似度分析
利用TF-IDF算法和余弦函数计算两个学校微博之间的文本相似度。
5)基于机器学习的中文微博情感分析
通过机器学习分析的方式计算微博的情感倾向,目前是情感分类领域的主流方法,也是本文研究的重点。①在训练集的选择上,选择CCF自然语言处理与中文计算会议发布人工标注的评测数据。②选择五文非文本特征、八文非文本特征、高文的文本特征进行在SVM、NB、LR分类器下的组合实验。
6)基于词典的中文微博情感分析
通过词典的方式计算微博的情感倾向,其中情感词作为特征,并在情感倾向加权计算时,加入程度副词、否定词、感叹句以及特殊词,进行对整条微博进行情感判别。
7)可视化交互
结合JavaScript、html、css编写用户可交互界面对分析结果进行展示
8) 利用Django实现一个在经过设计了相应的算法去分析和统计和处理数据之后的数据展示系统。
总技术路线图如1所示:
1 总技术路线图
2 情感分析相关理论与技术
2.1 微博的简介
2.1.1 微博文本的简介
微博(weibo)是新浪公司推出的一款可以实现用户状态分享、即时传播的社交平台,其内容长度限制在140字以内。用户可以通过多种渠道包括WEB端、PC桌面端、手机端,随时随地地更新信息。
随着近年来,微博版本不断升级,用户发布的微博中可以加入话题、音频、视频、图片、网页链接等多种流媒体,使得微博的内容越来越多样化,极大化的发挥了微博的特性。
2.2 相关任务的定义
2.2.1 微博主客观的定义
主观微博是带有人们情感色彩对某一个发生的事情或者是某一个事物进行讨论,是人们表达想法的微博句子;客观微博是不带有人们情感色彩的微博句子,一般是对客观事物的说明。例如表1:
表1 微博主客观定义表
主客观性 内容
主观 <sentence id=“1”> #iPad3#我除了满意屏幕以外,其他都表示很无语,有很大的意思去买吗?</sentence>
主观 <sentence id=“2”>#iPad3#没了老乔的苹果能走多远呢?</sentence>
客观 <sentence id=“3”>#iPad3#新一代iPad将于3月16日在北美、欧洲、中华区等地区首先发售。WiFi版售价为16GB 499美元、32GB 599美元、64GB 699美元。</sentence>
客观 <sentence id=“4”>#iPad3#嘉宾认为这次ipad为什么没有新名字?<sentence>
对于sentence id 为1的句子,句子中的“满意”屏幕,对于其他都表示很“无语”,表达除了新ipad的屏幕以外,对于其他功能的升级并没有达到预想程度的失望之情,是带有主观评价的主观句子。sentence id 为2的句子,苹果公司高管的能力持观望态度,也侧面表达了对乔布斯能力的肯定,是一句主观句。sentence id 为3的句子,说明了新一代的ipad在何时何地首先发售以及发售价格,讲述了客观的事实。sentence id 为4的句子,为一般的疑问句,没有表达任何的情感倾向,是一句客观句。 基于词典与机器学习的中文微博情感分析(3):http://www.751com.cn/jisuanji/lunwen_18829.html