毕业论文

打赏
当前位置: 毕业论文 > 新闻传播论文 >

网络舆情分类研究+文献综述(3)

时间:2018-11-14 21:36来源:毕业论文
1) 建立数据集 得到收集文本数据后,中文文本相对于 英文 文本有很大的区别,因此在进行分类前,首先应该针对中文文本进行分词、去停用词等。并且将


1)    建立数据集
得到收集文本数据后,中文文本相对于英文文本有很大的区别,因此在进行分类前,首先应该针对中文文本进行分词、去停用词等。并且将数据人工分为测试集和训练集。
2)    建立文本表示模型
文本分类基于文本的特征所趋向的领域。文本特征是指能够突出地代表待分类文本的主要内容,为了降低文本分类的处理数据复杂度,有必要提取出文本内容的特征项进行代表文本内容,从而能够提高文本分类处理方法的性能和精度。
通过数学模型实现机器对文本的特征提取。不同的数学模型,所提取特征的效果不同。现阶段文本表示模型主要有两种:空间向量模型和布尔模型 网络舆情分类研究+文献综述(3):http://www.751com.cn/xinwen/lunwen_25833.html
------分隔线----------------------------
推荐内容