您现在的位置：毕业论文 >> 论文 >> 正文

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘第6页

更新时间：2016-8-25: 来源：毕业论文

图3.1为分类的流程，首先先获取待分类文本，然后对文本进行分词处理，分词后再统计分词后词的数量，通过这些数量来计算出每个词的词权，也就是数据挖掘，之后再通过分类器进行分类，输出结果。
了解了分类流程之后就可以一步一步的进行功能的实现，而第一步要做的就是文本的分词功能。
3.2文本分词的实现
调用中科院分词系统，是文本分词功能的实现方案，本次研究中所要达成分类的效果，就是需要挖掘出文本中的关键词，而挖掘关键词之前就必须把文本分词，分词之后就能进行统计和挖掘。实施这部分的具体流程如下图3.2：

图3.2 分词流程图
分词流程，首先需要获取待分词内容，也就是文本内容，然后需要装载中科院分词系统的字典，其次调用中科院分词系统进行分词处理，完成后使用空间进行分词结果的显示。
我们使用一个Textbox输入一段题目，用分词系统进行分词测试，并通过Textbox显示分词结果。如图3.3 分词结果

图3.3 分词结果
如图3.3可见系统已经可以把整段的文本分词成为一个一个词，之后变可以对其分词结果进行统计。
3.3分词统计的实现
通过之前的中科院分词系统的分词，我们将得到一个数组，这个数组就是分词结果，而分词统计需要统计出每个词出现的次数，文本中的词数，文本中不重复词的词数。为之后所要进行的数据挖掘TFIDF算法做好充分的准备。
通过中科院分词系统返回的数组是中科院分词系统自带的，为了不修改中科院系统程序并之后能够更好的控制，我在统计的时候把统计后的结果存放入我新创的数组中。具体实现流程如下：

上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页