图3.2 分词流程图
分词流程,首先需要获取待分词内容,也就是文本内容,然后需要装载中科院分词系统的字典,其次调用中科院分词系统进行分词处理,完成后使用空间进行分词结果的显示。
我们使用一个Textbox输入一段题目,用分词系统进行分词测试,并通过Textbox显示分词结果。如图3.3 分词结果
图3.3 分词结果
如图3.3可见系统已经可以把整段的文本分词成为一个一个词,之后变可以对其分词结果进行统计。
3.3分词统计的实现
通过之前的中科院分词系统的分词,我们将得到一个数组,这个数组就是分词结果,而分词统计需要统计出每个词出现的次数,文本中的词数,文本中不重复词的词数。为之后所要进行的数据挖掘TFIDF算法做好充分的准备。
通过中科院分词系统返回的数组是中科院分词系统自带的,为了不修改中科院系统程序并之后能够更好的控制,我在统计的时候把统计后的结果存放入我新创的数组中。具体实现流程如下:
上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页