3.2 数据资料收集与整理
笔者通过百度、谷歌等搜索引擎,输入“驴友旅游安全”关键字,不断收集新闻游记约96篇。
为了保证样本的真实性和研究的规范性,剔除旅游商家发布的文章,选取真实的新闻文章,剔除照片或视频,然后对此进行合并。笔者将筛选出的文章进行文本转换,以便与特征词的提取。然后剔除了所有的数字、标点符号、段落符号、英文缩写等,剔除与中文词频分析无关的因素;接着将全部处理好的文本保存到文本文章中,用ROST CM6软件进行内容分析【6】。
3.3 高频特征词提取
首先要建立一个自定义词表,接着导入待分析的文本,使用ROST CM6软件的分词功能,将所有文本进行处理,将语句分解成独立的词语。为提高文本分析的精确性,必须对文本进行分词处理后的结果进行检查,修正那些分词不正确,甚至错误的词。在此基础上利用软件“分词过滤词表”再建立一个过滤词表,过滤掉与本研究内容无关的词汇,使用“词频分析”功能生成词汇频数表。