myConn.Close();
2.2 基本数据预处理方法
数据预处理是数据挖掘中的重要步骤,它为数据挖掘提供了高质量的数据,从而提高了挖掘结果的质量。目前比较典型的数据预处理方法如下[2]:
数据清理:包括填充空缺的值,消除噪声,纠正不一致的数据等。当属性中出现空缺的值时,有忽略元组、填充最可能的值等补充方法。噪声数据是由一种随机错误或被测变量的差变引起的,一般采用分箱、丛聚、人机交互检查、回归等数据平滑技术去除。对于不一致的数据,可以采用附加材料给予更正。
数据集成和变换:数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中(如数据仓库)。数据集成时需考虑3点:(1) 实体识别问题;(2) 数据的冗余和“重复”问题;(3) 数据值冲突的检测与处理。数据变换的目的是将数据转换成适合于挖掘的形式,主要涉及平滑、聚集、数据概化、规范化等问题。
数据归约:数据规约技术可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多。常用的数据归约方法有:数据立方体聚集、文归约、数据压缩、数值压缩、离散化和概念分层等。
总之,实际得到的数据往往是不完整的、不一致的。通过数据预处理技术,数据的质量得到了改进,从而提高了后续的数据挖掘过程的精度和性能。虽然数据预处理的工作量较大,占整个数据挖掘任务总工作量的60%左右,但这样的工作最终必将换得在决策过程中的高回报率。
2.2.1方剂原始数据处理
各类肺癌偏方整理,举例如表2.2:
方剂1
【组成】南沙参12克,北沙参12克,天冬9克,麦冬9克,百合15克,生地15克,银花15克,黄芩9克,白茅根30克,白花蛇舌草30克,鱼腥草30克,铁树叶30克,生苡仁5克,陈皮9克。
【用法】水煎服,每日1剂,日服3次。
【主治】肺阴不足,虚火上炎。
【功用】滋阴降火,清金保肺,佐以抗癌。
表2.2 方剂的原始数据
通过对文档信息的规范与提取,将获得的方剂数据按照表3.1的格式录入到数据库中,如表2.3:
编号 1
组成 南沙参(12g) 北沙参(12g) 天冬(9g) 麦冬(9g) 百合(15g) 生地(15g) 银花(15g) 黄芩(9g) 白茅根(30g) 白花蛇舌草(30g) 鱼腥草(30g) 铁树叶(30g) 生苡仁(5g) 陈皮(9g)
方剂功效 滋阴降火,清金保肺,佐以抗癌。
方剂主治 肺阴不足,虚火上炎。
表2.3方剂处理后的数据
2.2.2 中药原始数据处理
各类肺癌偏方整理,举例如表2.4:
当 归 Danggui
为伞形科植物当归Aaugellica sinensis(Oliv) Diels. 的根。……
【性能】 甘、辛,温。归肝、心、脾经。
【功效】补血调经.活血止痛,润肠通便。
【应用】 1.血虚诸证。本品甘温质润,长于补血,为补血之圣药。若气血两虚,常配黄芪、人参补气生血,如当归补血汤(《兰室秘藏》)、人参养荣汤(《温疫论》);若血虚萎黄、心悸失眠,常与熟地黄、白芍、川芎配伍,如四物汤 (《和剂局方》)。2.……
表2.4 中药的原始数据
通过对文档信息的规范与提取,将每药物的基本属性和应用分别录入到数据库中。药物的基本属性表示格式如表2.5,药物的应用表示格式如表2.6。
编号 159
类别 补血药
药名 当归
五 甘 辛
四性 温
归经 肝 心 脾 肺癌中医治疗特点的数据挖掘研究+文献综述(4):http://www.751com.cn/jisuanji/lunwen_3678.html