该课题主要工作是以名老中医在临床积累的病案资料为对象,研究和应用数据挖掘方法来分析名医处方,挖掘常用治疗肺癌中药的用药规律与特点。
1.2 数据挖掘技术在中医药研究的应用
1.2.1数据挖掘简介
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。信息技术的高速发展使得人们积累了大量的电子数据,却缺少有效的技术从中获取有价值的信息。在这种情况下,数据挖掘(Data Mining, DM)和数据库中的知识发现(Knowledge Discovery in Database, KDD)就诞生了。
1989年举行的第11届美国人工智能协会(American Association for Artificial Intelligence, AAAI)学术会议上,Fayyad等人首先对KDD进行了明确的定义:从大量数据中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。KDD处理过程总共分为9个阶段:数据准备,数据选取,数据预处理,数据缩减,KDD目标确定,挖掘算法确定,DM,模式解释及知识评价。这个处理过程表明DM只是KDD的一个处理阶段,但它却是KDD最重要的环节。然而,实际学习工作中,人们常把DM与KDD相互混用而不加以区分。DM实际上是指按照预先定好的目标,通过搜索大量数据,以揭示数据中隐藏的规律并将规律模型化的有效方法。
1.2.2 数据挖掘系统结构
图1.1 描述的是典型的数据挖掘系统结构
图1.1 典型的数据挖掘系统结构
由图1.1可知,典型的数据挖掘系统具有以下主要成分:
1. 数据库、数据仓库或其他信息库:是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以对数据进行数据清理和集成。
2. 数据库或数据仓库服务器:负责根据用户的数据挖掘请求,提取相关数据。
3. 知识库:用于指导搜索,或评估结果模式的领域知识。
4. 数据挖掘引擎:数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。
5. 模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索集中在有趣的模式上;也可以与挖掘模块集中在一起,依赖于数据挖掘方法的实现。
6. 图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户与系统交互,对数据挖掘的过程提供一些定制信息;还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。
1.2.3 数据挖掘常用的技术
数据挖掘常用技术如下:
(1) 传统统计方法:① 抽样技术,当面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。② 多元统计分析,如因子分析,聚类分析等。③ 统计预测方法,如回归分析,时间序列分析等。
(2) 关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为 ""。一般分为两个步骤:① 求出频繁数据项集。② 用频繁数据项集产生关联规则。
(3) 决策树:利用一系列规则划分、建立树状图,可用于分类和预测。
(4) 数据可视化:用图表等方式把数据特征用直观地表述出来,如直方图等。高文数据的可视化是当前可视化技术面对的一个难题。
(5) 遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。
- 上一篇:基于组态软件的监控系统的设计+文献综述
- 下一篇:微博热点话题提取技术研究+文献综述
当代大学生慈善意识研究+文献综述
乳业同业并购式全产业链...
酸性水汽提装置总汽提塔设计+CAD图纸
大众媒体对公共政策制定的影响
河岸冲刷和泥沙淤积的监测国内外研究现状
十二层带中心支撑钢结构...
java+mysql车辆管理系统的设计+源代码
电站锅炉暖风器设计任务书
杂拟谷盗体内共生菌沃尔...
中考体育项目与体育教学合理结合的研究