(6) 神经网络:模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,可用于分类和回归。
除了上面的常用方法外,还有模糊神经网络方法,粗糙集方法等。
1.3 本文研究内容
本课题的主要目的是采用数据挖掘技术,挖掘常用治疗肺癌中药(包括复方、药对与单药)的用药规律与特点。具体要进行数据规范,从大量数据中提取高质量的信息,然后采取合适的关联算法进行有效规则的发现。如图1.2。
图1.2 挖掘平台系统结构图
由图1.2我们可以看出,该系统包含了三个重要的功能组件,分别为:数据采集模块,数据预处理模块和知识发现模块。下面对各模块具体分析。
2数据预处理
该模块属于数据库管理子系统,主要用于在线采集单个医案或者将文本医案批量导入数据库中,为后续的数据挖掘和知识发现任务提供良好的,可靠的源数据。其中,在线采集医案模块包含了在线录入、查询病历信息的功能,能够完整地记录名医医案。
2.1 数据采集
2.1.1 在线录入
如图2.1所示,提供在线采集单个医案的简单平台,可以将记录完整保存至数据库中。
图2.1在线医案采集模块
2.1.2 数据导入
批量导入文本医案模块则考虑了不同格式的需求问题。目前已可实现txt、excel格式与SQL Server数据库之间的自由转换,便于将手工整理好的大量简单标记医案批量导入数据库,是本数据挖掘系统源数据的主要来源。
2.1.2.1 txt数据格式导入
将病案进行手工整理,实现录入。每项病案之间用“///”分隔,并且在名称后加上“:”,如表2.1所示。
///
病例编号:1001
姓名:高进
性别:男
年龄:58
电话:323232
症状:胸疼,咳嗽,汗出
辨证:术后脾肺气亏,痰毒内结
治法:益气固表,化痰散结
处方:生黄芪30克,炒白术10克,防风10克,浮小麦30克,煅龙牡30克,炙前胡12克,马兜铃10克, 生杷叶10克,草河车30克,夏枯草15克,川贝母10克,北沙参15克,五子10克
表2.1可导入数据库的规范病案
主要代码实现函数:
public bool TestFileFormat(StreamReader sr, ref string ziduan)//检验文件格式
public ArrayList GenBAS(StreamReader sr)//由文件分割成一条条病案放到数组中
private BAObject GenOneBAObject(string[] bastr)//由分割的病案生成病案对象
其中BAObject是自定义类,包含一个完整病案的各个项目。
2.1.2.2 excel数据格式导入
在使用excel组件前,要添加引用:
其中using Excel=Microsoft.Office.Interop.Excel;
主要实现函数:
public bool TestFileFormat(String filename) //检验文件格式
public ArrayList GenBAS(string filename)//由文件分割成一条条病案放到数组中
private BAObject GenOneBAObject(string[] bastr) //由分割的病案生成病案对象
涉及到Excel文件的操作,其中的列名与数据库中每个表相对应,而与SQL Server连接进行填充的操作,具体代码如下:
String connstr = "Provider = Microsoft.Jet.OLEDB.4.0 ; Data Source =" + filename + ";Extended Properties='Excel 8.0;HDR=Yes;IMEX=1'";
OleDbConnection myConn = new OleDbConnection(connstr);
myConn.Open();
String sql = "Select * from [Sheet1$]";
OleDbDataAdapter mycommand = new OleDbDataAdapter(sql, myConn);
DataSet ds = new DataSet();
mycommand.Fill(ds, "[Sheet1$]");
- 上一篇:基于组态软件的监控系统的设计+文献综述
- 下一篇:微博热点话题提取技术研究+文献综述
当代大学生慈善意识研究+文献综述
乳业同业并购式全产业链...
酸性水汽提装置总汽提塔设计+CAD图纸
大众媒体对公共政策制定的影响
河岸冲刷和泥沙淤积的监测国内外研究现状
十二层带中心支撑钢结构...
java+mysql车辆管理系统的设计+源代码
电站锅炉暖风器设计任务书
杂拟谷盗体内共生菌沃尔...
中考体育项目与体育教学合理结合的研究