1.3.1 研究内容
对数据挖掘技术从定义、任务、过程等多个方面着手做了详细的介绍。大致了解了数据挖掘之后。接着,详尽的介绍了关联规则,事务集、频繁项集等基本概念,关联规则的分类等等。随后,着重研究了Apriori算法。最后,对医院药品处方处理操作,介绍了Apriori算法在智能药房中药品配仓中的应用,需要通过控制支持度与置信度来控制关联规则的生成,依据关联规则进行药品配仓,将有关联关系的药品放置,这样有助于提取药品的效率。
1.3.2 组织结构
该论文的组织结构:
第一章,介绍研究背景和国内外的研究现状,以及本文的组织结构。
第二章,介绍数据挖掘各方面的信息;重点阐述数据挖掘中的关联规则,介绍其基本概念、分类以及拓展等。
第三章,对关联规则Apriori算法进行较为详细的介绍,并且举出实例更加形象的去理解Apriori的步骤与流程。
第四章,将医院数据库中的处方信息转化为便于处理的编号形式,用Apriori算法对药品处方进行处理,用大小不同的支持度和置信度,多次挖掘更为合适的关联规则,便于整个药品配仓的实现。
2 数据挖掘与关联规则概述
2.1 数据挖掘的定义
数据挖掘是从大量的数据中挖掘出未知的、隐藏的、用户可能感兴趣的和有潜在价值的信息。这些规则蕴含了数据库中对象之间的特定关系,发现一些有用的信息,可以再经营决策、市场规划和金融预测等方面提供信息。
数据挖掘包含了以下四层含义:
a. 原始数据必须是大量的、真实的;
b. 发现的知识是用户感兴趣的、潜在有用的;
c. 发现的知识要可理解、可接受、可运用;
d. 发现的知识并不能要求它符合所有情况,它都有特殊的前提和固定的条件,只能面向特定的方向,而不是所有的研究方向。
2.2 数据挖掘的任务、过程及分类
2.2.1 数据挖掘的任务
数据挖掘的任务主要分为两大类:描述型任务和预测型任务。
预测型任务是从已知的、并且已经完成分类的数据中学习模型,并对新的未知分类的数据运用该模型去进行解释,从而使该数据进行分类。
在分类预测任务中,数据集合可以根据数据挖掘过程中扮演的角色不同,划分为测试集合、验证集合、训练集合。数据挖掘算法在建立模型的时候,是要运用到训练集合和测试集合。而在模型加以应用的时候,就要用到验证集合。这三个数据集必须来自于同一个数据库,而且在结构布局上有着相似的分布,否则整个数据挖掘过程将无法实现。
描述型任务是要依据已经给定的数据集中数据潜在的特定的固有关系,生成对数据集中数据关系或者整个数据集合的概要描述。描述型任务含有以下几个子任务,例如:聚类、依赖分析、关联分析、摘要等等。聚类是把不存在预定义类别的数据分割为多个符合要求的类别,依赖分析是分析数据项与数据项间的关联,摘要任务是为数据生成高度概括的子集和描述。
2.2.2 数据挖掘的过程
一般来说,一个比较典型的数据挖掘过程是包括四个步骤,即数据预处理、数据挖掘、评估和结果表示。数据预处理包括的操作比较多,例如数据的收集、数据的选择、质量检查以及数据转换等等。数据挖掘是按照固定的算法来进行处理。评估需要对得到的结果进行评价和测试。通常情况下,需要挖掘多次来满足用户的需求。 基于关联规则算法的处方信息分析研究(2):http://www.751com.cn/tongxin/lunwen_17521.html