元数据仓库 存储数据模型和元数据,元数据描述了源数据和目标数据本身的信息,用于存储数据模型和定义数据结构,转换规划、仓库结构、控制信息等
监控和管理工具 对数据仓库的运行提供监控和管理仓库的合法性、安全管理、存储管理等
目标数据库 数据仓库或者数据集市,用来存储经检验、整理、加工和重新组织后的数据,形式上可以是关系数据库或多文数据库
OLAP服务器 功能强大的多用户数据操纵引擎,支持多文数据结构操作,为前端服务器提供多文数据视图及服务
访问和分析工具 仓库前端的分析决策人员访问数据,不但提供查询呢、汇总和统计等功能分析工具职能,还提供数据比较、趋势分析、模式识别等深入分析、挖掘的功能
2)数据准备
数据准备主要包括数据抽取、整理转换、清洗、装载等操作:
(l)数据的抽取,数据的抽取是数据进入数据仓库的入口。数据仓库是一个独立的数据环境,需要通过抽取过程将数据从脱机存储介质和外部数据源等处获取、导入到数据仓库中。
(2)数据的整理,源数据来自不同的环境,可能存在许多质量问题,如不完整、不准确、不一致以及重复记录等,因此需要进行整理。数据整理主要是进行有效性检查、确认输入数据、消除错误值、保证数据值落入定义域、消除冗余数据、解决数据冲突等。
(3)数据的转换,数据仓库中的数据来自多种数据源,数量大、种类多、格式不统一(如字段的同名异义、异名同义、单位不一致、字长不一致等),在加载之前必须进行数据清洗和转换。数据转换方法可以是专用工具、sQL语句和编程实现。
3)数据仓库设计
数据仓库的开发特点,就是一个不断循环、反馈而使系统不断增长与完善的过程。这个特点,使数据仓库的开发过程一般采用螺旋式方法。采用这种方式,开发步骤并不是绝对的顺序,但是数据仓库的开发也不是没有步骤,一般来说数据仓库的开发大体包含如下步骤:
(l)概念模型设计,概念模型设计主要完成的工作是确定系统的边界和确定主要的主题域及其内容。在这个基础上形成一个较为稳固的概念模型。
(2)逻辑模型设计,逻辑模型设计主要的工作有分析主题域,确定当前要加载的主题,确定数据分割策略,关系模式定义,记录系统定义。
(3)物理模型设计,物理模型设计的工作有:确定数据仓库存储结构,确定索引策略,确定数据存放位置,确定存储分配。
(4)数据仓库生成,数据仓库的生成主要的工作是接口编程以及数据的加载。数据仓库运行与文护,这一步工作主要是建立对仓库应用的理解需求,调整和完善系统,文护数据仓库。
3.2 数据挖掘
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。实际上这是一个模式提取的过程,主要基于人工智能、机器学习、统计学等技术,高度自动化的分析企业原有的数据,做出归纳行的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。
3.2.1 数据挖掘任务
数据挖掘任务有751项:关联分析、时序模式、聚类、分类、偏差检测和预测。
(l)关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 轨道交通自动售检票系统AFC数据分析(7):http://www.751com.cn/zidonghua/lunwen_2395.html