这篇论文中借鉴的文献有许多.文献[1]-[3]介绍了数据挖掘的相关背景和国内外研究现状,文献[4]-[7]介绍了数据挖掘的常用方法,文献[8]-[11]介绍了数据挖掘技术在现实生活的诸多领域的应用.
本论文在研究了文献的基础上,对数据挖掘的常用方法进行了介绍,这些方法经过不断完善改进,在应用方面已经相当成功,论文又介绍了数据挖掘在一些领域的应用,并对数据挖掘技术面临的挑战做了总结.
1.数据挖掘概述
1.1数据挖掘的定义
为了便于理解数据挖掘的含义,这里从两个不同的方面进行说明.
从技术层面来说 :数据挖掘就是从不同的文度来看数据,不同的方向可能得到不同的信息.需要注意的方面有:第一个是该信息是之前未料想到的或者是新颖性.第二个是发现的信息在今后可能会有价值,并且能够成为现实的.第三个是发现的方式能够被用户理解,并且结果能让每一个都能理解.第四个是实际操作中需应用一些专门处理数据的数据挖掘工具,进行多次的分析对比才能得出结论.数据挖掘技术牵涉了很多学科,可以说是复合型的,不但要懂数学计算,更要懂算法懂编程等学科的知识.
从商业实际运用的角度定义:数据挖掘是将企业的业务产生的数据转化为可利用的信息的技术,主要是将商业信息经过一系列的信息提取,再利用统计方法进行数据分析工作.数据分析在企业生产中并不陌生,只是过去由于各方面技术和方法的限制,只能对小部分数据进行分析.目前,随着计算机技术的飞速发展,企业积累了大量的数据,但是能直接为企业到来利益的信息却是非常少,而数据挖掘技术能通过一系列的处理分析,把一些非结构化数据转化为可计算的数据,因此数据挖掘就是为了是企业从数据中获得利益而存在的.数据挖掘也因此而得名.
1.2数据挖掘常用的方法
数据挖掘的算法有很多,很多时候各个方法算是一类方法,或者是从其他算法中延伸出来的,那么在我们划分不同方法时常根据学习方式的不同来进行区分.数据挖掘技术的学习方式分为几种不同的种类 ,第一类为监督式学习、第二类为非监督式学习、第三类为半监督式学习.
监督式学习:在数据挖掘过程中,建模数据通常会分为建模数据(train)和测试数据(test),分别用于建模和测试.在训练数据中建立相关模型.测试部分的数据会明确给出这些数据的结果,如在测试一个用于预测疾病的模型时,该样本会明确告诉样本有没有生病等,可以测试模型的准确性,只有模型的准确性很高的情况下才能真正的把该模型落地、应用.另外在欺诈检测,信用评级,客户流失等方面也有很多的应用.
非监督式学习:非监督式学习就是在样本中没有给出结果,模型的建立是为了找到数据集中的一些结构,常见到的应用场景包括关联规则、聚类等.
半监督式学习:该部分主要是对监督式学习的一种扩展,在数据集中,部分给出结果,另外一部分没有给出结果,用这种方式可以进行预测,建模时试图在未标记的数据进行建模,在此部分之后在标记部分进行预测.如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等.
1.2.1分类
分类 是很常用的一种方法,如通过对客户进行分类,构建一个风险模型,对客户贷款进行风险评估;当前的电子商务中分类技术也被大量运用,如对客户进行画像,根据客户的购买能力对客户分为不同类别,可以进行精准营销,不仅能节约企业成本,更能提高用户体验.预测客户流失中,根据顾客的购买情况,对顾客是否流失进行预测,企业可以根据不同的分类结果采取一些挽留措施,防止客户大量流失等等.另外,在分类算法领域中,研究人员通过不断的探究,现在已经提出了很多分类方法.下面对分类流程作个简要描述: 浅谈数据挖掘的常用方法+文献综述(2):http://www.751com.cn/shuxue/lunwen_27248.html