为了达到新的要求,应对新的挑战,相关分析策略也纷纷涌现了出来。不同的方案很多,例如使用专业的并行处理并结合索引功能来达到数据过滤的效果,自动匹配处于不同的时间和具有不一样意义的结果,然后将此类结果与之前的仓库数据联系在一起。最新的数据采集包含了丰富的可视化方案和具有交互功能的深层检索功能。例如著名的Hadoop平台在其各个组件的协同运作下,则为大家提供了从数据采集、数据管理和数据分析的全套方法,相关分析方法、存储方案、分布式计算都囊括其中。简单来说,大数据分析技术实际上就是将巨额数据利用分布式计算技术进行处理,再利用部署系统、挖掘工具、数据模型的建立和深层分析,捞到巨额数据海洋中的“针”。
伴随着分布式存储方案、概率学、大型集群、无监管训练、深层索引等相关技术的发展,数据挖掘这个概念也逐渐传开,直到1995年,在加拿大蒙特利尔,数据挖掘的概念第一次公开提出,之后,数据挖掘的开始飞速发展。
与此同时,大数据、数据挖掘所蕴含的价值性、重要性也逐渐引起了全世界的注目。例如2012美国的七个部委联合推进并宣布了大数据专项研究计划,用来研究开发环境工程、生命科学、医学、教育以及国家安全等重点方面及相关行业所需要的处理技术和工具,至此大数据技术研究已经成为重大战略计划之一。美国政府将大数据看作是“数据时代的石油宝藏”,对将来的社会发展、国家安全具有很重要的地位和战略意义。
相信不难理解,今后世界格局会跟一个国家所控制的数据规模和数据分析能力息息相关,成为新国力评估的一个全新要求,对相关数据和技术的占有权、研究能力、控制能力将会变成国家之间以及企业之间的第二战场,也有很多建议我国尽快制定相应计划的呼声出现。
让人高兴的是,李克强总理在九月也签批了《促进大数据发展行动纲要》,展开了我国相关技术的宏伟蓝图。
中国对大数据技术的发展要求此时真正上升到了国家战略层面,这将对我国的经济发展、国家安全等方面起到长足而深远的影响。大量数据驱动的相关全新技术,将会从经济、教育、科研可穿戴智能设备等方面带给大家深刻的影响,可以认为是生产力发展的又一个里程碑。
前文提到,Hadoop其实是Apache所开发的框架之一,它能以一种可靠、高效、可伸缩的方式进行数据处理。哪怕是没有经验的新手也能很快上手进行操作。Hadoop项目中还包含有多个子项目,如Pig, ZooKeeper, HBase, Hive等,但其核心构件是HDF S和MapReduce。 整个项目优点很多,功能全面、易于上手、部署方便关键还免费,在互联网领域好评如潮。在遇到巨额数据时,之前的解决方案似乎都显得很尴尬,还好此时出现的Hadoop犹如璀璨灯塔,照亮了IT行业前进的道路。
本文的重点就是研究K-Means算法以及朴素贝叶斯算法。目标是达到更好的处理效果,进行算法优化,并将其部署在Hadoop上,从而解决处理过程中速度不足的问题。
1.2 云计算研究现状
1.3 论文主要工作
目前的巨量信息存储及处理手段一般由信息中心及单个的存储节点构成,但它们都无法很好的应对新出现的困难。传统信息中心和相关技术站在目前的角度来看,逐渐宣告过时。
本次课题首先阐释大数据的现状,分析了在大数据时代基于传统数据结构的数据挖掘工具的局限性。并在此基础上设计依托云计算Hadoop平台的并行处理海量数据的解决方案。之后介绍了Hadoop系统的组成部分,重点解释了Hadoop的核心组件,包括HDFS, MapReduce, HBase。在Hadoop框架下,秉持传统数据挖掘分类和聚类算法的特点,对设计依托云平台的数据挖掘技术展开细致的研究。各章节具体安排如下: 基于hadoop的数据挖掘算法研究与实现(3):http://www.751com.cn/jisuanji/lunwen_39778.html