1.2 云计算应用研究现状
云计算在数据挖掘方面的应用只是云计算众多应用之一, 但对于数据挖掘来
说,云计算的出现极大的扩充了数据量,使得海量数据挖掘成为可能,变成具有
理论和应用价值的研究领域。针对上文中提出的数据挖掘的四个技术需求,云计
算从各个方面都进一步促进了数据挖掘技术的发展。首先,云计算的数据存储建
立在广大的分布式计算机集群之上,所拥有的数据库规模大大提升,可以满足任
何数据挖掘的需求, 且云的高可拓展性允许 “云” 根据应用和用户需求动态伸缩;
其次云计算的计算能力也是无可置疑的, 大多数的云服务提供商的服务器数量都
在几十万台以上,企业私有云也拥有数百上千台服务器,能赋予用户前所未有的
计算能力;最后云计算采用大规模服务器集群并行计算的方式为用户处理数据,
拥有无限空间和无限速度。 这些无一不向我们展示了云计算在数据挖掘应用上的无限发展。
云计算平台的商业化发展为数据挖掘系统提供了良好的底层架构支持, 目前
Google的数据管理(BigTable)和亚马逊的简单存储服务(S3、 Simple Storage
Service)等技术已经被应用在海量数据的分布式存储访问技术中。 王鄂[2]
等在基于云计算的 Hadoop 集群框架和 SPRINT 分类算法的基础上,
对SPRINT算法进行了改进, 描述了SPRINT并行算法在Hadoop中的MapReduce
编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。虽然
这仅仅是针对虚拟银行提出的实现方法, 但是对于基于云计算的数据挖掘研究而
言,这篇文章有着非同一般的重要意义。Grossman[ 3 ]
等设计了一种名为
Sector/Sphere的云计算处理模型, 并在分布于美国不同地区的6台服务器上进行
了相关实验。结果证明这一模型在广域网中的处理速度是Hadoop模型的2.4-2.6
倍,即使是单一设备上的处理速度也是Hadoop模型的1.6-1.9倍。Sector/Sphere
模型分为Sector和Sphere,Sector通过分布式索引文件管理数据,Sphere使用用
户规定的功能处理数据, 而这些功能都以同一方式运行在Sector管理之下的数据
流之上;为了达到高性能计算的效果,Sector/ Sphere 模式广域高性能网络在设
计上采用了专用的网络协议。
此外还有许多的团体和个人都在基于云计算的数据挖掘技术上开展各项研
究工作,当然也取得了一定的成就。但是目前为止,还没有出现一种获得学术界
和工业界广泛认同并投入使用的解决方案。 具备高研究实力的企业和团体各自为
政,很难获得比较统一的结论。
1.3 本文的研究内容
本文以Google App Engine为基础,设计了一个基于云平台的卡通视频检测
系统,该系统实现了两种视频分类方式:决策树算法和支持向量机。并进行了一
系列的对比实验,证明了云平台在数据挖掘方面的巨大潜力。详细的文档体系结构见下图。 基于云平台的应用研究+文献综述(4):http://www.751com.cn/jisuanji/lunwen_6626.html