海量数据具有很复杂的数据类型。处理这样的信息并使它发挥作用,是我们关心的问题。综上所述,海量数据应该遵循以下几点原则:第一,海量数据的存储应该引入分级存储的概念,在分析并区分数据的性质以采取不同的存储策略。第二,在配备了足够容量的高性能阵列的基础上再配置能够胜任存储海量数据的高性能的自动化磁带库,并辅之于相关的软件来实现自动的数据分级存储管理。第三,在存储数据时要考虑到数据类型的不同所带来的存储难度的提升,设计相对完善的方案,保证数据安全、完整的存储和有效的利用。
2.2海量数据存储模式
由于网络技术的崛起,直连式存储已变得力不从心,存储模式从以服务器为中心转向以数据位中心的网络存储模式。目前典型的数据存储模式有:网络附加存储(Network Attached Storage,NAS)和存储区域网络(Storage Area Network,SAN)。但NAS在处理大量的服务请求时会遇到I/O瓶颈,而SAN中设备的跨平台性较差,总体上达不到理想中的性能。
对象存储技术提供基于对象的访问接口,将NAS和SAN两种存储结构的优点进行有效的整合,通过高层次的抽象,使之既NAS的跨平台共享和安全性的优点,又有SAN的高性能和可伸缩性的优点[3]。
2.3面临的问题
传统的数据存储与管理模式已经很难满足日益增长的数据在容量、性能、存储效率和安全性等方面的要求。而且大部分的数据采集系统和数据分析系统,都要求对数据进行实时高效的传输和存储,这就对数据采集存储系统的采集速率、传输速度、存储速度以及存储容量等方面提出了更高的要求。
目前,海量数据存储技术正在向商业应用领域推广,像用户行为分析、商业数据分析、产品设计分析和报表统计等应用需要处理的数据量非常巨大[4]。这些应用对于企业自身的计算能力、存储能力以及基础设施要求较高,因此就要采用合适的机制对网络资源进行调度,对海量数据高效存储技术的研究就越发显得重要。
3.分布式技术概述
3.1分布式技术的分类
3.1.1分布式计算
分布式计算一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果[5]。分布式计算能够充分利用硬件资源,调度可用资源为用户服务,减少成本,方便使用。但是分布式系统对任务的实时性要求不高,且允许出现一定量的计算错误。
3.1.2网格计算
网格计算(Grid Computing)是分布式计算的一个分支,它的由来是因为这种计算方式像格子一样的体系结构。简单的讲,网格是把因特网上众多资源整合成一台巨大的虚拟的计算机,将以CPU为主的各种资源聚合起来。它能将其中过剩的计算能力及闲置的IT资源联系起来,供应给需要高性能计算能力的用户。
3.1.3集群技术
集群(Cluster)技术可以作如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户提供高可靠性的服务,集群在工作中像一个统一的整合自用,所有节点使用单一界面。从外部来看,它们仅仅是一个系统,对外提供统一的服务。
Cluster内各节点服务器通过内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管[6]。当以上的任一故障发生时,客户都将能很快连接到新的应用服务上。集群技术的出现,有效的解决了单台服务器无法解决的容错问题。而且在达到同样性能的条件下,采用计算机集群比采用同等运算能力的大型计算机具有更高的性价比。 分布式系统的海量数据存储技术研究(2):http://www.751com.cn/jisuanji/lunwen_4781.html