2009年,“物联网”成为信息技术领域人们关注的焦点。互联网上关于“物联网”的报道及搜索超过了以往的任何时候,而在政策、行业发展、以及用户需求方面也进一步加大了“物联网”过去由虚拟的概念逐步进入一个“落地”的阶段。
2011年6月16日-6月19日第九届中国国际软件和信息服务交易会在大连举行。本届软件会讨论的最热门的话题之一就是物联网的发展与应用[8]。中国信息产业商会会长张琪在谈到物联网发展方向时表示,物联网绝对不是一个部门和任何一个标准化组织能够独揽包办的,物联网发展的切入点应先抓标准和核心技术管理。
物联网技术带来了第三次世界范围内的信息产业浪潮,越来越成为全球关注的焦点,将给人们的生产和生活方式带来深刻的变革。物联网在带来诸多便利的同时,也给信息技术领域带来新的挑战。
2 数据清洗介绍
2.1数据清洗概述
数据清洗是物联网中处理传感网络所提供的海量数据的一个重要方式[10]。这种方法主要应用于逻辑层面不需要对硬件进行改动就能够很好地提高数据的准确性,很受研究者的欢迎。虽然数据清洗是物联网研究的一个不可或缺的方面,但是数据清洗并不是物联网所特有的。数据清洗并不是由于物联网的产生而产生的,相反数据清洗的诞生要比物联网早很多。数据清洗是现代计算机技术不断应用到企业管理中所产生的。
上个世纪末,伴随着计算机技术的一次又一次的重大变革,计算机的数据计算和管理能力越来越强大。人们渐渐感觉到将各种数据进行数字化管理能够大大提高以往各种工作的效率是一切变得更加便捷。各行各业当中企业信息化的要求越来越迫切,信息化发展速度越来越快。信息化并不是简单的将原有的数据进行简单地数字化,为了获得高质量的信息化领域内做出了各种研究,其中一个很重要的方面就是企业数据的管理。随着信息化的不断发展,各行各业已建立了很多基于数据仓库的计算机信息系统,积累了大量的数据。信息系统建立的最终目的是从积累的大量数据中获取对自己有帮助的信息而不是单纯的存储这些数据。当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,所存放数据的质量都能满足用户的要求。为了使数据能够有效地支持各组织的日常运作和帮助组织做出真确的决策,要求信息系统中的数据可靠无误,能够准确地反映现实世界的状况。数据是信息的基础。人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数据分析技术,二是数据质量不高。因此,数据质量的管理获得了越来越多的关注。数据质量主要指的是数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)。数据质量管理牵涉到的方面很多,本文主要数据清洗的角度加以探讨。
根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层,文献[3]将数据质量问题分为4类(如图1所示):单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。图1表示了这种分类,并且分别列出了每一类中典型的数据质量问题.。单数据源情形中出现的问题在多数据源的情况下会变得更加严重。图1对多数据源没有列出在单数据源情形中就已经出现的问题。模式层次上的问题也会体现在实例层次上。糟糕的模式设计、缺少完整性约束的定义以及多个数据源之间异质的数据模型、命名和结构冲突等,都属于该类问题。可以通过改进模式设计、模式转化和模式集成来解决模式层次上的问题。实例层次上的问题在模式层次上不可见,一些可能的情况有数据拼写错误、无效的数据值、重复记录等。 智慧城市管理系统中的传感器数据采集与清洗方法研究(5):http://www.751com.cn/jisuanji/lunwen_6748.html