1.3 论文的结构
本文余下章的安排如下:
第二章,主要介绍了与课题有关的理论及技术,主要包括目标识别、SURF算法、匹配算法、JNI技术等。
第三章,主要介绍了系统的设计,包括客户端和服务器端的设计。
第四章,主要介绍了博物馆导航的案例研究,描述了该应用的具体实现。
第五章,为本文的实验结果,包括系统运行结果和系统性能评估结果。
最后,对全文进行了总结。
2 理论及相关技术
2.1 目标识别
2.1.1 相关背景
多年来,目标识别都是图像处理领域中一个活跃的焦点。至今,这个问题已经有了多种解决方法,目标识别算法也渐渐地更具有鲁棒性。其较早的应用和评估是人脸识别[3]。选择人脸测试是因为易获取大量的测试数据,并且在当时这是唯一的有实用性的计算机视觉应用。由于相机技术的发展和因特网连接的激增,目标识别已经与多类应用相关。大多数目标识别技术的中心思想都是利用特征向量表示一幅图像。得到这些特征向量需要两个处理步骤。首先,我们需要在图像中找到兴趣点,如何找出兴趣点的算法称为兴趣点检测器。在找到兴趣点之后,所需要做的工作就是描述这些兴趣点,该描述算法为兴趣点描述子。经过兴趣点描述子提取出的特征值需要有以下性质:特征值必须具有局部性,这样才有助于克服遮挡和杂波带来的难题;特征值需要能够抗尺度、旋转、光照等变换;特征值要有鲁棒性,这样噪声、模糊、离散化和压缩等异常才不会对特征值造成很大的影响;特征值还要具有独特性才能在海量的物体数据库中得到匹配;从微小的物体生成特征值也应是可行的;特征值必须可以高效地计算,这样才能建立实时应用。文献综述
2.1.2 目标识别框架
无论目标识别是在客户服务器式应用还是在整体式应用上实现,处理步骤都相同。如图2.1所示:
(1) 图像采集:任何目标识别框架的第一步都是利用相机采集图像。这里的相机是指手持设备上的数码相机。相机将光线转换为一组亮度像素数据。大多数目标识别算法都是作用于灰度图像。颜色在目标识别中的作用是有争议的,仅有少数的研究表明它在一些特定条件下是有用的。相机获取无失真图像的能力大大影响了匹配算法。几何和光度失真可能在图像数据中产生噪声,这可能导致假阴性结果。相机的输出是一个像素矩阵。
(2) 特征检测:这一步包括在图像中找到兴趣点,这些点可能是角落、边缘等。特征检测的输出是图像中用于区域描述的坐标点阵列。
(3) 特征抽取:找到兴趣点后,接下来一步是描述兴趣点,即对兴趣点附加详细信息(局部特征)。SIFT和SURF在这一领域是较重要的算法。由于要将目标识别应用在手机平台,算法的选择和优化很重要。对于一个交互式应用,快速显示结果很重要。在这方面,SURF比SIFT有更好的性能。特征抽取步骤的输出是兴趣点的特征向量。向量的维数取决于所用的算法,例如,SIFT会生成一个128维的向量,而SURF会生成64维的向量。
(4) 分类:这一步给出了目标物体所属的类别,也就是说,在这一步我们将会知道这个物体是什么。分类可以有多种方法实现。方法的选择需要兼顾速度和精确度。分类算法的中心思想就是距离的概念。在一个二维向量空间,距离可以用两点间的直线表示出来。然而,大多数分类算法必须处理多维向量空间。