基于相机的视觉自主定位通常使用单目或双目相机,相比于单目相机而言,双目相机因为可以得到绝对的深度信息,所以较为简单。视觉自主定位算法的标准流程是在图像中提取特征点,然后进行两帧或多帧图像之间特征点的对应,由对应点之间的变换得到相机的运动轨迹,这种方法被称作基于稀疏像素配准的视觉自主定位(SparseVisualOdometry,简称SVO)。除此之外又提出了基于稠密像素配准的视觉自主定位(DenseVisualOdometry,简称DVO),该方法不需要提取图像中的特征点,而是利用了图像所有的像素点,因此精度更高,但是该方法需要大量的计算资源,由于计算机计算能力和存储容量逐年提高,该方法也开始被广泛使用。
再者,机器人和自动驾驶工具周围的环境可能是动态场景。例如无人车在道路上会遇到过往行人,无人机在搜索救援时拍摄的场景也是在随时间变化的,一些家用的机器人也会涉及到机器人之间或机器人与人之间的相互协作,这就要求我们首先要找到动态场景中的运动物体,进而消除它或者对其进行检测识别和跟踪,因此将场景中的运动物体分割出来成为一个必须要解决的课题。经过相机自主定位,相处相机运动影响之后,我们还可以得到运动刚体在绝对坐标下的运动方向以及速度。
人类的视觉由于先天遗传以及后天的不断训练,可以根据移动过程中场景的变化判断自身所处的位置和移动速度,同时,人类视觉也非常灵敏,即使是在自身发生移动的情况下也可以轻松地检测出场景中不同大小、或柔性或刚性物体的运动。然而,对于计算机而言,尽管大量的研究人员在视觉自主定位和运动物体的分割这两个问题上做了非常多的努力,积累了丰富的经验,但是到目前为止,这两个问题依然是计算机视觉领域尚未完全攻克的难题。
另外一种获取绝对深度信息的设备是RGB-D相机,该相机使用TOF(TimeofFlight)技术,自主发射调制红外线,接收设备通过收发时间差或相位差确定相机与空间的距离[1]。该相机能同时获取彩色图像(RGB)和深度图像(Depth)。该相机作用距离较短,经过配准便可直接得到像素点对应的深度信息,非常适合在室内环境中开展研究。
1.2问题阐述静态场景是指除了相机自身的运动外,场景中不包含任何运动物体,而动态场景是指包含运动物体的场景,这些物体可以是刚性的,也可以是柔性的,还可以是两种物体的结合。刚性物体的形状和大小在运动过程中不会发生变化,而非刚性物体正好相反[2]。
基于相机的视觉自主定位利用相机拍摄的连续两帧或多帧图像,得到相机运动过程相邻帧之间的旋转矩阵和平移向量;运动物体分割是相机在静止或运动状态下,对所拍摄动态场景中的运动物体进行分割。
本文主要解决的问题是在相机运动的状态下,利用RGB-D相机采集的包含刚性物体的室内动态场景图像,首先实现相机的视觉自主定位,在此基础上对运动刚体进行分割,最终获取运动刚体在绝对坐标中的运动。
1.3研究方法本文使用运动的RGB-D相机拍摄得到室内动态场景的RGB和深度图像。相比于通过特征点匹配和对应实现的SVO,DVO可以利用图像中更多的像素信息,得到更为精确的相机运动估计,因此本文使用DVO的方法,根据短时间内(相邻帧对应的时间)物体上的同一点在两张图像中的亮度不变(图像像素亮度一致性)的假定,如图1.1,利用图像中深度信息有效的全部像素点计算相机的变换矩阵。如图1.2所示是DVO得到的图像信息。
RGB-D相机的视觉自主定位和空间运动物体分割的研究(2):http://www.751com.cn/tongxin/lunwen_36519.html