基于超像素及多平面的位姿估计和平面重建




编者按: SLAM技术广泛应用于室内或室外、城市或野外等不同的无人驾驶应用场景。稀疏SLAM方法依赖于像素级信息的光度误差最小化或提取的关键点和类似的低水平图像特征上的重投影误差最小化。视觉SLAM可以利用平面等更高级的几何特征提高鲁棒性,因为平面提供了丰富的语义信息且涉及的参数少,但是平面的识别与单应性分解的歧义限制平面特征的使用。本文提供了基于超像素的多平面环境下位姿估计和平面重建的SLAM系统,提高了系统鲁棒性和精度。

摘要: 本文提出了一种基于两个RGB图像的场景相对相机位姿估计和平面重建的新方法。首先从两幅图像中提取和匹配超像素信息,然后利用一种新的多模型RANSAC方法估计多个超像素的单应性并识别匹配平面。通过提出一个投票系统来更可靠地估计相对相机位姿和平面参数,解决了单应性矩阵分解时的模糊问题。本文还提出了一种利用单应性的联合表示并适用于图像对和图像全序列的非线性优化过程来进行BA。因此,本文提供了一种仅由两幅RGB图像进行稠密三维平面重建而不依赖RGB-D输入或强先验(如曼哈顿假设)的方法,并且可以扩展到图像序列的处理。我们的结果可以与基于关键点的技术如ORB-SLAM相比较,同时完成稠密建图,并比LSD-SLAM或DPPTAM中使用的直接和半直接姿态估计技术更精确。

关键词: 超像素,平面特征,RANSAC
1 引言

目前,视觉追踪、位姿估计和SLAM (同时定位和建图)算法在室内和室外[1],[2],[3]等场景中竞争以获得更好的预测、精度和计算时间。一些算法依赖于图像间亮度的直接对齐,以生成一个密集的像素级建图[2],而另一些算法利用关键点或类似的低层次图像特征(如线条、模式),以实现更精确和更鲁棒的相机位姿[1]。似乎稀疏方法(如基于关键点的方法)与稠密方法(通过对齐像素亮度计算相机位姿)间的权衡是不可避免的:前者在不同的环境下更鲁棒,更兼容BA优化,后者生成更适用的带有稠密信息的地图。虽然已经有人提出了一些混合系统来平衡两种系统[4]的优势,但这一话题一直吸引着研究人员的关注,需要进一步的探索。

也可以利用从图像或低级特征中提取的中间特征。通常情况下,平面是人工环境和对象中普遍存在的几何特征,并在诸如姿态估计和视觉追踪等任务中表现出良好的特性:平面被广泛研究,参数化过程轻便,环境变化时对空间中孤立的特征点具有鲁棒性,最重要的是,平面容易通过单应性约束从图像对中计算出来。许多研究也在各种基于视觉的机器人应用[5],[6]中利用平面假设。场景有一个主要的平面时,如地面或天花板,单应性估计实际上是方便且简单的。然而,在现实世界中,主导平面假设并不总是成立,因为它可能被遮挡,或者场景可能由多个平面结构组成,如室内环境或室外城市景观等。

本文提出了一种基于多单应性的超像素RANSAC位姿估计方法,该方法同时实现了一对彩色图像的相机位姿估计和稠密平面建图。我们还展示了这种方法可以集成在视觉SLAM系统中。我们的贡献包括:1)一种结合超像素和关键点信息的检测多单应性的RANSAC新技术。2)一种用于位姿估计的基于投票的无歧义多单应性分解算法。3)一种图像对和图像序列的非线性位姿优化算法。 

基于超像素及多平面的位姿估计和平面重建的图1
图1 从单目相机的两张RGB图像(左上),我们提出了一种超像素技术来同时估计相机位姿和三维多平面地图(下),而不依赖于曼哈顿假设。 在右上图中,不同的颜色代表从图像中估计出的不同3D平面,我们使用了一种称为“胜者全得”RANSAC的新方法。

2 相关工作
对于单个主导平面的场景[7],[8]发展了视觉追踪理论和应用。例如,Pirchheim等人的工作[5]是在单平面单应性假设下的一个移动AR应用。然而,单应性矩阵分解的歧义似乎很难用几何方法[9]解决。许多工作利用诸如已知几何形状的先验信息或结合惯性测量单元IMU的信息,不仅可以消除单应性中的歧义,而且可以提高位姿估计的精度[10]、[11]。

通常,曼哈顿假设在平面视觉任务[11]、[12]、[13]中得到了广泛的应用。主要假设环境中的所有平面在三维上都是垂直的,例如典型的建筑物或标准房间。

许多平面SLAM和视觉追踪应用都采用RGB-D相机,它非常适合室内环境。通过结合深度信息,Kaess[14]提出了一种三维平面的四元数公式,加快了RGB-D环境下优化的收敛,然后[15]将其扩展为基于关键帧的密集平面SLAM,其带有使用增量滤波和建图(iSAM)的因子图地图。Le和Ko secka[16]也将RGB-D相机与曼哈顿假设结合起来。

关于图像中平面分割的许多贡献与超像素技术密切相关。一个超像素被定义为一组具有一致颜色或亮度信息的连接像素。超像素通常用分割方法产生,典型的工作包括SLIC[17]、SEEDS[18]和图形分割超像素[19]。

Concha和Civera[20]最早提出在SLAM系统中利用超像素技术。他们使用蒙特卡罗排序来实现超像素的响应和三维位姿初始化。然后基于PTAM系统中已知的相机位姿估计,执行优化以改进平面位姿。最近的一项工作(DPPTAM)[21]将超像素集成在半稠密追踪系统中,利用RANSAC和SVD对半稠密追踪的三维点进行平面估计,利用超像素信息进行稠密建图。

受[20]、[21]的启发,我们提出利用超像素信息从两幅图像中同时估计相机位姿和多平面结构(如图1所示)。该系统要求1)从两幅图像中提取多个平面的能力;2)单应性分解中消除歧义的能力;3)将单应性表示与位姿估计优化框架相结合以获得更好的性能。

3 概述
我们提出的方法由以下模块组成(如图二所示):1)图像超像素化和超像素追踪过程:提取并匹配由一对图像获得的对应的超像素信息;2)基于超像素的RANSAC:以鲁棒的方式检测多平面结构;3)多个单应性分解:计算相机姿态并消除单应性中的歧义;4)非线性优化:应用类似于BA的方式在图像对和图像序列中优化相机和平面。下一节将分别详细介绍所有模块。

4 超像素的提取和追踪
我们的工作基于超像素是图像中平面区域的良好初步猜测,因为它们通常在像素级别上表现出强烈的颜色一致性和空间一致性。我们利用超像素空间关系(邻接)和局部关键点描述子在两个不同帧间进行超像素的匹配。

具体来说,首先用SLIC[17]对两帧图像Ii,Ii+1进行超像素化处理,得到两组区域,分别记为 基于超像素及多平面的位姿估计和平面重建的图2 ,k = 1...K, K为从第i幅图像中提取的超像素总数。然后,利用图结构来保存超像素之间的邻接信息。我们提出了一种单向的未加权图:Gi=(Vi,Ei),其中Vi是Ii中超像素的集合,E表示它们的邻接关系(当两个超像素区域相邻时值为1)。

一旦分割完成,就需要一个超像素跟踪系统来匹配两帧之间的超像素区域。我们通过匹配从每个超像素区域提取的关键点描述子(例如ORB[22])来进行这一步。在此过程中采用了交叉检查的贪婪匹配策略。

与常见的超像素跟踪任务[23]主要侧重于从静态背景中重新识别运动目标不同,SLAM和相机位姿估计工作通常都假定是静态环境。基于这样的假设,我们提出两个图像间的超像素跟踪方法:在两个超像素区域及图结构中超像素的邻域中寻找关键点匹配数量的最大值,因为在静态环境中,每个超像素应保持相对刚性的局部结构,而邻域dG的深度由用于控制相邻区域范围的图上距离(最短路径)表示。 我们将顶点Vk周围的这些邻域表示为NdG(Vk)
基于超像素及多平面的位姿估计和平面重建的图3
如图2和全文所示,图像对间匹配的超像素由同一颜色突出显示。

基于超像素及多平面的位姿估计和平面重建的图4
图2 系统从一对彩色图像生成一个相对的相机姿态和三维多平面地图的流程。
5 多单应性估计

(一) 单应性和RANSAC

在一个平面环境中,可以用单应性矩阵2H1∈SL(3)描述两帧图像I1和I2中同一平面的变换。当相机的内参校正矩阵K已知时,从提取的所有像素可以反向投影为归一化的三维坐标,用P1和P2∈R3表示。因此可以用下式的单应性矩阵施加约束:
基于超像素及多平面的位姿估计和平面重建的图5
单应性矩阵由旋转矩阵2R1∈SO(3)、平移向量2t1∈R3和的法向量n1=(a,b,c)T∈R3组成。由此可以描述平面为PTn1=d,其中,P∈R3是平面上的三维点,d是平面到原点的垂直距离:
基于超像素及多平面的位姿估计和平面重建的图6
有多种方法可以从图像对中计算单应性矩阵2H1∈SL(3)。随机样本一致性(RANSAC)方法[24]依赖于两帧中两个匹配的关键点集{P1}、{P2}和直接线性变换(DLT)技术[25]。它的目标是将数据分为两组:内点集(即共识集(CS))和外点集(假数据)。

首先介绍RANSAC中使用的一些符号。我们用D = {X1,…,XN}表示I1和I2中所有匹配的关键点集:X = {P1,P2}。将单应性H作为估计模型。然后定义:

(1)最小采样集:M:估计单应性所需点对的最小数量,单个单应性估计M值为4。
(2)采样过程: 基于超像素及多平面的位姿估计和平面重建的图7 ,它在D中对所有子集进行采样,基数等于M。采样通常是通过随机选择4个点来计算H。
(3)模型估计函数: 基于超像素及多平面的位姿估计和平面重建的图8 ,DLT从四个未退化的点中估计H。
(4)内点阈值:我们采用点和它的配对点投影的距离(P2-2H1P1)2表示判断内点的阈值。

使用这些定义,可以将RANSAC过程重新定义为一种算法,它通过随机采样M来搜索最大共识集,并通过一个带有阈值的度量函数来评估其共识集。

(二) 多模型PANSAC

虽然在提取场景中的主平面时RANSAC是有效的,但许多应用是在主平面被遮挡、可见到多个具有相似表面的平面的情形下。由于同一模型的多个实例出现在一个数据集中(如多个平面),RANSAC不仅遭受恶劣的外点(纯噪声,如关键点的错误匹配),而且还遭受伪外点[26]:外点在感兴趣的结构内,但内点在不同结构中。为了解决这类多模型估计问题(即搜索多个平面),已有许多RANSAC类算法被提出,如顺序RANSAC[27]、[28]和[29]。

顺序RANSAC包括以迭代的方式将RANSAC应用于多模型数据集。对于RANSAC的每次迭代,将发现的内点 (共识集)从数据集中剔除。虽然序列的性质往往受到伪外点[29]的影响,但对前一次迭代的错误估计可能导致在接下来的迭代中出现错误。为了减轻这个错误估计,Kanazawa的抽样技术[27]被广泛应用且被证明有效,它可以在先前选择的数据点(例如,通过高斯分布)附近进行局部采样,而不是在所有数据集中随机选择: 基于超像素及多平面的位姿估计和平面重建的图9 描述了在先前选择的点为P0且采样范围由Σ控制情况下选择点P的概率。

另一个多模型估计问题是估计冗余。相同的模型可能会被多次估计,因为移除内点的过程无法完全清除先前检测到的模型的伪异常值(通常是因为阈值选择不当或数据经历了严重的不平衡),因此其余的先前模型的伪异常值仍然可以形成一个相似的模型,其共识集数量要比其他模型多。此外,其余的伪异常值隐含地增加了顺序过程迭代的外点比率,并使估计值恶化。

(三) 基于超像素的“胜者全得”RANSAC

为了解决这些问题,我们提出了一种“胜者全得”的RANSAC,该RANSAC受[27]的启发,利用超像素信息的同时解决了误检测和冗余估计问题。我们利用超像素来实现它们的相对共面性:假设一个超像素内的所有信息应该是相对共面的,因为它们共享局部邻近性和颜色相似性。这些共面区域在Kawazana采样中起采样范围Σ的作用。与以往对所有数据集凭经验确定的各向同性Σ不同,我们直接使用超像素区域作为自适应采样范围,甚至避免计算条件概率:例如,只选择一个超像素或它的邻近图上距离NdG(Vk)(见等式(1))的点。

清晰起见,我们提出了一些记号。

1. 超像素聚类地图:C:从图像中的像素返回超像素标签。
2. 超像素邻域采样::用以下方式选择M(单应性为四)对点的采样方法:
(1)在所有数据集中统一采样第一个关键点P1。
(2)通过聚类图C找到P1的超像素V1。
(3)仅对特定距离dG的子图中的数据采样其他M-1点,而不是V1:{P2,...,Pm}=S(D(NdG(V1)))
3. 内点比ρ:本文定义了两个比率,即所有内点的比率和每个超像素区域中内点的比率 基于超像素及多平面的位姿估计和平面重建的图10 ,分别定义为所有数据(例如提取的关键点)和一个超像素区域中的内点数目。

WTA-RANSAC算法主要思想类似于顺序RANSAC。但是,在每次估算迭代之后,我们都采取了“赢者通吃”的策略,而不是仅从数据集中删除共识集:如果超像素区域中有显着更高的内点比率(由q操纵),则该超像素区域的所有点失效,表明该超像素由平面主导。由于一个超像素主要由一个平面组成,因此这可以消除被检测平面的伪外点及其共识集,从而提高了对虚假和冗余估计问题的鲁棒性。停止条件被设计为已分配给关键平面的关键点的比率阈值。

6 单应性描述和消除歧义

一旦计算出单应性矩阵,有许多方法将矩阵2H1分解为2R1,2t1/d和n1(平移达到一个尺度)。从分析上讲,线性分解方法能够做到这一点,但仍会产生一些歧义。即使在应用所有点对相机可见的条件之后,仍然存在两个歧义。如果先验地知道R,t,n中的至少一个元素,则可以解决歧义,例如:已知地面的法线方向垂直向上,或者IMU能够指出运动方向或者筛选歧义结果的其他度量方法。

不能区分两个歧义的主要原因是,它们在几何上都具有单应性约束。不可能区分两个歧义的主要原因是,它们在几何上都具有单应性约束。 在[9]的工作中,这两个歧义{Ra,ta,na}和{Rb,tb,nb}间的平移矢量的关系显示如下(为简单起见,在不混淆的情况下,我们在本节中使用Ra描述歧义2R1a,这与所有其他表示法相似):
基于超像素及多平面的位姿估计和平面重建的图11
基于超像素及多平面的位姿估计和平面重建的图12
等式(3)和(4)表明ta和tb之间的差异实际上受Ra和na的影响。 对于单一单应性的情况,不能利用这种关系来选择两个图像之间的真实变换。 然而,在多重单应性的条件下,方程(3)有额外的约束。实际上,由于相机在移动时场景是静态的,因此所有的单应性实际上在不同平面上共享相同的平移和旋转。我们的直觉是依靠此共享信息来消除分解的歧义。

对于多重单应性场景{Hi}中的每个Hi,可以将两个可能的歧义表示为地面真值集{Rti,tti,nti}及其歧义集{Rfi,tfi,nfi}。 由于所有单应性均具有唯一的tt和Rt:
基于超像素及多平面的位姿估计和平面重建的图13
这意味真实平移tt和模糊的tfi之间的关系仅受平面的法向矢量nti影响。 假设至少两个平面具有不同的法向矢量(这是常见的多重平面场景),则可以通过简单地选择公共平移矢量来找到真实变换{Rt,tt},从而消除了歧义解。通过在所有平移向量的方向上实施相当简单的投票系统来执行此过程。 通过考虑角度阈值(在我们的实现中为15°)来收集矢量,我们选择投票最多的平移矢量,从而消除了每个平面的歧义。

7 非线性多平面优化

(一)图像对非线性优化

在传统的SLAM系统中,通过最小化地标(例如关键点,线条或其他特征)在图像空间上的重新投影误差,引入了捆绑调整技术来优化相机的位姿和地标。同样,对于两个图像之间的单应变换,先前的工作(例如,基于图像的视觉伺服系统[30])已经显示出,利用先前已知的平面,相机姿态的估计(变换{R,t}的最小表示)可以通过最小二乘高斯-牛顿优化过程来实现,方法类似于最小化重投影误差,n = 1...Np为关键点的数目。通过将平面参数π1= {n1,d}添加到系统中,对于单个单应性而言,优化框架具有以下形式:
基于超像素及多平面的位姿估计和平面重建的图14
稠密形式的雅可比行列式 (6)可以改写为:
基于超像素及多平面的位姿估计和平面重建的图15
相机位姿的雅可比J(q)定义为:
基于超像素及多平面的位姿估计和平面重建的图16
其中,(x,y)是对应于P,的2D点坐标,1 / Z是深度倒数,并使用第2帧中的P2关键点如下计算(请参见[30]):
基于超像素及多平面的位姿估计和平面重建的图17
与平面的雅克比相似,四列代表
基于超像素及多平面的位姿估计和平面重建的图18
tx是 基于超像素及多平面的位姿估计和平面重建的图19 中的x轴值。
然而,由于多单应性是在静态环境下,图像中检测到的一系列单应性关系{2H1i}包括共享的变换分解为2R1,2t1,其中i=1...Nπ为平面数目:
基于超像素及多平面的位姿估计和平面重建的图20
通过这个特性,我们提出了多单应性下相机位姿和平面的优化。
基于超像素及多平面的位姿估计和平面重建的图21
雅克比矩阵是稀疏形式,比如计算平面i∈1...Nπ所有关键点的雅克比块可以被定义为:
基于超像素及多平面的位姿估计和平面重建的图22
因此,单个图像的所有平面的雅克比为:
基于超像素及多平面的位姿估计和平面重建的图23
参考Ⅷ节图像对间的估计可视化。
(二)类似于BA的优化

(1)平面关联: 不像[1]和[31]中广泛使用的基于特征点的BA技术,我们的3D平面地图类似于二维结构:提取的特征点属于不同的平面。因此,对于接下来的BA环节,平面关联是必须的。问题可以重新定义如下:我们从两个帧{πc}和{πc+1}中寻找匹配两组平面的方法。

与直接比较这些平面参数{n,d}而不考虑图像信息的相关工作[14]或仅考虑图像重叠信息但不考虑几何约束的其他工作相比,我们提出了一种考虑几何信息和图像信息的混合平面关联策略:

① 由于距离d受尺度模糊的严重影响,我们首先比较两个法向矢量d(nc,nc+1)间的角度。但是,此方法无法区分环境中的两个平行平面。
② 超像素追踪结果也被考虑在内。它不仅有助于避免平行平面不匹配,而且在图像之间的平移太小且所有平面成为一个单应性时拒绝相机位姿 。
③ 最后检查平面之间匹配的描述子的数量。通过单应性重新投影后的搜索也可以用于更鲁棒的匹配结果:例如,为了比较帧Pc+n和帧Pc之间的关键点,因为没有从图像计算出直接的c+nHc,可以通过乘单应性矩阵c+nHc+n-1。。。c+1HcPc来确定帧i中的关键点并通过搜索方法将它们与Pc+n比较。

(2)平面地图优化:平面地图优化包含一个优化框架,该框架可优化所有关键帧的位姿及其通过平面匹配过程找到的公共平面。每个关键帧包含多个平面和每个平面中的关键点。一旦在不同的关键帧(例如基于点的SLAM的全局BA)上获得了联合平面信息,此过程就消除了漂移问题,解决了尺度的歧义,并确定了整个过程的相机轨迹。我们建议采用类似BA的优化方法,说明所有不同关键帧中的所有单应性:
基于超像素及多平面的位姿估计和平面重建的图24
其中c和i是帧数和平面数的索引,Nc和Nπ分别代表帧和平面的总数。

(3)关键帧选取: 我们建议的关键帧选择是一种直接的启发式方法,可与[1],[2]之类的系统相提并论。我们依靠视差指标(定义为图像间所有匹配的关键点的平均变换)和匹配质量来选择关键帧。检查两个条件:① 在至少给定数量的像素上具有视差;这是从一个数据集到另一个数据集的超参数,根据经验可在20到40个像素之间找到。② 至少一定数量的平面完全匹配。此参数也是可调整的,因为某些环境包含许多小平面,而某些环境包含较少的平面。

8 实验

我们的实验包括三部分:图像对、室内实验和室外实验。

我们在不同的环境和相机类型下测试不同的图像对,包括Kinect相机的RGB图像[32],手持手机[33]和微型飞行器图像[34]。结果如图3所示,包括平面估计、相应的深度图像以及带有相机位姿的三维平面地图。另一个对比的例子如图4所示,估计的深度图像与Kinect相机估计的地面真值很好对应,能够保持非常稠密的形式,这对于稀疏甚至半密集的RGB单目地图系统来说是很难做到的。

对全序列图像进行室内环境测试采用的是[21]、[35]中使用的TUM RGB-D数据集[32]。场景构建为一个纯粹的平面环境,但是墙上的均匀颜色分布对于超像素提取来说是一个相对的挑战:很多超像素都是在两个平面的边界生成的,因为它们的颜色看起来非常相似。结果与ORB-SLAM[1], LSD-SLAM[2], 多级建图[35]和DPPTAM[21]的对比如表一所示。就绝对位姿误差而言,我们的方法优于所有稠密和半稠密的方法,并且相对于当前最新的基于关键点的单目稀疏SLAM[1](仅提供稀疏点云建图)达到了一个良好的精度等级。相对于[1]更低的性能原因可能是我们的原始关键帧选取策略,因为在关键帧手动选择的同时,结果得到了显著的改善。

基于超像素及多平面的位姿估计和平面重建的图25
图3 从图像对中估计的结果包括深度图和3D平面图,显示了我们的方法在多平面环境下的估计效果很好。结果(c)表明,我们的方法在不依赖于曼哈顿假设的情况下很好地保留了平面之间的正交性。
 
基于超像素及多平面的位姿估计和平面重建的图26
图4 TUM数据集[32]的图像对和真实场景的深度图的估计结果比较。带有小数目的参数(3平面),我们提出的方法能够生成稠密地图。
 
基于超像素及多平面的位姿估计和平面重建的图27
图5 我们的方法生成的TUM数据集[32]的三维平面地图和相机轨迹。
 
表1 TUM的RGB-D数据集[32]的ATE评估
基于超像素及多平面的位姿估计和平面重建的图28

提出的方法优于DPPTAM、LSD-SLAM和多级建图,尽管性能落后于ORB-SLAM(不带有平面假设的基于关键点的单目稀疏SLAM),但是我们的方法提供了稠密的地图表达。


基于超像素及多平面的位姿估计和平面重建的图29
图6 由不同方式生成的轨迹的比较:相对于LSD-SLAM和DPP-SLAM,我们的方法展示了更稳定和相似的轨迹结果,由于全局平面表示和非线性BA,我们的结果达到了当前最新的稀疏SLAM方法ORB-SLAM的水平。

最后,我们在室外和类似走廊的环境下,对来自手持式单目灰度相机数据集的图像序列进行测试[36]。图7显示,我们的系统成功地从序列中恢复了多个平面的结构以及相机的轨迹。

基于超像素及多平面的位姿估计和平面重建的图30
图7 室外数据集[36]的实验,坐标表示关键帧的相机姿态。在类似廊道的环境下,该多平面结构无需任何假设即可得到很好的保留。

9 结论与展望

我们提出了一种从稀疏关键点估计摄像机位姿的新方法,并通过多重单应性重建稠密的平面地图表示。采用基于超像素的RANSAC方法对平面进行多单应性提取,并利用投票系统解决单应性歧义问题。我们还引入相机和平面地图的优化,以执行更精确的地图和跟踪结果。与现有的贡献相比,结果表明该方法有益。
未来的工作将集中于改进平面匹配技术和长时间的性能,以匹配稀疏SLAM技术的精度,并产生比稠密SLAM技术更轻量级的地图。


本文译自:
Relative Pose Estimation and Planar Reconstruction via
Superpixel-Driven Multiple Homographies
文章来源:
2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
作者:
Xi Wang, Marc Christie, Eric Marchand
原文链接:
http://ras.papercept.net/images/temp/IROS/files/1630.pdf
默认 最新
当前暂无评论,小编等你评论哦!
点赞 评论 收藏
关注