11
25
2013
1

测试word发布文章

 

手持相机的运动目标提取

 

北京邮电大学 李俊 译

 

摘要:

 

    本文展示了一种全新的从手持相机拍摄的视频序列中检测并准确提取运动目标的方法。为了提取出高质量的运动前景,以往的方法通常假设背景静止或者只有二维仿射变换。在我们的方法中,基于鲁棒运动估计,我们可以处理富有挑战性的复杂深度背景或者相机运动情况未知的视频。我们提出在三维仿射变换中的外观和结构连续性约束,大幅度地提升了前景分割的效果(甚至在物体的边缘)。通过选择性地使用连续-离散优化,稠密运动估计和双层分割结果可以被迭代地优化。在有挑战性的视频中高质量的移动目标检测结果证明了我们的方法的有效性。

 

1. 介绍

 

在计算机视觉领域,从视频中准确提取前景是一项热门的研究话题。对于一

个可应用的高质量视频编辑工具,通常要求前景物体可以鲁棒地被检测、分离和编辑。然而,由于大量的未知数和计算中可能存在的几何与运动模糊性,这个问题就成为了不确定问题。

    为了用看上去合理的边界分割前景目标,一些假设相机基本静止、背景已知或可被建模的方法被提了出来[5,10,15,4]。在[7]中,通过使用立体视频序列并假设背景基本静止,目标色度、梯度和位移信息被整合到一起实时地判断出前景层。接着,在[15,4]中分别提出了两种方法,使用不同的空间和时间的先验知识将前景从单一的静态相机中分离出来。最近,[20]中提出了一种甚至可以在分散运动背景的条件下单相机地判断出双层分割的方法。对于所有的这些方法,如果相机经历了随意的位移和旋转运动或者背景具有复杂的几何结构,由于下面的几个因素,前景将不能被准确提取:

    运动估计

    在视频中,即使使用目前最先进的算法,运动估计误差仍然不可避免[2,18,8]。该估计的不准确性可能导致在分割中正确重建背景信息和建模背景先验知识时发生严重问题。

    前景定义

    运动的相机也导致了在定义与确定前景目标的困难性。如果背景已知,可以确定的是前景可以用色度连续性约束或者其他更精细的追踪或贝叶斯检测方法检测和提取[19,13]。然而,如果背景一开始就位置,前景的定义将是模糊的。在本文中,我们将证明,把几何上靠近相机的像素点或者大幅运动的像素点标记为前景,在许多情况下都是不正确的。

    最近几十年,出了双层分割,运动分割也被广泛研究。[1,17,6,8]这些方法的目的是聚合具有相似运动的像素点,最终聚类运动到多层。这些方法的目的不在于实现高质量的前景提取并通常产生不准确的目标边界的分割,尤其当遮挡或不去遮挡发生时。

    在本文中,我们提出了一种自动的方法准确检测和提取由手持相机拍摄的视频序列中的运动目标。我们的方法在好几个方面具有优势,提高了尤其在目标边缘的双层分割准确率。在运动估计的过程中,为了最小化由光流表达式产生的误差,一方面,我们引入了遮挡参数并提出了"连续—离散"最优化方法以避免陷入局部最优解。另一方面,我们应用运动结构技术实现了可靠地恢复相机运动和稀疏三维点。这些点映射到不同的帧作为可靠的建立运动优化的锚点。

    在双层分割中,利用相机参数,多视角的几何约束被整合进了我们的层次分割模型。在三维仿射变换中一个新的外观和结构约束被引入我们的方法中以对视频中的运动目标和背景的关键不同之处进行建模。最后的前景通过综合所有的约束和考虑"时间—空间"平滑性的最优化问题的求解而提取得到。

    本文按照如下方式组织:在第二部分,我们给出了我们方法的综述。在第三部分,描述了鲁棒光流和稠密深度估计方法。在第四部分,描述了运动前景检测与提取。第五部分展示了实验结果。在第六部分,我们讨论和总结了我们的文章。

 

2.我们的方法

 

    给定一个自由运动相机拍色的n帧的视频序列,我们的目标是在开始物体运动情况未知的情况下实现高质量的前景提取。我们定义为第t帧的像素点i的值。我们在本文中的目标是估计第t帧每个像素点i的分割标签. 具有两个值。当像素点属于运动的前景物体时,。当它在背景中时,。我们为所有的像素点初始化。

    为了自动计算出一个视觉完美和感知正确的前景提取结果,我们的方法在两个步骤中迭代:稠密深度估计和前景标注,直到获得一个稳定的双层分割结果。表1给出了我们的算法综述。

表1. 我们的框架的综述

 

3. 稠密运动估计

 

    我们使用[21]中提出的来自运动的结构(SFM)的方法来恢复给定视频序列的相机运动参数。为了完整性,我们在下面简要总结该方法。

    我们首先在整个视频序列中检测和追踪特征点。然后,我们选择好的追踪和关键帧,并初始化从参考的三帧中得到的投影重建。投影重建在一个合适的时刻通过自校准升级到一个度量的框架。对于每一个新增的帧,新的相机参数和三维点将被初始化,已有的结构和运动信息被重定义。最后,通过整体调整,所有的结构与运动信息被重定义。

    SFM估计的输出结果包括恢复的相机参数集C合一个映射到视频序列中的稀疏3D点集D。我们首先定义每帧t的相机参数为,其中是内在矩阵,是旋转矩阵,是位移向量。

 

3.1 运动估计

 

    每个像素点的运动情况可以在视频中的连续帧中计算得到。我们使用位移向量来建模像素点i在相邻两帧t和t+1之间的运动。为了处理遮挡的情况,对于每一帧和,我们为每个像素点i定义遮挡标签。当从帧t映射到帧t+1时,如果某个像素点被遮挡,被置为1。

    我们定义下面的目标函数来求解稠密位移图:

 

    其中和是双向能量表达式,分别表示从帧t到帧t+1的映射和从帧t+1到帧t的映射。由于它们的定义方式类似,我们只给出的定义如下:

 

    其中表示相邻像素点集。能量表达式中有3个参数:(i)数据匹配表达式m(i),(ii)平滑表达式s(i,j),其中包含了运动的空间平滑和视觉连续性,还有(iii)来自于恢复的三维点的先验信息。

 

 

 

 

 

3.2 能量函数

 

    数据匹配表达式m(i)定义的是匹配的像素点之间的色度连续性,由如下式子给出:

 

    其中在中点与中点i相匹配。是一个惩罚项,与[14]中定义的类似,防止所有的像素点被标记为遮挡。是一个可微的鲁棒函数:

 

如果,理论上应该存在遮挡。然而,在我们的最优化过程中,由于使用了离散图像空间以及可能的估计误差,双层分割并不总是准确的,因此定义匹配损失为来约束损失。利用光流法,在和之间的色度差异可以进一步表示为:

 

    其中分别是图像在x,y和t方向上的梯度。上述函数的连续性在计算一阶导数时非常重要:

 

    这使得应用非线性连续最优化(例如最速下降法)估计d成为可能。

    平滑表达式 s(i,j)可以增强运动和遮挡的平滑性,它被定义为:

 

    其中和是在每帧中的位移和遮挡空间平滑性约束。是一个鲁棒函数,定义为:

 

    这意味着如果两个相邻点在分割后属于不同的层,空间平滑性约束不需要被保留了。控制损失的上界。是一个二值项,表示是否存在一个或多个像素点i可以根据位移值匹配到[14]。如果中没有对应于的像素点,的值被设为1。

    先验表达式 D加强了来自于我们的SFM估计的稀疏3D点集D的约束,对于3D点X,它在和上的投影被表示为和,其中可以通过

 

计算得到。估计的相机参数和来自于SFM步骤。

    这些像素点应该被匹配并在光流估计中作为锚点。

 

    其中是X具有相应的特征点的帧的集合。权重被设置为一个比较大的值。

 

 

3.3 求解能量函数

 

    结合不同的能量表达式的定义,我们考虑双向遮挡,求解稠密位移图。

    遮挡o初始化全为0. 利用恢复的3D点集D,我们可以定义对应于D中的3D稀疏锚点的位移。其他像素点的运动用我们的运动插值进行初始化。特别地,在每一帧里,我们生成稀疏锚点的三维三角测度。接着,每个三角形内的像素点运动向量用三角插值进行初始化。我们的运动最优化算法在下面两步中迭代:

  1. 固定o,最小化(1)估计d
  2. 固定d,最小化(1)估计o。由于遮挡o是具有二值的项,我们使用图割[3]算法来计算它。

在步骤1中,非线性最优化方法,例如最速下降算法,可以用于估计d。然而,它要求一个好的初始点,并容易陷入局部最优解。为了解决这个问题,我们提出了"连续—离散"最优化过程。

我们首先应用最速下降法为每个帧对估计一个位移图。在这一步中,假如求解空间是高维的,求解空间可能仅仅是一个局部最小值点。为了将结果拉出局部最小值点,我们把位移向量在x和y方向上分别在和进行标量量化,其中是一个常量值,在我们的实验中被设置为5。接着,在离散空间里面,利用多环置信度传播[16]计算一个更好的解。在我们的实验中,连续和离散最优化交替进行并快速收敛。

 

 

3.4 深度估计与几何约束

 

    一旦稠密运动向量被计算出来,我们就可以根据像素点的位移情况连接每个像素点在相邻帧里面的前向和后向位置。这个过程最终构成稠密运动追踪。假设估计的光流并不总是准确的,并且在构造追踪时误差可能会累积。如果下面的某种情况发生,我们将到已连接的点和之间的联系:(1)或i被标记为遮挡;(2)光流连续性误差

 

大于一个阈值(在我们的实验中为2)。经过上面的过程,所有的追踪将被限制不超过N帧(在我们的实验中为30)。

    对于一个从展开到的追踪p,根据运动向量的定义,在追踪p里面不同帧的像素点应当对应于同一个3D点。把在追踪p里面帧t的像素点表示为,理论上,我们应该有:

 

其中K,R,T是估计的相机参数。

    在实际例子中,上述表达式并不成立,如果我们计算,通常会存在残差。因此,我们通过最小化均方根误差(RMSE)估计:

 

    在我们的方法中,求解表达式(6)的方法与[11]类似。在获得一系列的X的集合后,对于每帧t的深度图,可以通过存储深度值,同时,我们s使用残差图记录帧t所有像素点的均方根误差。

    如果某个像素点映射到背景中的一个3D点,它的残差应该很小,以满足集合多视角约束。如果它不满足集合约束,像素点很可能映射到前景。

 

 

 

 

 

 

 

 

 

 

 

4.运动物体估计

 

尽管残差图和深度图包含检测运动物体的重要信息,由于以下原因,它们仍然不足以准确定义前景像素。

首先,残差和深度信息严重依赖于运动估计的准确性。它们的值在运动边界时并不可靠,如图1(a)所示。

 

 

(a)

 

 

 

 

(b)

 

 

 

 

一幅图像 恢复的深度图 残差图

图1 几何约束的问题。(a)在物体边界的残差都是富含噪声的。(b)运动物体的残差图很小,估计的运动物体深度值很大,与真实值矛盾。

    其次,运动物体残差可能很小,以满足几何约束。例如,在一个视频流中,为了保持前景在所有帧的中心,相机经历了与前景物体相同的运动,计算的运动物体上像素点的残差可能会非常小。这使得这些像素点被定义为静止背景。值得注意的是这种情况下使用深度值也会对纠正误差毫无帮助。根据几何多视角约束,恢复的运动物体深度值远大于真实背景像素,如图1(b)所示,因此即使使用深度信息,运动物体的像素仍然被标注为背景。

    根据近的物体遮挡远的物体的事实,我们提出了在三维仿射变换中基于外表和结构连续性约束的方法,可以合适地解决所有问题。

 

 

 

 

4.1 外观和结构连续性

 

    一旦深度图被计算出来,通过把一帧中的像素点投影到它们的3D位置并重投影3D点到其他的帧,三维仿射技术可以实现新的视图。在我们的方法中,对于帧t,我们选择它邻近的2l帧,也就是,。接着我们利用深度信息把这些帧仿射到。残差大于阈值(在我们的实验中为3)的像素点非常可能出现在运动物体上。因此我们在仿射变换时排除掉它们。从映射到的图像被表示为。图2给出了说明。红色像素点是那些在放射中不进行投影的像素点。

图2. 三维仿射。的邻近帧被仿射到。红色像素点是在仿射变换中由于大的残差或遮挡没有接受到投影的像素点。

 

 

    由于累积误差,仿射点可能偏离它的正确位置。因此我们用下述方法在窗内搜索最好的匹配点。与和相关的点i的外观误差为:

 

其中W是一个窗,是搜索的下标。在图3中给予说明。在我们的实验中,窗W的大小被设置为7*7,和取值在区间[-7,7]。

图3 使用窗局部搜索最好的匹配。对于中的像素点i,它在中最好的匹配点是,偏离了真实的位置。红色实矩形是匹配窗W,蓝色虚框表示搜索的区域。

    我们也用类似于仿射帧的方法建立仿射后的深度图。我们提出了一个结构误差测度来搜索定义在深度图上的局部最优匹配。关于和在像素点i的结构误差被定义为:

 

其中是在帧中恢复的深度图。

    计算(7)和(8)之后,帧t每一个像素点都有几个外观和结构误差度量。它们基本上可以表示某个像素点是前景或者背景的概率。例如,如果残差比较大,像素点i就有很高的可能性在运动前景中。对于每个像素点,我们运用中值滤波到所有的和,其中,并计算中值:

 

 

外观连续性表达式定义为:

 

其中是标准差。由于和都是定义在深度上的,我们在结构连续性表达式中把它们结合在一起:

 

其中和是两个标准差。在我们的大部分实验中,。这里,是图像的深度范围,可以用恢复的3D点集D进行估计。

结合外观和结构连续性表达式,数据似然表达式定义为:

 

 

其中是外观与结构连续性表达式,结合了和,定义为:

 

其中是一个平衡两个表达式权重的因子。

    有了我们的似然定义,我们接下来分析我们提出的模型可以解决第4部分提出的问题。首先,我们的模型使用了三维仿射,对累积错误和人工边界不敏感,如图4所示。其次,我们的模型可以如实地表示遮挡。例如,如果运动物体和相机具有相同的运动,根据几何多视角约束,它恢复后的深度值将会非常大。我们通过三维仿射使用靠近帧t的帧来产生。由于运动物体的像素点具有比背景更大的深度值,在仿射后的运动像素将会被背景遮挡。因此,运动像素,不管在帧t中深度值是多少,将有比较大的外观和结构连续性误差,似然式子(9)可以用于准确建模运动物体。

 

4.2 双层分割模型

 

    仅仅使用似然表达式(9)来分割不能有效保证边界平滑,我们引入了下述前景/背景分割能量函数

 

这里有两项:数据表达式和包含空间平滑表达式和时间连续性表达式的平滑表达式。和是相对权重。实验中我们让。在我们的实验中,我们发现在图中,计算帧t的所有像素,会在运动物体的边界具有较大的对比度。因此空间平滑表达式应当加强前景边界位于图和图的大对比度的地方。我们计算图的对比度为:

 

其中是卷积运算,是具有特征宽度的高斯平滑滤波器。

    我们也削弱了背景对比度以加强背景的平滑。在计算帧t的每个像素的外观连续性误差的时候,假设存在于(即,),并且它们对应的最好匹配点是,我们把视作点i的背景颜色。因此我们估计的背景图像,并用[15]中的方法削弱背景对比度,削弱后的颜色对比度被表示为。

    最后我们结合和来定义空间平滑表达式:

 

其中在我们的实验中。

时间连续性表达式是双向的,定义为:

 

在运动估计时,让中对应于中像素点i,则定义为

 

其中用于评价在(5)中定义的光流连续性误差和运动估计时的色度差异,它定义为:

 

其中在我们的实验中,被对称地定义。

 

4.3 迭代优化

 

    为了计算每帧t的外观和结构连续性图的复杂度,我们只选择它邻近的20-30帧来实现三维仿射。计算了外观和结构连续性图之后,我们应用"图割"方法通过最小化来计算。如果我们用所有帧来计算,该过程将会非常耗时。如果视频中的两帧不邻近,时间平滑可能不成立,因此这也没有必要。在我们的方法中,我们在视频中从头至尾每次求解10帧。

    估计了之后,我们进一步定义描述在第3部分的运动参数,并用它们来再次优化。在我们的方法中,两次迭代就足够了。最后,二值化的前景图用边缘抠图重新定义[12]。表2列出了实验中的参数值。

表2 实验中的参数配置

 

 

5.实验结果

 

我们用几个手持相机拍摄的富有挑战性的视频序列来验证我们的算法。表3列出了我们使用的视频序列的统计信息。可以发现,在所有的视频序列中都有强烈的震动。并且由于去交错的过程,在物体边界附近有颜色混合,这些因素使得准确的前景分割变得困难。

表3 三个测试序列的视频长度

图4显示了我们的方法可以成功提取运动物体。由于几何约束的模糊性,不能仅仅用深度图和残差图提取前景。图4(b)和(c)表明运动物体残差非常小,前景部分恢复的深度值很大,偏离了真实值。图4(d)展示了定义在(10)的外观和结构连续性图。图4(e)和(f)分别显示了外观和结构连续性对比度图和削弱后的色彩对比度图,图4(g)所示的事使用它们产生的空间平滑表达式图。图4(h)展示了我们的二值化分割结果,(i)展示了我们通过抠图方法重新得到的前景提取结果。

图4 (a)树视频的一帧 (b)残差图 (c)恢复的深度图 (d)定义在(10)上的外观和结构连续性图 (e)外观和结构连续性对比图 (f)削弱后的颜色对比图 (g)定义在(12)上的空间平滑图 (h)前景分割结果 (i)抠图后前景提取结果 (j)(h)的部分放大结果 (k)(i)的部分放大结果

图5展示了一个使用带遮挡的"树"序列的估计的前向光流图。在(b)中,每个像素点的位移被计算为。在图5(c)中我们恢复后的遮挡图更接近真实值。

图5 光流法。 (a)某一帧。(b)光流图。(c)遮挡图

    图6展示了更多的结构来验证我们的运动物体提取系统。请参考补充的视频以获取完整的帧序列。

图6 更多的例子。 (a)"台阶"例子。 (b)"道路"例子。 在每个例子中,最上面一列是从视频中选择的三张,中间列显示我们的前景提取结果,最下面一列显示提取结果部分放大后的视图。

 

6. 讨论与总结

 

    在本文中,我们提出了一个完整的双层分割系统来精确分割和提取手持相机拍摄的视频序列中的运动物体。我们的方法在两个主要的步骤中迭代。在第一步,我们估计相机参数和物体运动区域,可以直接得到遮挡信息。我们引入锚点作为先验信息来约束光流。连续—离散最优化方法在产生全局最优解时表现很好。在第二步中,我们把深度和运动信息引入到层分割中。实验表明深度图和几何约束在定义前景物体时具有模糊性。因此我们引入外观和结构连续性约束来可靠地检测运动物体,我们最后的结果通过求解结合了运动、深度和图像信息的最优化表达式得到。

    我们当前的系统仍然有很多局限性。首先,如果背景没有足够的特征点,并且大部分区域极其结构混乱,相机参数和光流估计将会有很大误差,进而双层分割结果可能表现得不好。这个问题可以通过合并分割到我们的运动检测里面得以缓和。其次,当前景物体包含相对于图像大小非常细的结构或者小洞时,在这些区域可能发生不准确的分割。

 

致谢

 

    我们要感谢Fangming Liu, Liansheng Wang 和Defeng Wang 在视频拍摄时的帮助,这项工作由中国NSFC(No.60633070),中国973项目和香港特别行政区的研究资助委员会的拨款所支持。该工作成果属于微软——香港大学联合实验室和中国香港大学虚拟现实、视图和图像研究中心。

Category: others | Tags: | Read Count: 1443

登录 *


loading captcha image...
(输入验证码)
or Ctrl+Enter

| Theme: Aeros 2.0 by TheBuckmaker.com