Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning

提出问题

1、之前许多方法是模仿MVS方法，使用cost volume。但是MVS在一些非朗伯平面、低纹理区域、运动物体方面表现不好。

非朗伯表面（non-Lambertian surfaces）指的是在光照条件下不遵循朗伯定律的表面。朗伯定律是指表面的反射率与入射光线的入射角无关，即在朗伯表面上，表面的亮度在各个方向上都是均匀的。
相对于朗伯表面，非朗伯表面在不同入射角度和观察角度下的反射率会发生变化。这种表面可能会显示出镜面反射、阴影、高光等效应，因而其光照特性较为复杂。这对于计算机视觉、计算机图形学以及计算机视觉中的光照估计等任务都提出了额外的挑战，因为处理非朗伯表面需要更复杂的光照模型和算法。

2、一些方法为了解决这个问题，采用教师—学生模型，用来促进单目深度和MVS深度之间的一致性。但是这种一致性让MVS深度模仿单目深度，这样不能利用到多视角的几何性质，从而限制性能。

之前的方法认为：当处理运动物体的时候，单帧深度的效果比多帧深度效果好。因为cost volume非常依赖于cost volume。

3、MVS方法中的深度假设在一个很大的范围内密集采样。但是密集采样的策略会导致模糊匹配，因为在真实的场景中不知道相机位姿和真实深度。解决办法：采用了一个高效的方法来增强几何线索。作者的直觉是，单目深度充当场景的几何优先级，通过在单目优先级附近采样深度候选项，可以显著减少多帧匹配的模糊性。

4、除了模糊匹配之外，多视角几何也有不足的三角测量先验的问题。尤其是在静止或者速度慢的视频序列中，临近帧的视差基线很小。解决办法：预测相机的速度，来自适应地适应深度的范围。速度快的会有更大的视角变化，这可以促进多视角几何，所以深度范围会被扩大，推理出更加精确的深度；相反，静态帧对于深度估计的贡献很小，因此深度范围，深度范围被缩小到更可靠的单目优先级。除此之外，作者融合了单目深度和MVS深度，通过学习cost volume中的不确定性，对多视图几何中的伪影有很强的鲁棒性的深度估计。

伪影包括光照变化、遮挡、反射、纹理等。

method

在这里插入图片描述
1、首先使用位姿网络来估计相机自运动和两帧之间的速度
2、通过一个深度网络估计单目深度
3、接着，使用预测的相机自运动和单目深度优先级，在编码的帧特征之间进行单应性变换。产生的代价体积被解码为深度图和不确定性图，这作为融合单目深度和多视角结构深度的指导。
4、深度预测的候选是自适应的，这由预测出来的相机速度引导，这解决了速度慢/静态相机的问题。

自监督学习

与monodepth2类似

网络框架

从单目深度先验得来的多视角深度

提出问题

之前使用cost volume的方法尽管减少了几何模糊性，生成了更加精确的深度，但是他们仍然受到低纹理区域、非朗伯平面、运动物体尤其是真实场景中不知道相机的运动的挑战。另一方面，单帧估计对于低纹理区域和运动物体会有更加强的鲁棒性，但是整体估计的效果不好。所以，作者采用单目线索来完善多视角深度估计。

解决办法

在这里插入图片描述
首先使用一个网络来提取二维特征，图像被下采样到4/H*4/W*C，使用平面立体扫描图来建立多个当前帧的平面。相机内参为K，位姿网络估计出来的外参为[R|T]。之前的一帧特征图将会被扭曲到当前相机视锥，pt是当前帧的像素，pt-1是前一阵的特征图

F_{t-1}

Ft?1?中相应的帧。然后就构造了以下维度的cost volume

V_{t-1}

Vt?1?：
在这里插入图片描述
D是深度候选的数目。为了减少深度查询空间，本文使用了先验的深度图。

给出前一帧的代价体，进行group correlation操作，构造出代价体,代表两帧之间的可视化相似性。

在深度估计中，group correlation 可能涉及到对 cost volume 中相邻的或位于一定空间范围内的体素进行相关性计算。这有助于模型更好地理解图像中的局部结构和纹理信息，从而提高深度估计的准确性。
具体实现中，group correlation 的操作可以使用卷积神经网络（CNN）中的卷积层或注意力机制等。这样的操作有助于在 cost volume 中引入更多的上下文信息，改善深度估计的性能。

轻量级的解码器得到由代价体解码得到的深度的可能性

∈

P in R^{H/4 ?W/4?D}

P∈RH/4?W/4?D。MVS深度由如下公式得到：
在这里插入图片描述

速度指引深度采样

提出问题

得到代价体中的深度范围是一个需要解决的问题。如果是直接在一个固定的范围进行，会消耗大量计算资源,也不能产生正确结果；最近的一些方法通过由粗到细的采样或者置信度采样，然而这些方法忽视了附近帧的三角测量先验。

解决办法

作者提出了一个速度引导的深度采样。关键点在于**将三角测量先验与相机运动速度联系起来。也就是说，相机速度快，视角点变化越大。**深度采样如下：
在这里插入图片描述
深度采样类似于方差为

D_{Mono}

DMono?，均方差为

(

)

eta T(v)

βT(v)的高斯采样，不同的是，深度候选并不是通过他们的概率被选取的，而是通过一种确定的逆采样策略：
在这里插入图片描述
逆深度采样导致像素级别上均匀分布的深度候选，这对于大规模多帧匹配是有益的。

基于不确定性的深度融合

为了解决低纹理区域、非朗博表面、运动物体，提出一种基于不确定性的融合方法，将效果不好的Dmvs换成Dmono。通过一个不确定性解码网络来学习深度概率分布的熵不确定图。采用熵的原因是深度概率分布的随机性与多视图立体（MVS）深度不确定性呈正相关关系。随后，利用不确定性地图计算融合深度。
在这里插入图片描述

损失函数

在这里插入图片描述