【论文简述】Generalized Binary Search Network

2. 发表年份:2022
3. 发表期刊:CVPR
4. 关键词:MVS、3D重建、二值搜索、从粗到细
5. 探索动机:3D代价体非常消耗内存 。现有的工作可以在一定程度上减缓这个问题,但普遍导致精度下降 。深度假设数,在导致较大的内存占用中起着主导作用 。
, ais that 3D costare-.works madetothis issue viatheofmaps , using a -to-finethatofmaps whilethe depth, and3D CNN or RNN.thecan beto some ,loweris. The size of 3D cost ,the depth, plays arole ina large.
6. 工作目标:由于3D代价体在模型效率和有效性方面的重要性,一个关键的问题自然出现了:在保持尽可能小的内存开销的同时,确保精度的最小体大小是多少?
Thecan be seen as a densethatall depthto ain a. The -to-finea multi- , whichfrom alevel andthe . , these two types ofbothdensein each stage. We argue that the densedoes notdue to a muchspace andmodel ,toin model .由于预测空间大得多,密集搜索不一定能保证更高的精度,并且显著增加了模型的复杂性,导致模型训练中的优化难度更高 。
7. 核心思想:本文通过从离散搜索策略的角度探索这个问题,以确定最小深度假设数 。
8. 实验结果:又小又好
Ourstate-of-the-artonDTU and Tanks & . , on DTU, weanscore of 0.289 (lower is ),thebest, and alsoaof 48.0%to54.1%to .
9.论文&代码下载:
二、实现过程 1. 概述
总体框架如图所示 。它主要由两部分组成,即用于学习视觉图像表达的2D CNN网络和用于迭代深度估计的广义二进制搜索网络 。GBi-Net包含K个搜索阶段,在每个搜索阶段,首先通过参考特征图和源特征图在特定对应比例下的单应性变化和4个深度假设,来计算3D代价体并进行融合 。然后利用3D CNN对代价体进行正则化,以进行深度标签预测 。广义二进制搜索能够根据预测的标签迭代初始化和更新深度假设 。在每两个阶段中,网络处理相同尺度的特征图,并共享网络参数 。最后,根据深度图GT计算出一个训练整个网络的One-hot标签 。
2.图像编码
使用特征金字塔网络(FPN)作为图像编码器,学习具有共享网络参数的图像的通用表示,共4层输出:(1/8,1/8,32),(1/4,1/4,32),(1/2,1/2,16),(1,1,8),最后的输出层使用可变形卷积 。
3.代价体正则化

【论文简述】Generalized Binary Search Network

文章插图
给定第k个搜索阶段的D个深度假设,即dk,通过对学习到的图像特征进行单应性变化和插值构建各视图特征体,对每个源视角特征体与参考视角特征体计算分组内积得到各视角的2视图代价体 。具体来说,将特征图的通道沿通道维度划分为Ng组,因此每个特征组都有Nc/Ng通道 。Fgi是Fi的第g个特征组 。那么可以从Fi计算出第i个代价体Vi,如下所示:
其中?·,·?表示通过内积操作进行相关计算 。在构建每个2视图代价体后,应用了几个3D CNN层来预测一组像素权重矩阵Wi 。然后我们用Wi,通过加权融合将这些代价体融合为一个代价体V,如下所示:
融合的3D代价体V然后由3D正则化UNet,逐渐将V的通道减小到1,输出大小为D, H, W 。最后,沿着D维执行(·)函数,生成用于计算训练损失和标签的概率体P 。
4. MVS的二分查找
在这项工作中,从离散搜索的角度探索了一种合理的最优采样策略,以获得高效的MVS,并提出了一种二叉搜索方法(Bi-Net) 。具体来说:
1. 不是直接在给定深度范围R中采样深度值,对于第k个搜索阶段,将深度范围划分为两个相等的箱子Bk,j(j=1,2),B1,j的箱子宽度为第一阶段为R/2,从左到右的三个边(分隔位置)ek,m(m=1,2,3) 。由于不能直接使用离散箱来warp特征图,对这两个箱的中心点(即相邻两条边的中点)进行采样,以表示箱的深度假设,然后构建代价体并对这两个箱进行标签预测: