分享
MVSAnywhere:现阶段的终点,零样本泛化方向
输入“/”快速插入内容
MVSAnywhere:现阶段的终点,零样本泛化方向
飞书用户9071
9月4日修改
【置顶必看】k学长的深度宝典
1、研究背景
1.
多视图立体(MVS)的重要性
多视图立体任务就是从多张带有相机位姿的图片中,估计出场景的三维几何(深度)。它是三维重建、自动驾驶、VR/AR 等下游应用的核心技术。
2.
现有 MVS 方法的瓶颈
传统的深度学习 MVS 模型(比如学过的 MVSNet、CasMVSNet、TransMVSNet):
◦
在
特定场景
(如室内 or 室外)表现很好,但
跨场景泛化性差
。
◦
通常需要提前
知道深度范围
,否则无法正确构建代价体积(cost volume)。
3.
单视图深度模型的启发
最近几年出现了一批通用的
单视图深度估计模型
(比如 DepthAnything、DepthPro 等),它们在各种场景都能预测出相对合理的深度。
◦
优点:泛化性强。
◦
缺点:只有单张图像,缺乏多视图几何约束,因此深度比例容易不准确。
2、MVSAnywhere 的动机
论文作者想解决的关键问题是:
能不能有一个既继承单视图模型的泛化能力,又能利用多视图信息保证深度尺度和几何一致性的通用 MVS 系统?
他们总结了几个核心挑战:
1.
跨领域泛化
模型需要在
室内、室外、无人机航拍、自动驾驶
等各种环境下都能工作,而不仅仅局限于某一种场景。
2.
深度范围自适应
场景差异很大:
◦
室内只有几米深度;
◦
室外可能上百米。
传统 MVS 方法依赖固定的深度区间,难以适配这种差异。
3.
充分利用 Transformer 架构
Transformer 在视觉中已经很强(ViT、DepthAnything),作者希望把它引入 MVS,而不仅仅停留在 CNN 特征提取阶段。
4.
视图数量可变
现实中输入的图像数量可能变化(比如 2 张、5 张、10 张),模型需要能处理不同数量的源视图,而不是依赖固定输入。
3、MVSAnywhere(MVSA)
的整体流程与每个模块
1.
Feature Extractor(特征提取器)
它做什么?
•
把输入的每张源图像 I1,I2,…,INI
和参照图像 Ir
,转成比较“鲁棒”的特征图(不是原始像素)。