分享
Depth Anything:通用深度估计大模型
输入“/”快速插入内容
Depth Anything:通用深度估计大模型
飞书用户9071
9月13日修改
【置顶必看】k学长的深度宝典
1、研究背景与动机
在计算机视觉与人工智能的快速发展中,
基础模型(Foundation Models)
已经在图像识别、自然语言处理等任务中展现出卓越的
零样本/少样本能力
。这些模型的成功关键在于:它们能依赖
大规模、多样化的数据集
,覆盖广泛的真实世界分布,从而获得强大的泛化性能
然而,在
单目深度估计(Monocular Depth Estimation, MDE)
领域,情况却截然不同:
•
构建
带有精确深度标签
的大规模数据集极为困难。通常需要依赖
激光雷达、立体相机或结构光
等昂贵复杂的设备进行采集,既耗时又费力。
•
已有的数据集往往规模有限、场景单一,导致训练出的模型在遇到
未知场景或跨域任务
时,泛化能力严重不足
早期的突破性工作 MiDaS 尝试在
混合数据集
上训练模型,并通过
尺度与位移不变的损失函数
来消除不同数据集间的深度差异,提升模型在零样本场景下的表现。但由于数据覆盖范围有限,模型在复杂环境(如弱光、远距离或天气变化)下仍不够稳健
这便引出了
Depth Anything
的研究动机:
1.
低成本数据扩展的需求
◦
与其依赖昂贵的深度传感器,不如利用
大规模单目无标注图像
,这些数据在互联网上随处可见,获取几乎零成本。
◦
通过已有的预训练深度模型为其自动生成伪标签,就能大幅扩展训练数据规模,提升数据多样性和覆盖度。
2.
突破泛化瓶颈
◦
仅依赖有限的人工标注数据无法支撑“通用深度模型”的目标。
◦
引入海量无标注图像 + 新的训练策略,可以迫使模型学习到更强的鲁棒表征,从而在未见过的场景中依然表现出色。
3.
向“通用视觉感知”迈进
◦
单目深度估计不仅是自动驾驶、机器人、AR/VR 的核心任务,更是很多下游模型(如图像生成、视频编辑、控制网络)的关键基础。
◦
如果能像 NLP 里的 GPT 那样,训练出一个
适用于任意场景的深度基础模型
,将极大推动整个视觉生态的发展。
因此,
Depth Anything 的核心动机
是:
通过低成本方式引入大规模未标注单目图像,结合新型的伪标签生成与优化策略,打造一个“随处可用”的通用深度估计模型,解决长期困扰该领域的数据瓶颈和泛化不足问题
2、核心创新点
1.
大规模低成本数据扩展
•
创新
:首次系统性地将
海量未标注单目图像
引入 MDE 训练流程,而不是仅依赖昂贵的深度传感器数据。
•
做法
:通过教师模型为 6200 万未标注图像生成伪标签,结合 150 万带标注图像进行联合训练。
•
意义
:极大提升了数据的规模与多样性,为构建“通用深度模型”奠定了基础
2.
新颖的联合训练策略
•
创新
:不是简单地把标注与未标注数据混合训练,而是采用
两阶段的教师–学生框架
。
mk.
第一阶段
:用标注数据训练出强教师模型。
ml.
第二阶段
:教师为未标注图像生成伪标签,学生在“更难的优化目标”下学习。
•
意义
:这种训练方式能有效压榨未标注数据的信息,使模型学习到更鲁棒的表征
3.
语义先验与特征对齐
•
创新
:引入
DINOv2 编码器
,并提出
特征对齐损失(Feature Alignment Loss)
,让模型在深度回归时保留来自预训练大模型的丰富语义知识。