EfficientDet：EfficientNet主干检测

飞书用户9071

9月4日修改

【置顶必看】k学长的深度宝典

1、研究背景和动机

一、研究背景

1.
目标检测的进步与代价​
◦
从 Faster R-CNN → RetinaNet → YOLOv3，这些模型的精度在不断提升。​
◦
但问题是：精度越高，代价越大。​
▪
NAS-FPN 需要 1.67 亿参数 和 3045 亿次 FLOPs，计算量是 RetinaNet 的 30 倍。​
▪
这类“大模型”在真实应用（自动驾驶、机器人、移动端）里很难部署，因为它们既 占空间，又 费算力。​

2.
现实需求：高效又准确​
◦
工业界（比如 Google、特斯拉）需要检测器能 兼顾速度、体积和精度。​
◦
以前的做法：​
▪
YOLOv3 追求实时性 → 速度快但精度一般；​
▪
RetinaNet 追求精度 → 但计算量大；​
◦
因此提出了一个问题：​
 👉 能否设计出既高效（省算力、省内存），又能在不同硬件平台灵活伸缩的检测器？​

二、EfficientDet 的研究动机

论文里明确提出了两大核心挑战：

挑战 1：高效的多尺度特征融合

•
FPN、PANet、NAS-FPN 已经证明：多尺度特征融合对检测很重要。​

•
但问题是：​
◦
FPN 信息流是单向的（自上而下），有限；​
◦
PANet 引入双向，但参数和计算量太大；​

•
动机：设计一个 更简洁高效 的多尺度融合方式。​
 👉 EfficientDet 提出了 BiFPN（加权双向特征金字塔），既保留效果，又降低计算量。​

挑战 2：模型扩展方式不合理

•
以往提高精度的方式：​
◦
增大 backbone 网络（ResNet → ResNeXt → AmoebaNet）；​
◦
增大输入分辨率；​
◦
堆叠更多 FPN 层。​

•
但这些都是单一维度扩展 → 往往效率不高，资源浪费。​

•
动机：提出一种 统一的、多维度的缩放方法，可以同时在深度、宽度、分辨率上进行合理扩展。​
 👉 EfficientDet 引入了复合缩放（Compound Scaling），让模型在不同资源约束下都能找到最优平衡。​

三、研究目标

EfficientDet 的目标就是：

1.
在相同精度下，大幅减少参数量和计算量（比 YOLOv3 少 28 倍 FLOPs，比 RetinaNet 少 30 倍，比 NAS-FPN 少 19 倍）。​

2.
在相同计算预算下，精度超过所有现有模型（EfficientDet-D7 在 COCO 上达到了 51.0 mAP，新 SOTA）。​

EfficientDet：EfficientNet主干检测​

EfficientDet：EfficientNet主干检测