分享
EfficientDet:EfficientNet主干检测
输入“/”快速插入内容
EfficientDet:EfficientNet主干检测
飞书用户9071
9月4日修改
【置顶必看】k学长的深度宝典
1、研究背景和动机
一、研究背景
1.
目标检测的进步与代价
◦
从 Faster R-CNN → RetinaNet → YOLOv3,这些模型的精度在不断提升。
◦
但问题是:
精度越高,代价越大
。
▪
NAS-FPN 需要
1.67 亿参数
和
3045 亿次 FLOPs
,计算量是 RetinaNet 的 30 倍。
▪
这类“大模型”在真实应用(自动驾驶、机器人、移动端)里很难部署,因为它们既
占空间
,又
费算力
。
2.
现实需求:高效又准确
◦
工业界(比如 Google、特斯拉)需要检测器能
兼顾速度、体积和精度
。
◦
以前的做法:
▪
YOLOv3 追求实时性 → 速度快但精度一般;
▪
RetinaNet 追求精度 → 但计算量大;
◦
因此提出了一个问题:
👉
能否设计出既高效(省算力、省内存),又能在不同硬件平台灵活伸缩的检测器?
二、EfficientDet 的研究动机
论文里明确提出了两大核心挑战:
挑战 1:高效的多尺度特征融合
•
FPN、PANet、NAS-FPN 已经证明:多尺度特征融合对检测很重要。
•
但问题是:
◦
FPN 信息流是单向的(自上而下),有限;
◦
PANet 引入双向,但参数和计算量太大;
•
动机:设计一个
更简洁高效
的多尺度融合方式。
👉
EfficientDet 提出了 BiFPN(加权双向特征金字塔)
,既保留效果,又降低计算量。
挑战 2:模型扩展方式不合理
•
以往提高精度的方式:
◦
增大 backbone 网络(ResNet → ResNeXt → AmoebaNet);
◦
增大输入分辨率;
◦
堆叠更多 FPN 层。
•
但这些都是单一维度扩展 → 往往效率不高,资源浪费。
•
动机:提出一种
统一的、多维度的缩放方法
,可以同时在深度、宽度、分辨率上进行合理扩展。
👉
EfficientDet 引入了复合缩放(Compound Scaling)
,让模型在不同资源约束下都能找到最优平衡。
三、研究目标
EfficientDet 的目标就是:
1.
在相同精度下,大幅减少参数量和计算量
(比 YOLOv3 少 28 倍 FLOPs,比 RetinaNet 少 30 倍,比 NAS-FPN 少 19 倍)。
2.
在相同计算预算下,精度超过所有现有模型
(EfficientDet-D7 在 COCO 上达到了 51.0 mAP,新 SOTA)。