分享
RT-DETR:实时DETR检测
输入“/”快速插入内容
RT-DETR:实时DETR检测
飞书用户9071
9月8日修改
【置顶必看】k学长的深度宝典
1、RT-DETR 的研究背景与动机
1.
YOLO 系列的优势与局限
YOLO 一直是实时目标检测的“代名词”。它的优势是:
•
速度快
:单阶段检测,不像两阶段的 Faster R-CNN 需要 region proposal。
•
精度还不错
:YOLOv5/7/8 在 COCO 上表现都很好,速度和精度平衡。
但是 YOLO 有一个“隐藏的瓶颈”——
NMS(非极大值抑制)
。
•
模型会生成大量候选框,这些框之间有重叠,就要靠 NMS 来筛掉。
•
NMS 本质上是一个后处理步骤,不是端到端的,带来几个问题:
ma.
拖慢推理速度
:尤其在小目标密集场景,大量候选框让 NMS 成为瓶颈。
mb.
依赖人工阈值
:NMS 要设定置信度阈值和 IoU 阈值,不同场景下要调不同参数,结果不稳定。
mc.
速度与精度难两全
:阈值设低 → 框多、速度慢;阈值设高 → 框少、容易漏检。
这就好像 YOLO 是一台高速打印机,能一下子“打印”出很多结果,但最后还要人工去“筛选”,这就拖了后腿
2.
DETR 的优势与挑战
DETR(基于 Transformer 的检测器)带来了一个革命性的思路:
•
去掉 NMS
:它直接用
匈牙利匹配
做一对一预测,每个 object query 负责一个目标。
•
端到端
:输入图片 → 输出结果,中间没有复杂的手工设计。
但是 DETR 的问题也很明显:
1.
计算成本太高
:尤其是多尺度特征交互,序列太长,Transformer 编码器成为瓶颈。
2.
训练慢
:收敛速度比 YOLO 慢很多。
3.
查询机制难优化
:初始 query 的选择常常带来不确定性,导致检测不稳定
打个比方,DETR 就像是一个“全自动的智能系统”,它不需要你去手动筛选结果,但它太“耗电”,还反应慢,实时性差。
3.
RT-DETR 的研究动机
研究者们想解决的问题很直观:
👉
能不能结合 YOLO 的快,和 DETR 的端到端优势?
于是提出了
RT-DETR(Real-Time DETR)
,目标是:
1.
消灭 NMS 的拖累
→ 保留 DETR 的端到端特性。
2.
提升速度,满足实时应用
→ 重新设计编码器,加快多尺度特征处理。
3.
提升精度
→ 用更聪明的查询选择方法,避免选到“模糊不清”的特征。
4.
灵活性
→ 通过调整解码器层数,不用重新训练,就能适配不同场景(比如无人机要快,医疗影像要精)。
最终效果:
•
RT-DETR 在
COCO 数据集
上,速度和精度都超过了 YOLOv8。
•
比如 RT-DETR-R50 在 T4 GPU 上跑到
108 FPS
,比 DINO-DETR 快
21 倍
,而且精度还提升了