分享
PSPNet :金字塔池化
输入“/”快速插入内容
PSPNet :金字塔池化
飞书用户9071
9月12日修改
【置顶必看】k学长的深度宝典
🦄
用一张图来想象 PSPNet:先用大疆无人机“鸟瞰”整座城市(全局),再拉到“街区”(2×2),再看“街道网格”(3×3),最后低头看看“房间布局”(6×6)。把这四层视角的要点对齐、拼一起,再去给每一块地砖(像素)贴标签——这就是 PSPNet 的核心思路:
用金字塔池化(PPM)把全局与局部上下文融进像素级预测
。
1、研究背景和动机
复杂场景解析(语义分割)里有三类“老大难”问题:
•
上下文不匹配
:仅看外观很像,就会把河上的“船”错当“汽车”;如果“知道这是河边场景”,错误就能少很多。PSPNet 直面这种
缺全局常识
的问题。
•
类别混淆
:如“建筑物 vs. 摩天大楼”“田野 vs. 大地”等,外观极相似,
需要更大范围的语义线索
来消歧。
•
尺度极端
:超大目标(占满画面)或超小目标(路牌、路灯)都容易漏检,
单一感受野
难以兼顾。
FCN/空洞卷积虽然扩大了感受野,但
有效感受野
远小于理论值,高层特征对
真实全局
仍不够敏感;仅用“全局平均池化”又会丢掉空间布局。于是作者提出:
不是只要一个“全局向量”,而是要“多尺度分区的全局”
——这就是 PPM 诞生的动机。
2、核心创新点
1.
金字塔池化模块(PPM)
•
在最后一层高层特征图上,做四个尺度的
分区池化
:
1×1(全局)/ 2×2 / 3×3 / 6×6
;
•
每个分区池化后接
1×1
卷积做降维(第
N
层通道约为原来的
1/N
),再
双线性上采样
回原尺寸,与主干特征
拼接
;
•
这样既拿到
全局语义
,又保留了
粗粒度的空间布局
,比“只做全局平均池化”更能缓解错判与混淆。
2.
深度监督(Auxiliary Loss)
•
在 ResNet 的
res4b22
(stage4 末)分支出一个辅助分类头,训练时与主损失
同时反传
,常用权重
0.4
;
•
测试阶段
丢弃
辅助分支,仅保留主干。这样能让很深的网络(101/152/269)更稳地优化收敛。
3.
实证与系统化细节
•
优化策略采用
poly 学习率
(power=0.9),丰富的数据增强(随机缩放 0.5–2、镜像、旋转、部分数据集加高斯模糊)、多尺度测试等,给出可复现的训练配方。
结果速览(SOTA 时代性贡献)
:
•
ADE20K
:赢得 2016 ImageNet 场景解析挑战冠军;消融中
平均池化优于最大池化
,
PPM(1/2/3/6)
明显优于仅全局池化。
•
PASCAL VOC 2012
:单模 mIoU
85.4%
(MS-COCO 预训练设置),当时刷新记录。
•
Cityscapes
:精细+粗标注联合训练可达
80.2%
mIoU。
3、模型的网络结构