视觉CNN常用基础技术来源：UberNet

仙女修炼史2026-05-12 17:46

UberNet是2017CVPR中的一篇经典论文，步入视觉领域这么很多年，依旧觉得浮于表面，没有真的理解CNN其中的奥妙，然后持续性去读一些经典的论文，总是会发现很多惊喜。UberNet就是被我挖掘出来的一批经典的论文，它的经典之处在于，它的思想，在10年后的今天，已经成为了大家共识性知识。

一、UberNet

是用来解决同时训练多个任务（边缘、分割、法向、目标、人体部件等）,UberNet的具体做法，从结构开始

上图是UberNet的结构，第一行是原始图片输入，第二行是原始图片resize 1/2后再输入到网络中，第三行是原始图片resize 1/4后，输入到网络中，这三行实现了图像scale；每一行的结构的结构都是一样的，这个就是UberNet的结构，基于vgg16网络，C1=VGG16的conv1_2, C2=conv2_2, C3 = conv3_3, C4=conv4_3、C5=conv5_3, C7 = fc7,C1...C6代表浅层特征~深层特征，这个是feature scale；每层特征上的E1到ETE^1 到E^TE1到ET是T个任务分支，每个任务在C1~C6不同特征层都有任务分支，因为不同任务，需要的特征不同；F1到FTF^1到F^TF1到FT是当前图像尺寸上的，每个任务在不同特征层上的融合；S1到STS^1到S^TS1到ST是不同任务在三种图像尺寸上的融合。

二、UberNet的思想

只有backbone是共享的
多层特征都重要，并不是最后一层feature 重要，不同任务需要不同层级的feature，例如边缘/纹理的浅层特征、具备结构的中层特征、语义的深层特征；在现代结构中FPN就是所有层的特征进行融合，所以多层特征融合已经成为了默认操作；
不同任务对feature的需求不同，不同任务需要的是backbone的不同部分；
多尺度输入很重要，不仅仅是input pyramid ，还有feature pyramid，不同分辨率的输入都要进入到网络中；