视觉CNN常用基础技术来源:UberNet

UberNet是2017CVPR中的一篇经典论文,步入视觉领域这么很多年,依旧觉得浮于表面,没有真的理解CNN其中的奥妙,然后持续性去读一些经典的论文,总是会发现很多惊喜。UberNet就是被我挖掘出来的一批经典的论文,它的经典之处在于,它的思想,在10年后的今天,已经成为了大家共识性知识。

一、UberNet

是用来解决同时训练多个任务(边缘、分割、法向、目标、人体部件等),UberNet的具体做法,从结构开始

上图是UberNet的结构,第一行是原始图片输入,第二行是原始图片resize 1/2后再输入到网络中,第三行是原始图片resize 1/4后,输入到网络中,这三行实现了图像scale;每一行的结构的结构都是一样的,这个就是UberNet的结构,基于vgg16网络,C1=VGG16的conv1_2, C2=conv2_2, C3 = conv3_3, C4=conv4_3、C5=conv5_3, C7 = fc7,C1...C6代表浅层特征~深层特征,这个是feature scale;每层特征上的E1到ETE^1 到E^TE1到ET是T个任务分支,每个任务在C1~C6不同特征层都有任务分支,因为不同任务,需要的特征不同;F1到FTF^1到F^TF1到FT是当前图像尺寸上的,每个任务在不同特征层上的融合;S1到STS^1到S^TS1到ST是不同任务在三种图像尺寸上的融合。

二、UberNet的思想

  • 只有backbone是共享的
  • 多层特征都重要,并不是最后一层feature 重要,不同任务需要不同层级的feature,例如边缘/纹理的浅层特征、具备结构的中层特征、语义的深层特征;在现代结构中FPN就是所有层的特征进行融合,所以多层特征融合已经成为了默认操作;
  • 不同任务对feature的需求不同,不同任务需要的是backbone的不同部分;
  • 多尺度输入很重要,不仅仅是input pyramid ,还有feature pyramid,不同分辨率的输入都要进入到网络中;
相关推荐
钓了猫的鱼儿2 小时前
基于深度学习+AI的城市人行道障碍物目标检测与预警系统(Python源码+数据集+UI可视化界面+YOLOv11训练结果)
人工智能·深度学习·目标检测
HackTorjan7 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.8 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
红尘散仙8 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗8 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston8 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz8 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家8 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰9 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr8289 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成