论文阅读——UniRepLKNet

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

当我们将一个3×3的conv添加到一个小卷积核ConvNet中时,我们预计它会同时产生三种效果------1)使感受野更大,2)增加空间模式的抽象层次(例如,从角度和纹理到对象的形状),3)通过使其更深入,引入更多可学习的参数和非线性,来提高模型的一般表示能力。相比之下,我们认为,在大卷积核架构中,这三种影响应该解耦,因为模型应该利用大卷积核的实质性优势------即不深入就可以看到广泛的东西。由于在扩大感受野时,增加卷积核大小比堆叠更多层要有效得多,因此可以用少量的大卷积核层来建立足够的ERF,从而可以为其他有效结构节省计算预算,这些结构在增加空间模式的抽象层次或通常增加深度方面更有效。

Dilated Reparam Block

膨胀卷积中忽略输入的像素相当于将额外的零项插入到conv卷积核中,因此具有小卷积核的膨胀conv层可以等效地转换为具有稀疏较大内核的非膨胀(即,r=1)层。

原来的卷积核:

插零后:

可以通过步长为r的转置卷积实现:

Reparam块,它使用一个非膨胀的小卷积核和多个膨胀的小卷积核层来增强非膨胀的大卷积核conv层。大核大小K,平行的卷积层大小k,膨胀率r,

另外设计了四个结构加深模型:

不同卷积核:

不同模块:

不同大小模型:

在不同任务的表现:

相关推荐
xixixi77777几秒前
基于零信任架构的通信
大数据·人工智能·架构·零信任·通信·个人隐私
玄同7653 分钟前
LangChain v1.0+ Prompt 模板完全指南:构建精准可控的大模型交互
人工智能·语言模型·自然语言处理·langchain·nlp·交互·知识图谱
Ryan老房8 分钟前
开源vs商业-数据标注工具的选择困境
人工智能·yolo·目标检测·计算机视觉·ai
取个鸣字真的难13 分钟前
Obsidian + CC:用AI 打造知识管理系统
人工智能·产品运营
困死,根本不会30 分钟前
OpenCV摄像头实时处理:基于 HSV 颜色空间的摄像头实时颜色筛选工具
人工智能·opencv·计算机视觉
Shirley~~43 分钟前
Vue-skills的中文文档
前端·人工智能
华大哥1 小时前
AI大模型基于LangChain 进行RAG与Agent智能体开发
人工智能·langchain
Sagittarius_A*1 小时前
角点检测:Harris 与 Shi-Tomasi原理拆解【计算机视觉】
图像处理·人工智能·python·opencv·计算机视觉
困死,根本不会1 小时前
OpenCV实时摄像头处理:曝光调节、降噪与二值化实战
人工智能·opencv·计算机视觉
LitchiCheng1 小时前
Mujoco 开源机械臂 RL 强化学习避障、绕障
人工智能·python·开源