论文阅读——UniRepLKNet

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

当我们将一个3×3的conv添加到一个小卷积核ConvNet中时,我们预计它会同时产生三种效果------1)使感受野更大,2)增加空间模式的抽象层次(例如,从角度和纹理到对象的形状),3)通过使其更深入,引入更多可学习的参数和非线性,来提高模型的一般表示能力。相比之下,我们认为,在大卷积核架构中,这三种影响应该解耦,因为模型应该利用大卷积核的实质性优势------即不深入就可以看到广泛的东西。由于在扩大感受野时,增加卷积核大小比堆叠更多层要有效得多,因此可以用少量的大卷积核层来建立足够的ERF,从而可以为其他有效结构节省计算预算,这些结构在增加空间模式的抽象层次或通常增加深度方面更有效。

Dilated Reparam Block

膨胀卷积中忽略输入的像素相当于将额外的零项插入到conv卷积核中,因此具有小卷积核的膨胀conv层可以等效地转换为具有稀疏较大内核的非膨胀(即,r=1)层。

原来的卷积核:

插零后:

可以通过步长为r的转置卷积实现:

Reparam块,它使用一个非膨胀的小卷积核和多个膨胀的小卷积核层来增强非膨胀的大卷积核conv层。大核大小K,平行的卷积层大小k,膨胀率r,

另外设计了四个结构加深模型:

不同卷积核:

不同模块:

不同大小模型:

在不同任务的表现:

相关推荐
KAI智习13 分钟前
大模型榜单周报(2025/12/20)
人工智能·大模型
2501_9071368228 分钟前
AI 小说生成器-基于 Tauri 2.0 + Vue 3 + TypeScript 的智能小说创作工具
人工智能·软件需求
love530love34 分钟前
ComfyUI 升级 v0.4.0 踩坑记录:解决 TypeError: QM_Queue.task_done() 报错
人工智能·windows·python·comfyui
金士镧(厦门)新材料有限公司36 分钟前
稀土化合物:推动科技发展的“隐形力量”
人工智能·科技·安全·全文检索·生活·能源
牛客企业服务40 分钟前
AI简历筛选:破解海量简历处理难题
人工智能
粟悟饭&龟波功1 小时前
【GitHub热门项目精选】(2025-12-19)
前端·人工智能·后端·github
诸葛务农1 小时前
类脑智能技术前沿进展及中美类脑智能技术比对
人工智能
LiYingL1 小时前
ChartCap:利用大型数据集和新的评估指标抑制图表标题幻觉
人工智能
有来有去95271 小时前
vllm推理服务指标监控看板搭建手册
人工智能·vllm
流浪法师121 小时前
MyPhishing-Web:AI 驱动的钓鱼邮件检测可视化平台
前端·人工智能