论文阅读——UniRepLKNet

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

当我们将一个3×3的conv添加到一个小卷积核ConvNet中时,我们预计它会同时产生三种效果------1)使感受野更大,2)增加空间模式的抽象层次(例如,从角度和纹理到对象的形状),3)通过使其更深入,引入更多可学习的参数和非线性,来提高模型的一般表示能力。相比之下,我们认为,在大卷积核架构中,这三种影响应该解耦,因为模型应该利用大卷积核的实质性优势------即不深入就可以看到广泛的东西。由于在扩大感受野时,增加卷积核大小比堆叠更多层要有效得多,因此可以用少量的大卷积核层来建立足够的ERF,从而可以为其他有效结构节省计算预算,这些结构在增加空间模式的抽象层次或通常增加深度方面更有效。

Dilated Reparam Block

膨胀卷积中忽略输入的像素相当于将额外的零项插入到conv卷积核中,因此具有小卷积核的膨胀conv层可以等效地转换为具有稀疏较大内核的非膨胀(即,r=1)层。

原来的卷积核:

插零后:

可以通过步长为r的转置卷积实现:

Reparam块,它使用一个非膨胀的小卷积核和多个膨胀的小卷积核层来增强非膨胀的大卷积核conv层。大核大小K,平行的卷积层大小k,膨胀率r,

另外设计了四个结构加深模型:

不同卷积核:

不同模块:

不同大小模型:

在不同任务的表现:

相关推荐
weilaieqi12 分钟前
从音响制造到AI家庭娱乐生态:不见不散AI智能K歌音响亮相第二十届深圳国际金融博览会
人工智能·制造·娱乐
企服AI产品测评局3 分钟前
Agent适配信创环境实测:企业级自动化如何实现国产操作系统与数据库全兼容?
运维·数据库·人工智能·ai·chatgpt·自动化
Jiude5 分钟前
AI 写代码太快之后,团队协作反而更难了
人工智能·架构·github
12点一刻32 分钟前
Superpowers — AI 驱动的软件工程方法论框架
人工智能·软件工程
EasyCVR32 分钟前
国标GB28181视频监控平台EasyCVR行业解决方案深度解读——雪亮工程、智慧城市与智慧交通
人工智能·音视频·智慧城市
论文小助手W68535 分钟前
【ACM出版,EI检索】2026年人工智能与智慧城市国际学术会议(IC-AISC 2026)
大数据·人工智能·全文检索·智慧城市·交通物流
火山引擎开发者社区44 分钟前
您的岗位情报官上线,ArkClaw「每日情报助手」带您吃透全行业
人工智能
田里的水稻1 小时前
OE_ubuntu26.04与宿主机之间复制粘贴内容
人工智能·python·机器人
Deepoch1 小时前
Deepoc VLA开发板:无人机复杂环境自主感知与决策系统
人工智能·无人机·开发板·具身模型·deepoc
2401_876964131 小时前
【湖北专升本】2026湖北专升本真题PDF+备考资料汇总
数据结构·人工智能·经验分享·深度学习·算法·计算机视觉