ultralytics框架进行RT-DETR目标检测训练

DETR提出以来,其采用匈牙利匹配方式真正的实现了端到端检测效果,避免了NMS等后处理过程,同时,相较CNN的局部特征提取,其凭借着Transformer强大的全局特征提取能力,在目标检测领域可谓大杀四方,基于Transformer的目标检测方法因此层出不穷。

然后,尽管DETR类目标检测方法具有较好的数据拟合能力,但Transformer本身的计算复杂度较高,这使其很难完成实时检测任务,而今天我们则要介绍的便是百度提出的实时DETR目标检测方法,这个方法我已经在先前的博客中有过介绍,当时是基于RT-DETR的源码进行介绍的,今天我们则要介绍的是ultralytics中的RT-DETR模型。

模型结构

RT-DETR模型结构如下:

python 复制代码
                   from  n    params  module                                       arguments                     
  0                  -1  1      9536  ultralytics.nn.modules.block.ResNetLayer     [3, 64, 1, True, 1]           
  1                  -1  1    215808  ultralytics.nn.modules.block.ResNetLayer     [64, 64, 1, False, 3]         
  2                  -1  1   1219584  ultralytics.nn.modules.block.ResNetLayer     [256, 128, 2, False, 4]       
  3                  -1  1   7098368  ultralytics.nn.modules.block.ResNetLayer     [512, 256, 2, False, 6]       
  4                  -1  1  14964736  ultralytics.nn.modules.block.ResNetLayer     [1024, 512, 2, False, 3]      
  5                  -1  1    524800  ultralytics.nn.modules.conv.Conv             [2048, 256, 1, 1, None, 1, 1, False]
  6                  -1  1    789760  ultralytics.nn.modules.transformer.AIFI      [256, 1024, 8]                
  7                  -1  1     66048  ultralytics.nn.modules.conv.Conv             [256, 256, 1, 1]              
  8                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
  9                   3  1    262656  ultralytics.nn.modules.conv.Conv             [1024, 256, 1, 1, None, 1, 1, False]
 10            [-2, -1]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 11                  -1  3   2232320  ultralytics.nn.modules.block.RepC3           [512, 256, 3]                 
 12                  -1  1     66048  ultralytics.nn.modules.conv.Conv             [256, 256, 1, 1]              
 13                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 14                   2  1    131584  ultralytics.nn.modules.conv.Conv             [512, 256, 1, 1, None, 1, 1, False]
 15            [-2, -1]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 16                  -1  3   2232320  ultralytics.nn.modules.block.RepC3           [512, 256, 3]                 
 17                  -1  1    590336  ultralytics.nn.modules.conv.Conv             [256, 256, 3, 2]              
 18            [-1, 12]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 19                  -1  3   2232320  ultralytics.nn.modules.block.RepC3           [512, 256, 3]                 
 20                  -1  1    590336  ultralytics.nn.modules.conv.Conv             [256, 256, 3, 2]              
 21             [-1, 7]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 22                  -1  3   2232320  ultralytics.nn.modules.block.RepC3           [512, 256, 3]                 
 23        [16, 19, 22]  1   7310072  ultralytics.nn.modules.head.RTDETRDecoder    [4, [256, 256, 256]]          
rtdetr-resnet50 summary: 402 layers, 42,768,952 parameters, 42,768,952 gradients

训练代码

这里我们使用ResNet50作为我们的特征提取网络,从论文的结果来看,RT-DETR只需要24epoch便能达到一个较好的效果。

python 复制代码
from ultralytics import RTDETR
# 加载预训练模型
model = RTDETR("rtdetr-resnet50.yaml")
# 开始训练
results = model.train(
    data="others.yaml",
    epochs=24,
    batch=6,       # 根据GPU显存调整(T4建议batch=8)
    imgsz=640,
    device="0",     # 指定GPU ID
    optimizer="AdamW",
    lr0=1e-4,
    warmup_epochs=4,
    label_smoothing=0.1,
    amp=True
)

相较于YOLO系列的目标检测方法,其训练速度要慢很多,其需要一个epoch需要的时间大概是6分钟,不过从结果来看,其只需要20 epoch便能达到一个较好的效果。

从模型文件大小来看,RT-DETR的文件大小约为245MB,而YOLO模型的大小多在1020MB

最终结果如下:


相关推荐
qq_526099131 天前
工业检测丢帧、医疗影像延迟无解?先查 “信号翻译官” 图像采集卡
计算机视觉·自动化
小鸡吃米…1 天前
Python的人工智能-机器学习
人工智能·python·机器学习
金融RPA机器人丨实在智能1 天前
2025汇总:7类Agent智能体,定义AI赋能商业的新未来
大数据·人工智能·agent·实在agent
一代明君Kevin学长1 天前
Transformer为什么使用多个注意力头?
人工智能·深度学习·transformer
盛世宏博北京1 天前
学校图书馆自动化恒温恒湿控制系统技术方案
网络·数据库·人工智能
神州问学1 天前
每周技术加速器:UltraRAG:突破传统RAG架构的创新与实践
人工智能
GitCode官方1 天前
YOLO11 与 Wan2.2‑I2V‑A14B 正式上线 AtomGit AI:开启视觉感知与动态生成新纪元!
人工智能·计算机视觉·目标跟踪·开源·atomgit
deephub1 天前
机器学习时间特征处理:循环编码(Cyclical Encoding)与其在预测模型中的应用
人工智能·python·机器学习·特征工程·时间序列
Gofarlic_oms11 天前
集中式 vs 分布式许可:跨地域企业的管控架构选择
大数据·运维·人工智能·分布式·架构·数据挖掘·需求分析
机器学习之心1 天前
科研绘图 | PSO-LSTM粒子群优化长短期记忆神经网络模型结构图
人工智能·神经网络·lstm·pso-lstm