RT-DETR 目标检测视频推理

先前介绍了RT-DETR推理单张图像的案例,今天则介绍以下如何利用RT-DETR来进行视频推理。

事实上,进行视频推理的过程与单张图片的过程及其类似,就是将原本的视频切分为多帧图像后再进行推理即可。这里面涉及到Image等相关操作,今天便借此机会梳理一遍。

我们的实现思路很简单,其步骤如下:

  1. 将视频拆分为多帧
  2. 将多帧图像依次输入RT-DETR模型中进行检测
  3. 将多帧图像的检测结果合并为视频

利用cv2生成视频读取器,读取视频

python 复制代码
    classes = ['car','truck',"bus"]
    videoname = '1.mp4'
    capture = cv2.VideoCapture(videoname)
    images = []

通过循环将视频拆分为多帧图像

python 复制代码
if capture.isOpened():
        while True:
            ret,img=capture.read() # img 就是一帧图片,此时的img是ndarray格式,即numpy的数组类型
            if not ret:break # 当获取完最后一帧就结束
            img=cv2.resize(img,(640,640))#由于模型输入的图像尺寸固定为640*640,因此需要转换
            img = Image.fromarray(img)#将数组类型转换为Image类型
            img = img.convert('RGB')#通道位置置换
            im_data = ToTensor()(img)[None]#模型输入类型为tensor,故将其转换为tensor类型
            size = torch.tensor([[640, 640]])#设定输入图像的尺寸

加载onnx模型文件,并判断GPU是否可用,同时进行前向推理,并计算FPS

python 复制代码
			if torch.cuda.is_available():
                print("GPU")
                sess = ort.InferenceSession("model.onnx", None, providers=["CUDAExecutionProvider"])
            else:
                print("CPU")
                sess= ort.InferenceSession("model.onnx", None)
            import time
            start = time.time()
            output = sess.run(
                output_names=['labels', 'boxes', 'scores'],
                #output_names=None,
                input_feed={'images': im_data.data.numpy(), "orig_target_sizes": size.data.numpy()},
            )
            end = time.time()
            fps = 1.0 / (end - start)
            print(fps)

根据结果获取目标类别,标注框与得分,并将其绘制在每张图像上

python 复制代码
			labels, boxes, scores = output
            draw = ImageDraw.Draw(img)#生成ImageDraw对象,用于画图
            thrh = 0.6
            for i in range(im_data.shape[0]):
                scr = scores[i]
                lab = labels[i][scr > thrh]
                box = boxes[i][scr > thrh]
                for l, b in zip(lab, box):
                    draw.rectangle(list(b), outline='red',)#ImageDraw对象画框并写入类别,因为原本输出的类别是0,1,2,需要使用定义的数组来获取其真实类别名称
                    draw.text((b[0], b[1] - 10), text=str(classes[l.item()]),font_size=16, fill='blue', )
            images.append(img)#将画好的每张图加入到images数组中

视频合成,指定合成视频的名称,帧率等信息,将images中的图像合成为视频

python 复制代码
 	video_name = 'output.mp4'
    fps = 30  # 每秒钟30帧
    fourcc = cv2.VideoWriter_fourcc(*"mp4v")
    video = cv2.VideoWriter(video_name, fourcc, fps, (640,640))
# 合成视频
    for i in range(len(images)):
            img = images[i]
            img = cv2.cvtColor(np.array(img), cv2.COLOR_RGB2BGR)
            video.write(img)

可以看到,其在视频推理过程中,对CPU的利用率明显增高

当然我们也可以直接将其生成gif

python 复制代码
imageio.mimsave('output.gif',images,fps=25)

完整代码如下:

python 复制代码
import torch
import onnxruntime as ort
from PIL import Image, ImageDraw
from torchvision.transforms import ToTensor
import cv2
import imageio
import numpy as np
import os
if __name__ == "__main__":
    import torch
    print(torch.__version__)

    print(torch.version.cuda)
    print(torch.backends.cudnn.version())

##################
    classes = ['car','truck',"bus"]
    ##################
    videoname = '1.mp4'
    capture = cv2.VideoCapture(videoname)
    images = []
    if capture.isOpened():
        while True:
            ret,img=capture.read() # img 就是一帧图片
            if not ret:break # 当获取完最后一帧就结束
            img=cv2.resize(img,(640,640))
            img = Image.fromarray(img)
            img = img.convert('RGB')
            im_data = ToTensor()(img)[None]
            size = torch.tensor([[640, 640]])
            if torch.cuda.is_available():
                print("GPU")
                sess = ort.InferenceSession("model.onnx", None, providers=["CUDAExecutionProvider"])
            else:
                print("CPU")
                sess= ort.InferenceSession("model.onnx", None)
            import time
            start = time.time()
            output = sess.run(
                output_names=['labels', 'boxes', 'scores'],
                #output_names=None,
                input_feed={'images': im_data.data.numpy(), "orig_target_sizes": size.data.numpy()},
            )
            end = time.time()
            fps = 1.0 / (end - start)
            print(fps)

            labels, boxes, scores = output
            draw = ImageDraw.Draw(img)
            thrh = 0.6

            for i in range(im_data.shape[0]):

                scr = scores[i]
                lab = labels[i][scr > thrh]
                box = boxes[i][scr > thrh]
                for l, b in zip(lab, box):
                    draw.rectangle(list(b), outline='red',)
                    draw.text((b[0], b[1] - 10), text=str(classes[l.item()]),font_size=16, fill='blue', )

            images.append(img)
            # 可以用 cv2.imshow() 查看这一帧,也可以逐帧保存

        else:
                print('视频打开失败!')
                #############
                img.save('2.jpg')
    imageio.mimsave('output.gif',images,fps=25)
    video_name = 'output.mp4'
    fps = 30  # 每秒钟30帧
    fourcc = cv2.VideoWriter_fourcc(*"mp4v")
    video = cv2.VideoWriter(video_name, fourcc, fps, (640,640))
# 合成视频
    for i in range(len(images)):
            img = images[i]
            img = cv2.cvtColor(np.array(img), cv2.COLOR_RGB2BGR)
            video.write(img)
相关推荐
冰西瓜6005 小时前
从项目入手机器学习——鸢尾花分类
人工智能·机器学习·分类·数据挖掘
爱思德学术5 小时前
中国计算机学会(CCF)推荐学术会议-C(人工智能):IJCNN 2026
人工智能·神经网络·机器学习
偶信科技5 小时前
国产极细拖曳线列阵:16mm“水下之耳”如何撬动智慧海洋新蓝海?
人工智能·科技·偶信科技·海洋设备·极细拖曳线列阵
Java后端的Ai之路6 小时前
【神经网络基础】-神经网络学习全过程(大白话版)
人工智能·深度学习·神经网络·学习
庚昀◟6 小时前
用AI来“造AI”!Nexent部署本地智能体的沉浸式体验
人工智能·ai·nlp·持续部署
喜欢吃豆6 小时前
OpenAI Realtime API 深度技术架构与实现指南——如何实现AI实时通话
人工智能·语言模型·架构·大模型
数据分析能量站6 小时前
AI如何重塑个人生产力、组织架构和经济模式
人工智能
wscats7 小时前
Markdown 编辑器技术调研
前端·人工智能·markdown
AI科技星7 小时前
张祥前统一场论宇宙大统一方程的求导验证
服务器·人工智能·科技·线性代数·算法·生活
GIS数据转换器7 小时前
基于知识图谱的个性化旅游规划平台
人工智能·3d·无人机·知识图谱·旅游