val.py
ultralytics\models\yolo\detect\val.py
目录
[2.class DetectionValidator(BaseValidator):](#2.class DetectionValidator(BaseValidator):)
1.所需的库和模块
python
# Ultralytics YOLO 🚀, AGPL-3.0 license
import os
from pathlib import Path
import numpy as np
import torch
from ultralytics.data import build_dataloader, build_yolo_dataset, converter
from ultralytics.engine.validator import BaseValidator
from ultralytics.utils import LOGGER, ops
from ultralytics.utils.checks import check_requirements
from ultralytics.utils.metrics import ConfusionMatrix, DetMetrics, box_iou
from ultralytics.utils.plotting import output_to_target, plot_images
2.class DetectionValidator(BaseValidator):
python
# 这段代码是一个Python类,名为 DetectionValidator ,它继承自 BaseValidator 。这个类用于目标检测任务的验证器,用于评估模型的性能。
# 定义了一个名为 DetectionValidator 的新类,它继承自 BaseValidator 。
class DetectionValidator(BaseValidator):
# 扩展 BaseValidator 类的类,用于基于检测模型进行验证。
"""
A class extending the BaseValidator class for validation based on a detection model.
Example:
```python
from ultralytics.models.yolo.detect import DetectionValidator
args = dict(model="yolov8n.pt", data="coco8.yaml")
validator = DetectionValidator(args=args)
validator()
```
"""
# 这段代码是 DetectionValidator 类的构造函数( __init__ 方法),它负责初始化类的实例。
# 类的构造函数,它接受五个参数。
# dataloader :用于加载数据的数据加载器。
# save_dir :保存结果的目录。
# pbar :进度条对象,用于显示进度。
# args :包含参数的对象。
# _callbacks :回调函数列表。
def __init__(self, dataloader=None, save_dir=None, pbar=None, args=None, _callbacks=None):
# 使用必要的变量和设置初始化检测模型。
"""Initialize detection model with necessary variables and settings."""
# 调用了父类 BaseValidator 的构造函数,并传递了所有传入的参数。这是一种常见的继承用法,确保父类的初始化逻辑被执行。
super().__init__(dataloader, save_dir, pbar, args, _callbacks)
# 初始化一个实例变量 nt_per_class ,用于存储每个类别的 检测次数 。这个变量在后续会被用来计算每个类别的检测性能。
self.nt_per_class = None
# 初始化一个实例变量 nt_per_image ,用于存储每张图片的 检测次数 。
self.nt_per_image = None
# 初始化两个布尔类型的实例变量,用于标识当前处理的数据集是 否是 COCO 或 LVIS格式 。这些标识用于确定数据集特定的处理逻辑。
self.is_coco = False
self.is_lvis = False
# 初始化一个实例变量 class_map ,用于存储类别的映射关系。
self.class_map = None
# 设置 args 对象的 task 属性为 "detect" ,这表明当前的任务是目标检测。
self.args.task = "detect"
# 创建一个 DetMetrics 实例,用于计算和跟踪检测任务的度量指标。 DetMetrics 是一个自定义类,用于计算如mAP(平均精度均值)等指标。
# class DetMetrics(SimpleClass):
# -> DetMetrics 类的实例用于计算和存储目标检测模型的性能指标。
# -> def __init__(self, save_dir=Path("."), plot=False, on_plot=None, names={}) -> None:
self.metrics = DetMetrics(save_dir=self.save_dir, on_plot=self.on_plot)
# 使用PyTorch的 linspace 函数创建一个从0.5到0.95的等间隔向量,包含10个元素。这个向量用于定义不同IoU(交并比)阈值,用于计算mAP。
self.iouv = torch.linspace(0.5, 0.95, 10) # IoU vector for mAP@0.5:0.95
# torch.Tensor.numel()
# numel() 函数是 PyTorch 中的一个方法,用于返回一个张量(tensor)中元素的总数。这个方法是 torch.Tensor 类的一个实例方法,意味着它可以在任何 torch.Tensor 对象上调用。
# 参数 :没有参数
# 返回值 :
# 返回一个整数,表示张量中的元素总数。
# numel() 方法在处理张量时非常有用,尤其是当你需要知道张量的大小而不需要知道具体的维度大小时。这个函数返回的是张量中所有元素的总数,不考虑它的维度结构。
# 计算 self.iouv 向量中的元素数量,并存储在 self.niou 中。
self.niou = self.iouv.numel()
# 初始化一个空列表 self.lb ,用于自动标注或其他标签相关的操作。
self.lb = [] # for autolabelling
# 检查 args 对象中的 save_hybrid 属性是否为 True 。
if self.args.save_hybrid:
# 如果 save_hybrid 为 True ,则使用日志记录器 LOGGER 输出警告信息,告知用户这种设置会导致将真实标注添加到预测结果中,用于自动标注,但这会影响mAP的准确性。
LOGGER.warning(
"WARNING ⚠️ 'save_hybrid=True' will append ground truth to predictions for autolabelling.\n" # 警告⚠️'save_hybrid=True' 会将基本事实附加到自动标记的预测中。
"WARNING ⚠️ 'save_hybrid=True' will cause incorrect mAP.\n" # 警告⚠️'save_hybrid=True' 将导致不正确的 mAP。
)
# 这段代码展示了一个目标检测验证器的初始化过程,包括设置任务类型、初始化度量指标计算器、定义IoU阈值等。
# 这段代码定义了一个名为 preprocess 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是预处理一批图像数据,以便用于YOLO(You Only Look Once)目标检测模型的训练。
# 定义了一个名为 preprocess 的方法,它接受一个参数。
# 1.batch :这个参数代表一批图像数据和它们的标注信息。
def preprocess(self, batch):
# 对一批图像进行预处理以进行 YOLO 训练。
"""Preprocesses batch of images for YOLO training."""
# tensor.to(device, dtype=None, non_blocking=False)
# 在PyTorch中, to() 函数是一个非常重要的方法,它用于将张量(Tensor)或模型移动到指定的设备上,例如CPU或GPU。这个方法对于确保模型训练和推理过程中的计算可以在正确的设备上执行至关重要。
# 参数 :
# device :指定目标设备,可以是 'cpu' 、 'cuda:0' (或其他GPU编号,如 'cuda:1' )、 torch.device 对象等。
# dtype :(可选)指定目标数据类型,例如 torch.float32 、 torch.int64 等。
# non_blocking :(可选)一个布尔值,指示是否允许异步操作。如果设置为 True ,并且操作可以异步执行,那么它将不会等待操作完成就返回。这有助于提高性能,特别是在数据传输时。
# 注意事项 :
# 当使用 to() 函数时,如果目标设备上已经有同名的张量,那么原来的张量不会被修改,而是返回一个新的张量。
# 如果指定的设备不可用(例如,没有指定的GPU), to() 函数将抛出错误。
# non_blocking 参数在多线程环境中特别有用,因为它可以减少数据传输的等待时间,但需要确保数据传输完成后再进行后续操作。
# to() 函数是PyTorch中进行设备管理和数据类型转换的基本工具,对于优化模型训练和推理的性能至关重要。
# 将图像数据移动到指定的设备(如GPU)上。 non_blocking=True 参数意味着如果数据已经在目标设备上,它将不会执行任何操作,这有助于提高效率。
batch["img"] = batch["img"].to(self.device, non_blocking=True)
# 将图像数据转换为半精度浮点数(如果 self.args.half 为 True ),然后除以255以进行归一化。这是图像预处理中的常见步骤,有助于模型训练。
batch["img"] = (batch["img"].half() if self.args.half else batch["img"].float()) / 255
# 遍历列表中的键名,这些键名对应于批数据中的不同部分。
for k in ["batch_idx", "cls", "bboxes"]:
# 将这些部分的数据也移动到指定的设备上。
batch[k] = batch[k].to(self.device)
# 检查是否设置了 save_hybrid 参数。如果为 True ,则执行以下操作。
if self.args.save_hybrid:
# 获取图像的 高度 和 宽度 。
height, width = batch["img"].shape[2:]
# 获取批中图像的数量。
nb = len(batch["img"])
# 将边界框坐标缩放到 图像的实际尺寸 。这里假设边界框坐标是相对于图像宽度和高度的比例。
bboxes = batch["bboxes"] * torch.tensor((width, height, width, height), device=self.device)
# 创建一个列表,用于存储处理后的标签数据。
self.lb = [
# 对于每张图像,将 类别标签 和 调整后的边界框坐标 连接起来。
torch.cat([batch["cls"][batch["batch_idx"] == i], bboxes[batch["batch_idx"] == i]], dim=-1)
# 遍历批中的每张图像,对它们的标签数据进行处理。
for i in range(nb)
]
# 返回预处理后的批数据。
return batch
# 这个方法的目的是确保输入数据的格式和类型适合于YOLO模型的训练,包括数据的移动到指定设备、类型转换、归一化和边界框坐标的调整。 save_hybrid 参数的使用表明,如果需要,可以将真实标注添加到预测结果中,这可能用于某些特定的训练策略或数据增强技术。
# 这段代码定义了一个名为 init_metrics 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是初始化用于YOLO(You Only Look Once)目标检测模型评估的度量指标。
# 定义了一个名为 init_metrics 的方法,它接受两个参数。
# 1.self :代表类的实例。
# 2.model :参数代表要评估的目标检测模型。
def init_metrics(self, model):
# 初始化 YOLO 的评估指标。
"""Initialize evaluation metrics for YOLO."""
# 从 self.data 字典中获取与 self.args.split 对应的验证集路径。如果找不到,返回一个空字符串。
val = self.data.get(self.args.split, "") # validation path
# 检查验证集路径是否包含 "coco" 字符串,并且是否以 "val2017.txt" 或 "test-dev2017.txt" 结尾,以确定是否是COCO数据集。
self.is_coco = (
isinstance(val, str)
and "coco" in val
and (val.endswith(f"{os.sep}val2017.txt") or val.endswith(f"{os.sep}test-dev2017.txt"))
) # is COCO
# 检查验证集路径是否包含 "lvis" 字符串,并且不是COCO数据集,以确定是否是LVIS数据集。
self.is_lvis = isinstance(val, str) and "lvis" in val and not self.is_coco # is LVIS
# 根据是否是COCO数据集,设置类别映射。如果是COCO数据集,使用 converter.coco80_to_coco91_class() 函数进行类别映射转换;否则,使用模型中的类别名称列表。
self.class_map = converter.coco80_to_coco91_class() if self.is_coco else list(range(len(model.names)))
# 如果是COCO或LVIS数据集,并且不是训练模式,设置 self.args.save_json 为 True ,以便在最终验证时保存JSON结果。
self.args.save_json |= (self.is_coco or self.is_lvis) and not self.training # run on final val if training COCO
# 获取 模型的 类别名称列表 。
self.names = model.names
# 获取模型的 类别数量 。
self.nc = len(model.names)
# 设置 度量指标对象的 类别名称列表 。
self.metrics.names = self.names
# 设置 度量指标对象的 绘图标志 ,根据 self.args.plots 的值确定是否绘制图表。
self.metrics.plot = self.args.plots
# 创建一个 ConfusionMatrix 对象,用于计算 混淆矩阵 ,其中 nc 是类别数量, conf 是配置参数。
# class ConfusionMatrix:
# -> 用于在机器学习任务中,特别是在目标检测任务中,跟踪和计算 混淆矩阵 。
# -> def __init__(self, nc, conf=0.25, iou_thres=0.45, task="detect"):
self.confusion_matrix = ConfusionMatrix(nc=self.nc, conf=self.args.conf)
# 初始化已处理图像的数量为0。
self.seen = 0
# 初始化一个空列表,用于存储评估结果的JSON字典。
self.jdict = []
# 初始化一个字典,用于存储评估过程中的各种统计数据,包括 真正例(tp) 、 置信度(conf) 、 预测类别(pred_cls) 、 目标类别(target_cls) 和 目标图像(target_img) 。
self.stats = dict(tp=[], conf=[], pred_cls=[], target_cls=[], target_img=[])
# 这个方法的主要功能是为YOLO目标检测模型的评估初始化必要的度量指标和统计数据,以便在模型验证过程中计算和记录性能指标。
# 这段代码定义了一个名为 get_desc 的方法,它返回一个格式化的字符串,用于总结YOLO模型的类别度量指标。
# 定义了一个名为 get_desc 的方法,它不接受任何参数除了 self ,代表类的实例。
def get_desc(self):
# 返回总结 YOLO 模型类指标的格式化字符串。
"""Return a formatted string summarizing class metrics of YOLO model."""
# 码构造并返回一个格式化的字符串。
# %22s 和 %11s 是字符串格式化指令,分别指定字段的宽度为22和11个字符宽, s 表示字符串类型。这些指令确保输出的列对齐,便于阅读。
# "%11s" * 6 创建了一个包含六个 %11s 格式化指令的字符串,因为除了类别名称外,还有六个度量指标需要显示。
# "Class", "Images", "Instances", "Box(P", "R", "mAP50", "mAP50-95)" 是要显示的列标题,分别代表 :
# Class :类别名称。
# Images :图像数量。
# Instances :实例数量。
# Box(P :预测框的精度(Precision)。
# R :召回率(Recall)。
# mAP50 :在IoU阈值为0.5时的平均精度均值(mean Average Precision)。
# mAP50-95 :在IoU阈值从0.5到0.95时的平均精度均值。
return ("%22s" + "%11s" * 6) % ("Class", "Images", "Instances", "Box(P", "R", "mAP50", "mAP50-95)")
# 这个方法返回的字符串通常用作表格的标题行,用于在控制台或日志文件中显示YOLO模型的评估结果。格式化的字符串确保了输出的整洁和对齐,使得结果易于理解和比较。
# 这段代码定义了一个名为 postprocess 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是应用非极大值抑制(Non-maximum suppression, NMS)到目标检测模型的预测输出上。
# 定义了一个名为 postprocess 的方法,它接受一个参数。
# 1.preds :这个参数代表模型的预测输出。
def postprocess(self, preds):
# 对预测输出应用非最大抑制。
"""Apply Non-maximum suppression to prediction outputs."""
# 返回 ops 模块中的 non_max_suppression 函数的调用结果。这个函数是目标检测后处理中的关键步骤,用于去除重叠的检测框。
return ops.non_max_suppression(
# 代表模型的原始预测输出。
preds,
# 代表预测框的置信度阈值。只有置信度高于这个阈值的预测框才会被考虑。
self.args.conf,
# 代表交并比(IoU)阈值。如果两个预测框的IoU高于这个阈值,则较低置信度的预测框会被抑制。
self.args.iou,
# 代表真实的标签。这在某些情况下用于评估或者特定的后处理逻辑。
labels=self.lb,
# 表示每个预测框可以属于多个类别。
multi_label=True,
# 表示是否执行类别无关的NMS。如果 self.args.single_cls 为 True 或者 self.args.agnostic_nms 为 True ,则NMS将忽略类别信息。
agnostic=self.args.single_cls or self.args.agnostic_nms,
# 表示每个图像允许的最大检测框数量。
max_det=self.args.max_det,
)
# non_max_suppression 函数的作用是从模型的原始预测输出中选择最佳的预测框,通过抑制那些重叠的、置信度较低的预测框,从而提高目标检测的精度。这个方法是目标检测流程中不可或缺的一部分,有助于从模型的输出中得到最终的检测结果。
# 这段代码定义了一个名为 _prepare_batch 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是为验证过程准备一批图像和对应的标注信息。
# 定义了一个名为 _prepare_batch 的方法,它接受两个参数。
# 1.si :代表当前批次中的图像索引。
# 2.batch :代表一批图像数据和它们的标注信息。
def _prepare_batch(self, si, batch):
# 准备一批图像和注释以供验证。
"""Prepares a batch of images and annotations for validation."""
# 创建一个布尔索引 idx ,用于从批次中选择当前图像的索引。
idx = batch["batch_idx"] == si
# 从批次中提取当前图像的类别标签,并移除最后一个维度(如果存在)。
cls = batch["cls"][idx].squeeze(-1)
# 从批次中提取当前图像的边界框标注。
bbox = batch["bboxes"][idx]
# 获取原始图像的形状。
ori_shape = batch["ori_shape"][si]
# 获取批次中图像的大小。
imgsz = batch["img"].shape[2:]
# 获取批次中图像的缩放比例。
ratio_pad = batch["ratio_pad"][si]
# 检查是否有类别标签。
if len(cls):
# 如果有类别标签,将边界框从 xywh 格式转换为 xyxy 格式,并根据图像大小进行缩放。
bbox = ops.xywh2xyxy(bbox) * torch.tensor(imgsz, device=self.device)[[1, 0, 1, 0]] # target boxes
# 将边界框从缩放后的图像空间转换回原始图像空间。
# def scale_boxes(img1_shape, boxes, img0_shape, ratio_pad=None, padding=True, xywh=False):
# -> 用于将边界框按照一定的比例缩放并调整到原始图像的形状。使用 clip_boxes 函数将缩放后的边界框剪辑到 原始图像 的形状内,并返回结果。
# -> return clip_boxes(boxes, img0_shape)
ops.scale_boxes(imgsz, bbox, ori_shape, ratio_pad=ratio_pad) # native-space labels
# 返回一个字典,包含处理后的 类别标签 、 边界框 、 原始图像形状 、 图像大小 和 缩放比例 。
return {"cls": cls, "bbox": bbox, "ori_shape": ori_shape, "imgsz": imgsz, "ratio_pad": ratio_pad}
# 这个方法的主要功能是将批次中的图像和标注信息转换为适合验证过程的格式,包括边界框的格式转换和空间转换。这是目标检测验证过程中的一个重要步骤,确保输入数据的格式和空间与模型训练时一致。
# 这段代码定义了一个名为 _prepare_pred 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是将模型的预测输出(pred)从模型输入图像的空间转换回原始图像的空间,以便进行后续的评估。
# 定义了一个名为 _prepare_pred 的方法,它接受两个参数。
# 1.pred :代表模型的预测输出。
# 2.pbatch :代表一批图像数据和它们的标注信息。
def _prepare_pred(self, pred, pbatch):
# 准备一批图像和注释以供验证。
"""Prepares a batch of images and annotations for validation."""
# 创建预测输出 pred 的一个副本。这样做是为了避免直接修改原始的预测输出。
predn = pred.clone()
# 调用 ops 模块中的 scale_boxes 函数,将预测的边界框从模型输入图像的空间(通常是缩放后的图像)转换回原始图像的空间。这个函数需要以下参数 :
# pbatch["imgsz"] :模型输入图像的大小。
# predn[:, :4] :预测的边界框坐标,只选择前四个列(x, y, w, h 或 x1, y1, x2, y2)。
# pbatch["ori_shape"] :原始图像的形状。
# ratio_pad=pbatch["ratio_pad"] :图像的缩放比例。
# def scale_boxes(img1_shape, boxes, img0_shape, ratio_pad=None, padding=True, xywh=False):
# -> 用于将边界框按照一定的比例缩放并调整到原始图像的形状。使用 clip_boxes 函数将缩放后的边界框剪辑到 原始图像 的形状内,并返回结果。
# -> return clip_boxes(boxes, img0_shape)
ops.scale_boxes(
pbatch["imgsz"], predn[:, :4], pbatch["ori_shape"], ratio_pad=pbatch["ratio_pad"]
) # native-space pred
# 返回转换后的预测输出 predn 。
return predn
# 这个方法的主要功能是调整预测的边界框坐标,使其与原始图像的尺寸相匹配。这是目标检测评估过程中的一个重要步骤,因为评估指标(如IoU)需要在原始图像的空间中计算。通过这种方式,可以确保评估结果的准确性。
# 这段代码定义了一个名为 update_metrics 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是更新评估过程中的度量指标,包括真正例(true positives, TP)、置信度(confidence)等。
# 定义了一个名为 update_metrics 的方法,它接受两个参数。
# 1.preds :代表模型的预测输出列表。
# 2.batch :代表一批图像数据和它们的标注信息。
def update_metrics(self, preds, batch):
# 指标。
"""Metrics."""
# 这段代码是 update_metrics 方法的一部分,它处理每个预测结果( pred )并更新度量指标。
# 遍历 preds 列表,这个列表包含了模型对一批图像的预测结果。 si 是当前预测结果的索引, pred 是对应的预测结果。
for si, pred in enumerate(preds):
# 每处理一个预测结果,就将 self.seen 加1, self.seen 用于跟踪处理的图像数量。
self.seen += 1
# 获取当前预测结果的数量,并将其存储在 npr 变量中。
npr = len(pred)
# 初始化一个字典 stat ,用于存储当前图像的统计数据。这个字典包含了三个键 :
# conf :一个零张量,用于存储置信度数据。
# pred_cls :一个零张量,用于存储预测的类别数据。
# tp :一个布尔张量,用于存储真正例(TP)数据,其形状为 (npr, self.niou) 。
stat = dict(
conf=torch.zeros(0, device=self.device),
pred_cls=torch.zeros(0, device=self.device),
tp=torch.zeros(npr, self.niou, dtype=torch.bool, device=self.device),
)
# 调用 _prepare_batch 方法,准备 当前图像的 批次 数据。
pbatch = self._prepare_batch(si, batch)
# 从 pbatch 中提取 类别标签 cls 和 边界框 bbox 。
cls, bbox = pbatch.pop("cls"), pbatch.pop("bbox")
# 获取当前图像的 真实标注数量 ,并将其存储在 nl 变量中。
nl = len(cls)
# 更新统计数据,记录目标类别和唯一的目标图像类别。
stat["target_cls"] = cls
stat["target_img"] = cls.unique()
# 如果当前图像没有预测结果( npr 为0),则执行以下操作。
if npr == 0:
# 如果当前图像有真实标注( nl 不为0),则对每个统计数据键,将空的 stat 值追加到 self.stats 中。
if nl:
for k in self.stats.keys():
self.stats[k].append(stat[k])
# 如果需要绘图,调用 self.confusion_matrix.process_batch 方法处理当前图像的混淆矩阵,传入 detections=None 表示没有检测结果。
if self.args.plots:
# def process_batch(self, detections, gt_bboxes, gt_cls): -> 处理目标检测模型的检测结果与真实标签,并更新一个统计矩阵(可能是混淆矩阵)。这个函数考虑了检测结果的置信度、真实标签的存在与否,以及检测结果与真实标签之间的匹配情况。
self.confusion_matrix.process_batch(detections=None, gt_bboxes=bbox, gt_cls=cls)
# 跳过当前循环的剩余部分,继续处理下一个预测结果。
continue
# 这段代码的主要功能是处理没有预测结果的情况,更新统计数据,并根据需要绘制混淆矩阵。如果没有预测结果,但有真实标注,这意味着模型错过了一些目标,这些信息需要被记录和处理。
# 这段代码继续处理 update_metrics 方法中的预测结果,并更新统计数据。
# Predictions 表明接下来的代码块处理预测结果。
# 检查是否设置了单类别( single_cls )标志。如果为真,这意味着模型被配置为只预测一个类别。
if self.args.single_cls:
# 如果是单类别检测,将预测结果中类别索引的那一列(通常是第6列,索引从0开始,因此是第5个索引)全部设置为0。这是因为在单类别检测中,所有预测都被认为是同一类别。
pred[:, 5] = 0
# 调用 _prepare_pred 方法,将预测结果从模型输入图像的空间转换回原始图像的空间。 pred 是模型的预测输出, pbatch 包含了原始图像的信息,如尺寸等。
predn = self._prepare_pred(pred, pbatch)
# 更新统计数据 stat ,将预测结果中的置信度(通常是第5列)存储在 stat 字典的 "conf" 键下。这里使用 predn[:, 4] 是因为 predn 是经过 _prepare_pred 方法处理后的预测结果。
stat["conf"] = predn[:, 4]
# 更新统计数据 stat ,将预测结果中的类别索引(通常是第6列)存储在 stat 字典的 "pred_cls" 键下。这里使用 predn[:, 5] 是因为 predn 是经过 _prepare_pred 方法处理后的预测结果。
stat["pred_cls"] = predn[:, 5]
# 这段代码的主要功能是处理预测结果,包括在单类别情况下将类别索引设置为0,以及将预测结果的置信度和类别索引提取出来,以便后续的评估和统计。这些信息对于计算度量指标(如精确度、召回率和平均精度)至关重要。
# 这段代码是 update_metrics 方法中用于评估模型性能的部分,它处理真正例(True Positives, TP)的计算和更新统计数据。
# Evaluate 表明接下来的代码块用于评估模型的性能。
# 检查是否有真实标注( nl 不为0,即 len(cls) > 0 ),如果有,则执行以下操作。
if nl:
# 调用 _process_batch 方法来计算真正例(TP)。这个方法会比较预测结果 predn 和真实标注 bbox 、 cls ,并返回一个布尔张量,表示每个预测是否为TP。结果存储在 stat 字典的 "tp" 键下。
stat["tp"] = self._process_batch(predn, bbox, cls)
# 检查是否设置了绘制图表的标志( self.args.plots )。如果为真,则执行以下操作。
if self.args.plots:
# 调用 confusion_matrix 对象的 process_batch 方法,传入预测结果 predn 、真实边界框 bbox 和真实类别 cls 。这个方法会更新混淆矩阵,用于后续的可视化和分析。
# def process_batch(self, detections, gt_bboxes, gt_cls): -> 处理目标检测模型的检测结果与真实标签,并更新一个统计矩阵(可能是混淆矩阵)。这个函数考虑了检测结果的置信度、真实标签的存在与否,以及检测结果与真实标签之间的匹配情况。
self.confusion_matrix.process_batch(predn, bbox, cls)
# 遍历 self.stats 字典中的所有键。
for k in self.stats.keys():
# 对于每个键 k ,将当前图像的统计数据 stat[k] 追加到 self.stats[k] 中。这样,随着处理更多图像, self.stats 会累积所有图像的统计数据。
self.stats[k].append(stat[k])
# 这段代码的主要功能是 :
# 在有真实标注的情况下,计算每个预测的真正例状态。
# 如果需要,更新混淆矩阵以便于后续的可视化。
# 更新和累积整个数据集的统计数据,这些统计数据将用于计算最终的性能指标,如平均精度(Average Precision, AP)和平均召回率(Average Recall, AR)。
# 这段代码是 update_metrics 方法中用于保存预测结果的部分。
# Save 表明接下来的代码块用于保存预测结果。
# 检查是否设置了保存为JSON格式的标志( self.args.save_json )。如果为真,则执行以下操作。
if self.args.save_json:
# 调用 pred_to_json 方法,将预测结果 predn 转换为JSON格式,并保存到文件中。 batch["im_file"][si] 提供了当前图像的文件名,用于确定保存路径。
self.pred_to_json(predn, batch["im_file"][si])
# 检查是否设置了保存为TXT格式的标志( self.args.save_txt )。如果为真,则执行以下操作。
if self.args.save_txt:
# 调用 save_one_txt 方法,将预测结果 predn 保存为TXT格式。这个方法接受以下参数 :
# predn :处理后的预测结果。
# self.args.save_conf :保存的置信度阈值。
# pbatch["ori_shape"] :原始图像的形状。
# self.save_dir / "labels" / f'{Path(batch["im_file"][si]).stem}.txt' :保存TXT文件的路径。这里使用 Path 对象和字符串格式化来构建文件路径, self.save_dir 是保存目录, "labels" 是子目录, f'{Path(batch["im_file"][si]).stem}.txt' 是文件名,不包含扩展名。
self.save_one_txt(
predn,
self.args.save_conf,
pbatch["ori_shape"],
self.save_dir / "labels" / f'{Path(batch["im_file"][si]).stem}.txt',
)
# 这段代码的主要功能是将模型的预测结果保存到文件中,可以是JSON格式或TXT格式,以便进行进一步的分析或提交到评估服务器。保存预测结果是一个重要的步骤,因为它允许用户验证模型的性能,并在各种应用中使用预测结果。
# 这个方法的主要功能是更新评估过程中的度量指标,包括处理预测结果和真实标注,计算TP等统计数据,并根据需要保存结果。这是目标检测评估过程中的一个重要步骤,确保评估结果的准确性和完整性。
# 这段代码定义了一个名为 finalize_metrics 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是设置度量指标的最终值,特别是速度和混淆矩阵。
# 定义了一个名为 finalize_metrics 的方法,它接受任意数量的 位置参数( *args )和 关键字参数( **kwargs )。这使得方法可以灵活地接受额外的参数,即使在定义时没有明确指定这些参数。
def finalize_metrics(self, *args, **kwargs):
# 设置指标速度和混淆矩阵的最终值。
"""Set final values for metrics speed and confusion matrix."""
# 将度量指标对象( self.metrics )的速度属性设置为类实例的速度属性( self.speed )。这通常是在验证过程中计算出的平均推理时间。
self.metrics.speed = self.speed
# 将度量指标对象的 混淆矩阵 属性设置为类实例的 混淆矩阵 属性。混淆矩阵是一个重要的工具,用于评估分类模型的性能,特别是在目标检测任务中,它可以显示模型在不同类别上的性能。
self.metrics.confusion_matrix = self.confusion_matrix
# 这个方法的主要功能是确保度量指标对象包含了最新的速度和混淆矩阵数据,这些数据可以在验证过程结束后用于报告或进一步分析。通过这种方式, finalize_metrics 方法为模型的性能评估提供了一个完整的视图。
# 这段代码定义了一个名为 get_stats 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是收集和处理度量指标的统计数据,并返回一个包含结果的字典。
# 定义了一个名为 get_stats 的方法,它不接受任何参数除了 self ,代表类的实例。
def get_stats(self):
# 返回指标统计数据和结果字典。
"""Returns metrics statistics and results dictionary."""
# 创建一个新字典 stats ,其中包含从 self.stats 中所有值(列表)连接成张量、移动到CPU、转换为NumPy数组的结果。这里使用 torch.cat 来连接列表中的张量, cpu() 将它们移动到CPU(如果它们不在CPU上), numpy() 将它们转换为NumPy数组。
stats = {k: torch.cat(v, 0).cpu().numpy() for k, v in self.stats.items()} # to numpy
# np.bincount(x, minlength=None)
# np.bincount 是 NumPy 库中的一个函数,它用于计算非负整数数组中每个值的出现次数。
# 参数 :
# x :输入数组,其中的元素必须是非负整数。
# minlength (可选) :输出数组的最小长度。如果提供,数组 x 中小于 minlength 的值将被忽略,而 x 中等于或大于 minlength 的值将导致数组被扩展以包含这些值。如果未提供或为 None ,则输出数组的长度将与 x 中的最大值加一相匹配。
# 返回值 :
# 返回一个数组,其中第 i 个元素代表输入数组 x 中值 i 出现的次数。
# 功能 :
# np.bincount 函数对输入数组 x 中的每个值进行计数,返回一个一维数组,其长度至少与 x 中的最大值一样大。
# 如果 x 中的某个值没有出现,那么在返回的数组中对应的位置将为 0。
# 例:
# x = np.array([1, 2, 3, 3, 0, 1, 4])
# np.bincount(x)
# '''array([1, 2, 1, 2, 1], dtype=int64)'''
# 输出 : [1 2 1 2 1]。统计索引出现次数:索引0出现1次,1出现2次,2出现1次,3出现2次,4出现1次。
# 使用NumPy的 bincount 函数计算每个类别的目标数量。 stats["target_cls"] 包含目标类别的索引, astype(int) 确保它们是整数类型, minlength=self.nc 确保结果的长度至少为 self.nc (类别数量)。
self.nt_per_class = np.bincount(stats["target_cls"].astype(int), minlength=self.nc)
# 类似地,计算每个图像的目标数量。
self.nt_per_image = np.bincount(stats["target_img"].astype(int), minlength=self.nc)
# 从 stats 字典中移除 "target_img" 键值对,如果它存在的话。
stats.pop("target_img", None)
# 检查 stats 字典不为空,并且真正例(TP)数组中至少有一个真值。
if len(stats) and stats["tp"].any():
# 如果满足上述条件,调用 self.metrics.process 方法,传入 stats 字典中的所有统计数据作为关键字参数。
# def process(self, tp, conf, pred_cls, target_cls):
# -> 返回计算结果,包括 真阳性tp 、 假阳性fp 、 精确度p 、 召回率r 、 F1值f1 、 APap 、 类别unique_classes.astype(int) 、 精确度曲线p_curve 、 召回率曲线r_curve 、 F1曲线f1_curve 和 插值后的精确度值prec_values 。
self.metrics.process(**stats)
# 返回 self.metrics 对象中的 results_dict 属性,这是一个包含度量指标结果的字典。
return self.metrics.results_dict
# 这个方法的主要功能是将度量指标的统计数据转换为NumPy数组,计算每个类别和每个图像的目标数量,处理统计数据,并返回包含最终结果的字典。这些结果可以用于评估模型的性能,例如计算平均精度(AP)和平均召回率(AR)。
# 这段代码定义了一个名为 print_results 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是打印训练或验证集的度量指标,具体到每个类别。
# 定义了一个名为 print_results 的方法,它不接受任何参数除了 self ,代表类的实例。
def print_results(self):
# 打印每个类别的训练/验证集指标。
"""Prints training/validation set metrics per class."""
# 创建一个格式化字符串 pf ,用于打印结果。这个字符串包括一个22字符宽的字符串字段和多个11字符宽的整数字段,以及多个11字符宽的浮点数字段(数量由 self.metrics.keys 的长度决定)。
pf = "%22s" + "%11i" * 2 + "%11.3g" * len(self.metrics.keys) # print format
# 使用 pf 格式化字符串和度量指标数据打印总体结果。这里 self.seen 是处理的图像数量, self.nt_per_class.sum() 是所有类别的实例总数, *self.metrics.mean_results() 是度量指标的平均结果。
# def mean_results(self): -> 计算并返回模型的平均精确度、召回率、mAP@0.5 和 mAP@0.5-0.95。 -> return self.box.mean_results()
LOGGER.info(pf % ("all", self.seen, self.nt_per_class.sum(), *self.metrics.mean_results()))
# 检查所有类别的实例总数是否为0。
if self.nt_per_class.sum() == 0:
# 如果没有找到标签,打印警告信息,说明无法在没有标签的情况下计算度量指标。
LOGGER.warning(f"WARNING ⚠️ no labels found in {self.args.task} set, can not compute metrics without labels") # 警告⚠️在 {self.args.task} 集合中未找到标签,无法计算没有标签的指标。
# Print results per class
# 检查是否需要详细输出( self.args.verbose ),是否不在训练模式( not self.training ),类别数量是否大于1( self.nc > 1 ),以及是否有统计数据( len(self.stats) )。
if self.args.verbose and not self.training and self.nc > 1 and len(self.stats):
# 遍历每个类别的索引,这些索引对应于平均精度(AP)最高的类别。
for i, c in enumerate(self.metrics.ap_class_index):
# 打印每个类别的结果,包括 类别名称 、 每图像的目标数量 、 每类别的目标数量 和 度量指标的类别结果 。
LOGGER.info(
# def class_result(self, i): -> 返回特定类别的性能评估结果。 -> return self.box.class_result(i)
pf % (self.names[c], self.nt_per_image[c], self.nt_per_class[c], *self.metrics.class_result(i))
)
# 检查是否需要绘制图表( self.args.plots )。
if self.args.plots:
# 遍历布尔值,决定是否对混淆矩阵进行归一化处理。
for normalize in True, False:
# 调用混淆矩阵的 plot 方法,绘制混淆矩阵的图表。 save_dir 指定保存目录, names 指定类别名称, normalize 指定是否归一化, on_plot 是一个回调函数,用于在绘制图表时执行额外的操作。
# def plot(self, normalize=True, save_dir="", names=(), on_plot=None): -> 用于绘制混淆矩阵并将其保存为文件。
self.confusion_matrix.plot(
save_dir=self.save_dir, names=self.names.values(), normalize=normalize, on_plot=self.on_plot
)
# 这个方法的主要功能是打印和可视化度量指标,包括总体结果和每个类别的结果,以及绘制混淆矩阵图表。这些信息对于评估模型的性能和理解模型在不同类别上的表现至关重要。
# 这段代码定义了一个名为 _process_batch 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是处理一批检测结果,比较预测的边界框和真实的边界框,并计算匹配情况。
# 定义了一个名为 _process_batch 的方法,它接受三个参数。
# 1.detections :模型的预测结果。
# 2.gt_bboxes :真实的边界框。
# 3.gt_cls :真实的类别标签。
def _process_batch(self, detections, gt_bboxes, gt_cls):
# 返回正确的预测矩阵。
# 注意:
# 该函数不返回任何可直接用于度量计算的值。相反,它提供了一个用于评估预测与真实情况的中间表示。
"""
Return correct prediction matrix.
Args:
detections (torch.Tensor): Tensor of shape (N, 6) representing detections where each detection is
(x1, y1, x2, y2, conf, class).
gt_bboxes (torch.Tensor): Tensor of shape (M, 4) representing ground-truth bounding box coordinates. Each
bounding box is of the format: (x1, y1, x2, y2).
gt_cls (torch.Tensor): Tensor of shape (M,) representing target class indices.
Returns:
(torch.Tensor): Correct prediction matrix of shape (N, 10) for 10 IoU levels.
Note:
The function does not return any value directly usable for metrics calculation. Instead, it provides an
intermediate representation used for evaluating predictions against ground truth.
"""
# 计算 真实边界框 和 预测边界框 之间的交并比(IoU)。这里 detections[:, :4] 表示取预测结果中每个边界框的前四个列,即边界框的坐标。
# def box_iou(box1, box2, eps=1e-7):
# -> 计算IoU值。首先计算两个边界框的面积,然后减去交集区域的面积,最后加上 eps 防止除以零。这个结果就是两个边界框的IoU值。
# -> return inter / ((a2 - a1).prod(2) + (b2 - b1).prod(2) - inter + eps)
iou = box_iou(gt_bboxes, detections[:, :4])
# 调用 match_predictions 方法来比较预测的类别标签和真实的类别标签,并使用IoU结果来确定哪些预测是真正的正例(TP)。这里 detections[:, 5] 表示取预测结果中每个边界框的第六个元素,即类别标签索引。
# def match_predictions(self, pred_classes, true_classes, iou, use_scipy=False):
# -> 用于在目标检测任务中匹配预测结果和真实标签。返回一个布尔张量,表示预测是否正确,数据类型为布尔,设备与 pred_classes 相同。
# -> return torch.tensor(correct, dtype=torch.bool, device=pred_classes.device)
return self.match_predictions(detections[:, 5], gt_cls, iou)
# 这个方法的主要功能是 :
# 计算预测边界框和真实边界框之间的IoU。
# 确定每个预测是否正确匹配到真实目标。
# 返回匹配结果,这些结果可以用于后续的性能评估和统计。
# 这段代码定义了一个名为 build_dataset 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是构建用于YOLO模型的数据集。
# 定义了一个名为 build_dataset 的方法,它接受三个参数。
# 1.self :类的实例。
# 2.img_path :包含图像文件路径的字符串或路径列表。
# 3.mode :指定数据集的模式,默认为 "val" ,即验证集。
# 4.batch :可选参数,用于指定批次信息。
def build_dataset(self, img_path, mode="val", batch=None):
# 构建 YOLO 数据集。
"""
Build YOLO Dataset.
Args:
img_path (str): Path to the folder containing images.
mode (str): `train` mode or `val` mode, users are able to customize different augmentations for each mode.
batch (int, optional): Size of batches, this is for `rect`. Defaults to None.
"""
# 调用 build_yolo_dataset 函数来构建数据集,并返回结果。这个函数接受以下参数 :
# self.args :包含模型参数和配置的实例。
# img_path :图像文件的路径。
# batch :批次信息。
# self.data :包含数据集元数据的实例属性。
# mode :数据集的模式,如训练、验证或测试。
# stride :模型输入的步长或尺寸。
# def build_yolo_dataset(cfg, img_path, batch, data, mode="train", rect=False, stride=32, multi_modal=False):
# -> 用于构建 YOLO(You Only Look Once)目标检测模型的数据集。这个函数根据提供的配置和参数,初始化并返回一个 YOLODataset 或 YOLOMultiModalDataset 实例。
# -> return dataset(img_path=img_path, imgsz=cfg.imgsz, batch_size=batch, augment=mode == "train", hyp=cfg, rect=cfg.rect or rect, cache=cfg.cache or None, single_cls=cfg.single_cls or False, stride=int(stride),
# pad=0.0 if mode == "train" else 0.5, prefix=colorstr(f"{mode}: "),task=cfg.task, classes=cfg.classes, data=data, fraction=cfg.fraction if mode == "train" else 1.0,)
return build_yolo_dataset(self.args, img_path, batch, self.data, mode=mode, stride=self.stride)
# 这个方法的主要功能是提供一个接口,用于根据给定的参数和配置构建适用于YOLO模型的数据集。这对于模型的训练和验证是必要的,因为它确保了数据以正确的格式提供给模型。
# 这段代码定义了一个名为 get_dataloader 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是构建并返回一个数据加载器(dataloader),用于批量加载数据集。
# 定义了一个名为 get_dataloader 的方法,它接受两个参数。
# 1.self :类的实例。
# 2.dataset_path :数据集的路径。
# 3.batch_size :每个批次的样本数量。
def get_dataloader(self, dataset_path, batch_size):
# 构造并返回数据加载器。
"""Construct and return dataloader."""
# 调用 self.build_dataset 方法来构建数据集。这个方法需要数据集路径 dataset_path 、批次大小 batch_size 和模式 mode (这里设置为 "val" ,表示验证集)。
dataset = self.build_dataset(dataset_path, batch=batch_size, mode="val")
# 调用 build_dataloader 函数来构建数据加载器,并返回它。这个函数接受以下参数 :
# dataset :由 build_dataset 方法返回的数据集。
# batch_size :每个批次的样本数量。
# self.args.workers :用于数据加载的工作线程数量。
# shuffle=False :设置为 False 表示数据在每个epoch开始时不被打乱。
# rank=-1 :设置为 -1 表示不在分布式训练环境中使用,或者当前进程是主进程。
# def build_dataloader(dataset, batch, workers, shuffle=True, rank=-1):
# -> 用于构建 PyTorch 的 DataLoader 或 InfiniteDataLoader 对象。
# -> return InfiniteDataLoader(dataset=dataset, batch_size=batch, shuffle=shuffle and sampler is None, num_workers=nw, sampler=sampler, pin_memory=PIN_MEMORY,
# collate_fn=getattr(dataset, "collate_fn", None), worker_init_fn=seed_worker, generator=generator,)
return build_dataloader(dataset, batch_size, self.args.workers, shuffle=False, rank=-1) # return dataloader
# 这个方法的主要功能是提供一个接口,用于根据给定的数据集路径和批次大小构建数据加载器。这对于模型的训练和验证是必要的,因为它确保了数据能够以正确的格式和批次大小提供给模型。
# 这段代码定义了一个名为 plot_val_samples 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是绘制验证集图像样本,并展示模型对这些样本的预测结果。
# 定义了一个名为 plot_val_samples 的方法,它接受两个参数。
# 1.self :类的实例。
# 2.batch :包含一批图像数据和它们的标注信息。
# 3.ni :当前批次的索引或编号。
def plot_val_samples(self, batch, ni):
# 绘制验证图像样本。
"""Plot validation image samples."""
# 调用 plot_images 函数来绘制图像和标注。这个函数接受以下参数。
# def plot_images(images: Union[torch.Tensor, np.ndarray], batch_idx: Union[torch.Tensor, np.ndarray], cls: Union[torch.Tensor, np.ndarray], bboxes: Union[torch.Tensor, np.ndarray] = np.zeros(0, dtype=np.float32),
# confs: Optional[Union[torch.Tensor, np.ndarray]] = None, masks: Union[torch.Tensor, np.ndarray] = np.zeros(0, dtype=np.uint8),
# kpts: Union[torch.Tensor, np.ndarray] = np.zeros((0, 51), dtype=np.float32), paths: Optional[List[str]] = None, fname: str = "images.jpg",
# names: Optional[Dict[int, str]] = None, on_plot: Optional[Callable] = None, max_size: int = 1920, max_subplots: int = 16, save: bool = True, conf_thres: float = 0.25,) -> Optional[np.ndarray]:
# -> 用于将一系列图像和相关的边界框、类别、置信度等信息绘制成一幅图像马赛克(mosaic)。返回图像数据。返回 Annotator 对象中的图像数据,以 NumPy 数组的形式。这样,即使不保存到文件系统,也可以在内存中使用或进一步处理图像。
# -> return np.asarray(annotator.im)
plot_images(
# 一批图像数据。
batch["img"],
# 批次中每个图像的索引。
batch["batch_idx"],
# 一批图像的类别标签,使用 squeeze(-1) 移除不必要的维度。
batch["cls"].squeeze(-1),
# 一批图像的边界框标注。
batch["bboxes"],
# 一批图像的文件路径,用于在图像上显示文件名或其他信息。
paths=batch["im_file"],
# 保存绘制图像的文件名,其中 self.save_dir 是保存目录, val_batch{ni}_labels.jpg 是根据批次索引构建的文件名。
fname=self.save_dir / f"val_batch{ni}_labels.jpg",
# 类别名称列表,用于在图像上显示类别名称。
names=self.names,
# 一个回调函数,用于在绘制图像时执行额外的操作。
on_plot=self.on_plot,
)
# 这个方法的主要功能是可视化模型在验证集上的性能,通过展示一批图像样本及其预测结果,帮助用户直观地理解模型的检测能力。这对于模型的调试和评估是非常有用的。
# 这段代码定义了一个名为 plot_predictions 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是将模型预测的边界框绘制在输入图像上,并保存结果。
# 定义了一个名为 plot_predictions 的方法,它接受三个参数。
# 1.self :类的实例。
# 2.batch :包含一批图像数据和它们的标注信息。
# 3.preds :模型对这批图像的预测结果。
# 4.ni :当前批次的索引或编号。
def plot_predictions(self, batch, preds, ni):
# 在输入图像上绘制预测边界框并保存结果。
"""Plots predicted bounding boxes on input images and saves the result."""
# 调用 plot_images 函数来绘制图像和预测的边界框。这个函数接受以下参数。
plot_images(
# 一批图像数据。
batch["img"],
# 预测结果 preds 转换为 plot_images 函数所需的目标格式,并且根据 self.args.max_det 参数限制每个图像的最大检测数量。
# def output_to_target(output, max_det=300):
# -> 它将模型的输出转换为绘图所需的目标格式。返回目标格式数据。返回转换后的目标数据,分别对应 批次索引 、 类别 、 边界框坐标 和 置信度 。
# -> return targets[:, 0], targets[:, 1], targets[:, 2:-1], targets[:, -1]
*output_to_target(preds, max_det=self.args.max_det),
# 一批图像的文件路径,用于在图像上显示文件名或其他信息。
paths=batch["im_file"],
# 保存绘制图像的文件名,其中 self.save_dir 是保存目录, val_batch{ni}_pred.jpg 是根据批次索引构建的文件名。
fname=self.save_dir / f"val_batch{ni}_pred.jpg",
# 类别名称列表,用于在图像上显示类别名称。
names=self.names,
# 一个回调函数,用于在绘制图像时执行额外的操作。
on_plot=self.on_plot,
) # pred
# 这个方法的主要功能是可视化模型在验证集上的预测结果,通过展示一批图像样本及其预测的边界框,帮助用户直观地理解模型的检测性能。这对于模型的调试和评估是非常有用的,尤其是在需要展示模型预测的准确性和置信度时。
# 这段代码定义了一个名为 save_one_txt 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是将YOLO模型的检测结果保存到一个TXT文件中,文件中的坐标是归一化的,并且遵循特定的格式。
# 定义了一个名为 save_one_txt 的方法,它接受四个参数.
# 1.self :类的实例。
# 2.predn :处理后的预测结果,包含归一化的边界框和类别置信度。
# 3.save_conf :保存预测结果的置信度阈值。
# 4.shape :原始图像的形状,用于归一化边界框坐标。
# 5.file :保存TXT文件的路径。
def save_one_txt(self, predn, save_conf, shape, file):
# 将 YOLO 检测结果以特定格式保存到标准化坐标中的 txt 文件中。
"""Save YOLO detections to a txt file in normalized coordinates in a specific format."""
# 从 ultralytics.engine.results 模块导入 Results 类。
# class Results(SimpleClass):
# -> Results 类的目的是封装检测或分割模型的输出结果,包括原始图像、检测框、掩码、概率、关键点、方向边界框(Oriented Bounding Box,简称 OBB)和速度信息。
# -> def __init__(self, orig_img, path, names, boxes=None, masks=None, probs=None, keypoints=None, obb=None, speed=None) -> None:
from ultralytics.engine.results import Results
# 创建一个 Results 对象,它封装了图像的检测结果。这个对象接受以下参数。
Results(
# 创建一个与原始图像大小相同的零矩阵,表示没有像素级的掩码信息。
np.zeros((shape[0], shape[1]), dtype=np.uint8),
# 图像的路径,这里设置为 None ,因为不需要。
path=None,
# 类别名称列表。
names=self.names,
# 预测结果中的边界框和类别置信度,假设 predn 的前六个列包含了这些信息。
boxes=predn[:, :6],
# 调用 Results 对象的 save_txt 方法,将检测结果保存到TXT文件中。这个方法接受以下参数 :
# file :保存TXT文件的路径。
# save_conf :保存预测结果的置信度阈值。
# def save_txt(self, txt_file, save_conf=False): -> 用于将检测、分割或分类结果保存到文本文件中。
).save_txt(file, save_conf=save_conf)
# 这个方法的主要功能是将模型的检测结果以文本形式保存,这在某些评估协议中是必需的,例如在提交到公共数据集的评估服务器时。
# 这段代码定义了一个名为 pred_to_json 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是将YOLO模型的预测结果序列化成COCO(Common Objects in Context)JSON格式。
# 定义了一个名为 pred_to_json 的方法,它接受两个参数。
# 1.self :类的实例。
# 2.predn :处理后的预测结果,包含边界框和类别置信度。
# 3.filename :图像文件的名称。
def pred_to_json(self, predn, filename):
# 将 YOLO 预测序列化为 COCO json 格式。
"""Serialize YOLO predictions to COCO json format."""
# 使用 Path 对象获取 filename 的基本名称(不包含扩展名)。
stem = Path(filename).stem
# 尝试将 stem 转换为整数,如果 stem 是数字则成功转换,否则保持原样。 image_id 在COCO JSON格式中用于标识图像。
image_id = int(stem) if stem.isnumeric() else stem
# 调用 ops.xyxy2xywh 函数将预测的边界框从 xyxy 格式(左上角和右下角的坐标)转换为 xywh 格式(中心点坐标和宽高)。
box = ops.xyxy2xywh(predn[:, :4]) # xywh
# 将 xywh 格式中的中心点坐标转换为左上角坐标。
box[:, :2] -= box[:, 2:] / 2 # xy center to top-left corner
# 遍历 predn 和 box 的列表形式, p 代表每个预测结果, b 代表对应的边界框。
for p, b in zip(predn.tolist(), box.tolist()):
# 将每个预测结果添加到 self.jdict 列表中, self.jdict 是一个用于存储所有预测结果的JSON字典列表。每个字典包含以下键值对。
self.jdict.append(
{
# 图像的ID。
"image_id": image_id,
# 类别的ID,如果 self.is_lvis 为 True ,则加上1,因为LVIS数据集中的类别ID从1开始。
"category_id": self.class_map[int(p[5])]
+ (1 if self.is_lvis else 0), # index starts from 1 if it's lvis
# 边界框的坐标,保留三位小数。
"bbox": [round(x, 3) for x in b],
# 预测的置信度,保留五位小数。
"score": round(p[4], 5),
}
)
# 这个方法的主要功能是将模型的检测结果转换为COCO JSON格式,这种格式广泛用于目标检测任务的结果提交和评估。通过这种方式,可以方便地将结果用于各种目标检测的基准测试和比较。
# 这段代码定义了一个名为 eval_json 的方法,它是 DetectionValidator 类的一部分。这个方法的目的是评估YOLO模型输出的JSON格式结果,并返回性能统计数据。
# 定义了一个名为 eval_json 的方法,它接受两个参数。
# 1.self :类的实例。
# 2.stats :用于存储性能统计数据的字典。
def eval_json(self, stats):
# 以 JSON 格式评估 YOLO 输出并返回性能统计数据。
"""Evaluates YOLO output in JSON format and returns performance statistics."""
# 检查是否设置了保存JSON标志,是否是COCO或LVIS数据集,以及是否有预测结果。
if self.args.save_json and (self.is_coco or self.is_lvis) and len(self.jdict):
# 设置预测结果的JSON文件路径。
pred_json = self.save_dir / "predictions.json" # predictions
# 这行代码是构建注释(标注)JSON文件路径的表达式,它是 eval_json 方法中的一部分。这个路径指向包含数据集注释信息的JSON文件,这些信息通常包括图像中对象的边界框、类别标签等。
# anno_json = (...) 初始化一个名为 anno_json 的变量,用于存储注释JSON文件的路径。
# self.data["path"] 获取数据集的基础路径,这个路径通常是在类的初始化阶段设置的,并且存储在 self.data 字典中。
# / "annotations" 连接基础路径与 "annotations" 子目录,这个子目录通常包含所有注释文件。
# / ("instances_val2017.json" if self.is_coco else f"lvis_v1_{self.args.split}.json") 选择正确的注释文件 :
# 如果 self.is_coco 为 True ,意味着正在处理COCO数据集,因此选择 "instances_val2017.json" 文件。
# 如果 self.is_coco 为 False ,意味着正在处理LVIS数据集,因此选择以 "lvis_v1_" 开头,后跟 self.args.split 参数值的JSON文件。 self.args.split 通常用于指定数据集的分割部分,例如 "train" 、 "val" 或 "test" 。
# 这行代码使用了Python的 pathlib 模块,它提供了面向对象的文件系统路径表示。使用 / 运算符可以方便地连接路径的各个部分,而不需要担心操作系统之间的路径分隔符差异。最终, anno_json 变量包含了注释JSON文件的完整路径,这个路径在后续的评估过程中被用来加载注释数据。
anno_json = (
self.data["path"]
/ "annotations"
/ ("instances_val2017.json" if self.is_coco else f"lvis_v1_{self.args.split}.json")
) # annotations
# 根据数据集类型选择使用的包。
pkg = "pycocotools" if self.is_coco else "lvis"
# 使用日志记录器记录评估信息。
LOGGER.info(f"\nEvaluating {pkg} mAP using {pred_json} and {anno_json}...") # 使用 {pred_json} 和 {anno_json} 评估 {pkg} mAP...
# 开始尝试执行评估的代码块。
try: # https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoEvalDemo.ipynb
# 遍历 预测 和 注释的文件路径 。
for x in pred_json, anno_json:
# 确保预测和注释文件存在。
assert x.is_file(), f"{x} file not found" # 未找到 {x} 文件。
# 检查所需的包版本是否满足。
check_requirements("pycocotools>=2.0.6" if self.is_coco else "lvis>=0.5.3")
# 这段代码是 eval_json 方法中处理COCO数据集的部分。它负责初始化COCO评估流程,包括加载注释数据和预测结果,并创建一个评估对象。
# 检查是否处理的是COCO数据集。
if self.is_coco:
# 导入 pycocotools 库中的 COCO 类,用于访问COCO注释数据。
from pycocotools.coco import COCO # noqa
# 导入 pycocotools 库中的 COCOeval 类,用于执行COCO评估。
from pycocotools.cocoeval import COCOeval # noqa 是一个特殊的注释,用于告诉静态代码分析工具忽略下面导入的模块。
# 初始化COCO注释API。将 anno_json 路径转换为字符串,并传递给 COCO 类的构造函数。
anno = COCO(str(anno_json)) # init annotations api
# 初始化COCO预测API。首先将 pred_json 路径转换为字符串,然后使用 anno 对象的 loadRes 方法加载预测结果。 loadRes 方法接受一个包含预测结果的JSON文件路径的字符串。
pred = anno.loadRes(str(pred_json)) # init predictions api (must pass string, not Path)
# 创建一个 COCOeval 对象,用于评估边界框(bbox)。 COCOeval 类的构造函数接受三个参数 : 注释API对象 、 预测API对象 和 评估类型 (这里是 "bbox" )。
val = COCOeval(anno, pred, "bbox")
# 这段代码的主要功能是为COCO数据集设置评估环境,使得可以计算模型的性能指标,如平均精度均值(mAP)。通过 COCOeval 对象,可以调用 evaluate 、 accumulate 和 summarize 等方法来执行评估流程,并获取评估结果。
# 这段代码是 eval_json 方法中处理LVIS数据集的部分。它负责初始化LVIS评估流程,包括加载注释数据和预测结果,并创建一个评估对象。
# 如果不是COCO数据集,那么执行LVIS数据集的处理逻辑。
else:
# 导入 lvis 库中的 LVIS 类,用于访问LVIS注释数据。
# 导入 lvis 库中的 LVISEval 类,用于执行LVIS评估。
from lvis import LVIS, LVISEval
# 初始化LVIS注释API。将 anno_json 路径转换为字符串,并传递给 LVIS 类的构造函数。
anno = LVIS(str(anno_json)) # init annotations api
# 初始化LVIS预测API。首先将 pred_json 路径转换为字符串,然后使用 anno 对象的 _load_json 方法加载预测结果。 _load_json 方法接受一个包含预测结果的JSON文件路径的字符串。
pred = anno._load_json(str(pred_json)) # init predictions api (must pass string, not Path)
# 创建一个 LVISEval 对象,用于评估边界框(bbox)。 LVISEval 类的构造函数接受三个参数 :注释API对象、预测API对象和评估类型(这里是 "bbox" )。
val = LVISEval(anno, pred, "bbox")
# 这段代码的主要功能是为LVIS数据集设置评估环境,使得可以计算模型的性能指标,如平均精度均值(mAP)。通过 LVISEval 对象,可以调用评估方法来执行评估流程,并获取评估结果。
# 请注意,LVIS是一个用于评估实例分割模型的数据集和工具集,它扩展了COCO数据集的评估协议。 LVIS 和 LVISEval 类提供了与COCO相似的API,使得可以在LVIS数据集上进行评估。
# 设置要评估的图像ID列表。
val.params.imgIds = [int(Path(x).stem) for x in self.dataloader.dataset.im_files] # images to eval
# 执行评估流程。
# 这三行代码是评估流程中的关键步骤,通常用于计算模型性能指标,如平均精度均值(mAP)。它们是评估对象( val )的方法调用。
# 这个方法负责执行实际的评估逻辑。对于COCO或LVIS数据集,它会计算每个预测边界框与真实边界框之间的匹配程度,通常是通过计算交并比(IoU)来完成的。评估的结果会基于这些匹配程度来确定每个预测是真正例(TP)、假正例(FP)还是假负例(FN)。
val.evaluate()
# 在 evaluate 方法计算出每张图像的评估结果后, accumulate 方法会将这些结果累积起来,以便计算整体的性能指标。这意味着它会将所有图像的TP、FP和FN汇总,为后续的统计分析提供基础数据。
val.accumulate()
# 最后, summarize 方法会根据累积的结果计算总结性的性能指标,如平均精度(AP)和平均精度均值(mAP)。对于COCO和LVIS,它还会打印出这些性能指标,包括不同IoU阈值下的性能和每个类别的性能。这些指标提供了模型整体性能的快照,并可以用于与其他模型或基线进行比较。
val.summarize()
# 这三个步骤共同完成了从预测结果到性能指标的转换,是评估目标检测模型的标准流程。通过这个过程,可以系统地评估和理解模型在特定数据集上的性能。
# 如果是LVIS数据集,显式调用 print_results 方法。
if self.is_lvis:
val.print_results() # explicitly call print_results
# update mAP50-95 and mAP50
# 这段代码负责将评估结果中的特定性能指标更新到 stats 字典中。
# stats[self.metrics.keys[-1]], stats[self.metrics.keys[-2]] = (...) :这行代码同时为 stats 字典中的最后两个键( self.metrics.keys[-1] 和 self.metrics.keys[-2] )赋值。这些键通常对应于特定的性能指标,例如mAP50-95和mAP50。
# val.stats[:2] if self.is_coco else [val.results["AP50"], val.results["AP"]] :这是一个条件表达式,根据是否是COCO数据集选择不同的评估结果 :
# 如果 self.is_coco 为 True (即处理的是COCO数据集),则从 val.stats 数组中取出前两个元素。在COCO评估工具中, val.stats 通常包含不同IoU阈值下的平均精度值,其中前两个元素可能是mAP50-95和mAP50。
# 如果 self.is_coco 为 False (即处理的是LVIS数据集),则从 val.results 字典中取出 "AP50" 和 "AP" 两个键的值。这里的 "AP" 指的是mAP50-95或者是一个泛指,具体取决于LVIS评估工具的实现。
# val.stats 和 val.results :这些是评估对象( val )的属性,其中存储了评估结果。 val.stats 通常是一个数组,包含不同IoU阈值下的平均精度值; val.results 是一个字典,包含具体的评估结果,如 "AP50" 和 "AP" 。
stats[self.metrics.keys[-1]], stats[self.metrics.keys[-2]] = (
val.stats[:2] if self.is_coco else [val.results["AP50"], val.results["AP"]]
)
# 这段代码的主要功能是将评估工具计算出的性能指标提取出来,并更新到 stats 字典中,以便后续可以返回这些指标或者用于进一步的分析和报告。通过这种方式,可以方便地访问和使用模型的性能评估结果。
# 如果在评估过程中发生异常,记录警告信息。
except Exception as e:
LOGGER.warning(f"{pkg} unable to run: {e}") # {pkg} 无法运行:{e}。
# 返回更新后的统计数据。
return stats
# 这个方法的主要功能是使用COCO或LVIS评估工具来评估YOLO模型的性能,并更新统计数据。这些统计数据可以用于进一步的分析和报告。通过这种方式,可以确保模型的性能评估是准确和可靠的。