Ultralytics:解读Index模块

前言
- 由于本人水平有限,难免出现错漏,敬请批评改正。
- 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
- YOLOs-CPP:一个免费开源的YOLO全系列C++推理库(以YOLO26为例)
- PaddleOCR:Win10上安装使用PPOCRLabel标注工具
- 目标检测:使用自己的数据集微调DEIMv2进行物体检测
- 图像分割:PyTorch从零开始实现SegFormer语义分割
- 图像超分:使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
- 图像生成:PyTorch从零开始实现一个简单的扩散模型
- Stable Diffusion:使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
- 图像超分:使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
- Anomalib:使用Anomalib 2.1.0训练自己的数据集进行异常检测
- Anomalib:在Linux服务器上安装使用Anomalib 2.1.0
- 人工智能混合编程实践:C++调用封装好的DLL进行异常检测推理
- 人工智能混合编程实践:C++调用封装好的DLL进行FP16图像超分重建(v3.0)
- 隔离系统Python:源码编译3.11.8到自定义目录(含PGO性能优化)
- 在线机的Python环境迁移到离线机上
- Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
- Ultralytics:使用 YOLO11 进行速度估计
- Ultralytics:使用 YOLO11 进行物体追踪
- Ultralytics:使用 YOLO11 进行物体计数
- Ultralytics:使用 YOLO11 进行目标打码
- 人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理
- 人工智能混合编程实践:C++调用封装好的DLL进行YOLOv8实例分割
- 人工智能混合编程实践:C++调用Python ONNX进行图像超分重建
- 人工智能混合编程实践:C++调用Python AgentOCR进行文本识别
- 通过计算实例简单地理解PatchCore异常检测
- Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
- YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
- 基于DETR的人脸伪装检测
- YOLOv7训练自己的数据集(口罩检测)
- YOLOv8训练自己的数据集(足球检测)
- YOLOv5:TensorRT加速YOLOv5模型推理
- YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
- 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
- YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
- YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
- Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
- YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
- 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
- Stable Diffusion:在服务器上部署使用Stable Diffusion WebUI进行AI绘图(v2.0)
- Stable Diffusion:使用自己的数据集微调训练LoRA模型(v2.0)
相关介绍
Ultralytics 简介
Ultralytics 基于多年的计算机视觉和人工智能基础研究,创建了最先进的 (SOTA) YOLO 模型。我们的模型不断更新性能和灵活性,快速、准确且易于使用。他们擅长对象检测、跟踪、实例分割、语义分割、图像分类和姿势估计任务。
前提条件
- 熟悉Python、Pytorch
实验环境
bash
Package Version
------------------------ ------------
Python 3.11.8
absl-py 2.4.0
accelerate 1.13.0
annotated-doc 0.0.4
anyio 4.13.0
calflops 0.3.2
certifi 2026.4.22
charset-normalizer 3.4.7
click 8.3.3
colorama 0.4.6
contourpy 1.3.3
cycler 0.12.1
filelock 3.29.0
flatbuffers 25.12.19
fonttools 4.62.1
fsspec 2026.4.0
grpcio 1.80.0
h11 0.16.0
hf-xet 1.5.0
httpcore 1.0.9
httpx 0.28.1
huggingface_hub 1.14.0
idna 3.15
Jinja2 3.1.6
kiwisolver 1.5.0
Markdown 3.10.2
markdown-it-py 4.2.0
MarkupSafe 3.0.3
matplotlib 3.10.9
mdurl 0.1.2
ml_dtypes 0.5.0
mpmath 1.3.0
networkx 3.6.1
numpy 1.26.4
nvidia-cublas-cu12 12.8.3.14
nvidia-cuda-cupti-cu12 12.8.57
nvidia-cuda-nvrtc-cu12 12.8.61
nvidia-cuda-runtime-cu12 12.8.57
nvidia-cudnn-cu12 9.7.1.26
nvidia-cufft-cu12 11.3.3.41
nvidia-cufile-cu12 1.13.0.11
nvidia-curand-cu12 10.3.9.55
nvidia-cusolver-cu12 11.7.2.55
nvidia-cusparse-cu12 12.5.7.53
nvidia-cusparselt-cu12 0.6.3
nvidia-nccl-cu12 2.26.2
nvidia-nvjitlink-cu12 12.8.61
nvidia-nvtx-cu12 12.8.55
onnx 1.19.0
onnxruntime-gpu 1.26.0
onnxslim 0.1.94
opencv-python 4.6.0.66
packaging 26.2
pillow 12.2.0
pip 24.0
polars 1.40.1
polars-runtime-32 1.40.1
protobuf 7.34.1
psutil 7.2.2
pycocotools 2.0.11
Pygments 2.20.0
pyparsing 3.3.2
python-dateutil 2.9.0.post0
PyYAML 6.0.3
regex 2026.5.9
requests 2.34.1
rich 15.0.0
safetensors 0.7.0
scipy 1.16.0
setuptools 65.5.0
shellingham 1.5.4
six 1.17.0
sympy 1.14.0
tabulate 0.10.0
tensorboard 2.20.0
tensorboard-data-server 0.7.2
tokenizers 0.22.2
torch 2.7.1+cu128
torchaudio 2.7.1+cu128
torchvision 0.22.1+cu128
tqdm 4.67.3
transformers 5.8.1
triton 3.3.1
typer 0.25.1
typing_extensions 4.15.0
ultralytics 8.4.58
ultralytics-thop 2.0.19
urllib3 2.7.0
Werkzeug 3.1.8
Index(索引选择模块)
Index 是一个极简的模块,用于从输入张量列表中选择指定索引的元素。在目标检测模型(如 YOLO)的网络配置中,它常被用于选择特定层的输出(例如 from: [-1, 4] 表示取上一层和第 4 层输出,但 Index 则用于单独取某一层的输出)。
代码实现
python
import cv2
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn
class Index(nn.Module):
"""Returns a particular index of the input.
Attributes:
index (int): Index to select from input.
"""
def __init__(self, index=0):
"""Initialize Index module.
Args:
index (int): Index to select from input.
"""
super().__init__()
self.index = index
def forward(self, x: list[torch.Tensor]):
"""Select and return a particular index from input.
Args:
x (list[torch.Tensor]): List of input tensors.
Returns:
(torch.Tensor): Selected tensor.
"""
return x[self.index]
功能
- 索引选取:从输入列表中按指定索引取出一个张量,常用于在特征融合前从多个候选特征中选择特定的一层。
- 简化网络配置 :在 YAML 配置文件中,当
from字段需要引用单个层而非拼接多个层时,Index可替代更复杂的索引逻辑。
初始化参数
| 参数 | 类型 | 说明 |
|---|---|---|
index |
int | 要选取的索引(默认 0),支持 Python 负索引(如 -1 表示最后一个) |
该模块没有可学习参数。
前向方法
forward(x):输入x为张量列表,返回x[self.index]。
使用示例

python
if __name__ == '__main__':
# 1. 读取图像
img_path = "cat_640x640.png" # 请替换为实际路径
img_bgr = cv2.imread(img_path)
if img_bgr is None:
raise FileNotFoundError(f"图片 {img_path} 不存在!")
img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)
img_tensor = torch.from_numpy(img_rgb).float().permute(2, 0, 1).unsqueeze(0) # [1, 3, 640, 640]
# 2. 创建三个变换版本:原图、水平翻转、顺时针旋转90°
x1 = img_tensor
x2 = torch.flip(img_tensor, dims=[3]) # 水平翻转
x3 = torch.rot90(img_tensor, k=1, dims=[2, 3]) # 顺时针旋转90°
mixed = [x1, x2, x3]
# 3. 使用 Index 模块选取索引 2(即第三个元素:旋转图)
selector = Index(index=2)
selected = selector(mixed) # [1, 3, 640, 640]
# 4. 将张量转换为 numpy 图像(HWC, uint8)以便显示
def tensor_to_img(t):
arr = t[0].cpu().numpy().transpose(1, 2, 0) # (H,W,C)
arr = (arr - arr.min()) / (arr.max() - arr.min() + 1e-8) * 255
return arr.astype(np.uint8)
imgs = [tensor_to_img(t) for t in mixed]
selected_img = tensor_to_img(selected)
# 5. 可视化:显示所有候选和选中的结果
plt.figure(figsize=(16, 5), constrained_layout=True)
plt.subplot(1, 4, 1)
plt.imshow(imgs[0])
plt.title("Original (index 0)")
plt.axis("off")
plt.subplot(1, 4, 2)
plt.imshow(imgs[1])
plt.title("Flipped (index 1)")
plt.axis("off")
plt.subplot(1, 4, 3)
plt.imshow(imgs[2])
plt.title("Rotated (index 2)")
plt.axis("off")
plt.subplot(1, 4, 4)
plt.imshow(selected_img)
plt.title(f"Selected (index {selector.index})")
plt.axis("off")
plt.savefig("index_visualization.png", dpi=150)
# plt.show()
print("可视化已保存为 index_visualization.png")

输出示例:
可视化已保存为 index_visualization.png
流程示意图

代码解读
__init__ 方法
- 存储
self.index,用于后续选取。
forward 方法
- 直接通过索引访问列表元素并返回。
注意事项
- 输入必须为列表或元组 :
forward期望输入是可索引的序列(如list、tuple)。 - 索引不能越界 :如果
index超出列表长度(包括负索引),会抛出IndexError。 - 无梯度影响:索引操作本身不影响梯度传播,被选取的张量会正常反向传播。
- 常见场景 :在 YOLOv8 配置文件中,
from字段有时会包含多个索引(如[-1, 4]),此时实际用的是Concat拼接,而Index则用于单一选择(例如某些自定义层需要单独引用)。
优缺点
优点
- 实现极简:代码量少,轻量无开销。
- 通用性强:适用于任何可索引序列,不仅限于张量列表。
- 灵活性高:支持负索引,便于从末尾选取。
- 可读性好:将"按索引选择"这一操作封装为模块,便于在结构化配置中体现。
缺点
- 功能过于简单 :几乎等同于直接使用
list[index],额外的封装有时显得冗余。 - 缺乏输入校验:不检查输入是否为列表或索引是否合法,错误会在运行时暴露。
- 不易处理动态选择:无法根据数据内容或条件决定索引(需要更复杂的路由模块)。
在 YOLO 模型配置解析器中,Index 模块通常与 Concat 配合使用,帮助构建复杂的特征融合路径。尽管它只是一个简单的"取数"操作,但作为网络定义中的基础组件,它保证了配置文件的简洁性和可读性。
参考文献
1 https://docs.ultralytics.com/
2 https://github.com/ultralytics/ultralytics.git
- 由于本人水平有限,难免出现错漏,敬请批评改正。
- 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
- YOLOs-CPP:一个免费开源的YOLO全系列C++推理库(以YOLO26为例)
- PaddleOCR:Win10上安装使用PPOCRLabel标注工具
- 目标检测:使用自己的数据集微调DEIMv2进行物体检测
- 图像分割:PyTorch从零开始实现SegFormer语义分割
- 图像超分:使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
- 图像生成:PyTorch从零开始实现一个简单的扩散模型
- Stable Diffusion:使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
- 图像超分:使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
- Anomalib:使用Anomalib 2.1.0训练自己的数据集进行异常检测
- Anomalib:在Linux服务器上安装使用Anomalib 2.1.0
- 人工智能混合编程实践:C++调用封装好的DLL进行异常检测推理
- 人工智能混合编程实践:C++调用封装好的DLL进行FP16图像超分重建(v3.0)
- 隔离系统Python:源码编译3.11.8到自定义目录(含PGO性能优化)
- 在线机的Python环境迁移到离线机上
- Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
- Ultralytics:使用 YOLO11 进行速度估计
- Ultralytics:使用 YOLO11 进行物体追踪
- Ultralytics:使用 YOLO11 进行物体计数
- Ultralytics:使用 YOLO11 进行目标打码
- 人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理
- 人工智能混合编程实践:C++调用封装好的DLL进行YOLOv8实例分割
- 人工智能混合编程实践:C++调用Python ONNX进行图像超分重建
- 人工智能混合编程实践:C++调用Python AgentOCR进行文本识别
- 通过计算实例简单地理解PatchCore异常检测
- Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
- YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
- 基于DETR的人脸伪装检测
- YOLOv7训练自己的数据集(口罩检测)
- YOLOv8训练自己的数据集(足球检测)
- YOLOv5:TensorRT加速YOLOv5模型推理
- YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
- 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
- YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
- YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
- Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
- YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
- 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
- Stable Diffusion:在服务器上部署使用Stable Diffusion WebUI进行AI绘图(v2.0)
- Stable Diffusion:使用自己的数据集微调训练LoRA模型(v2.0)