通俗易懂：YOLO模型原理详解，从零开始理解目标检测

YOLO模型原理详解，从零开始理解目标检测

通俗易懂：YOLO模型原理详解
- 前言
- 一、什么是YOLO？
- - [1.1 YOLO的简单理解](#1.1 YOLO的简单理解)
  - [1.2 YOLO的核心优势](#1.2 YOLO的核心优势)
- 二、为什么需要YOLO？
- - [2.1 传统方法的局限性](#2.1 传统方法的局限性)
  - [2.2 YOLO的革命性突破](#2.2 YOLO的革命性突破)
- 三、YOLO的核心思想
- - [3.1 把图片分成网格](#3.1 把图片分成网格)
  - [3.2 每个格子负责预测](#3.2 每个格子负责预测)
  - [3.3 一次预测，全部搞定](#3.3 一次预测，全部搞定)
- 四、YOLO的工作原理（详细版）
- - [4.1 整体流程](#4.1 整体流程)
  - [4.2 边界框预测](#4.2 边界框预测)
  - [4.3 置信度计算](#4.3 置信度计算)
  - [4.4 类别预测](#4.4 类别预测)
- 五、YOLO的损失函数
- - [5.1 坐标损失](#5.1 坐标损失)
  - [5.2 置信度损失](#5.2 置信度损失)
  - [5.3 类别损失](#5.3 类别损失)
- 六、YOLO的详细计算原理
- - [6.1 前向传播计算过程](#6.1 前向传播计算过程)
  - - [6.1.1 输入处理](#6.1.1 输入处理)
    - [6.1.2 网格预测计算](#6.1.2 网格预测计算)
    - [6.1.3 边界框坐标计算](#6.1.3 边界框坐标计算)
    - [6.1.4 置信度计算](#6.1.4 置信度计算)
    - [6.1.5 类别概率计算](#6.1.5 类别概率计算)
  - [6.2 损失函数详细计算](#6.2 损失函数详细计算)
  - - [6.2.1 完整损失函数公式](#6.2.1 完整损失函数公式)
    - [6.2.2 坐标损失（Lcoord）](#6.2.2 坐标损失（Lcoord）)
    - [6.2.3 有目标置信度损失（Lconf_obj）](#6.2.3 有目标置信度损失（Lconf_obj）)
    - [6.2.4 无目标置信度损失（Lconf_noobj）](#6.2.4 无目标置信度损失（Lconf_noobj）)
    - [6.2.5 类别损失（Lclass）](#6.2.5 类别损失（Lclass）)
    - [6.2.6 总损失计算示例](#6.2.6 总损失计算示例)
  - [6.3 反向传播计算](#6.3 反向传播计算)
  - - [6.3.1 梯度计算](#6.3.1 梯度计算)
    - [6.3.2 坐标损失的梯度](#6.3.2 坐标损失的梯度)
    - [6.3.3 参数更新](#6.3.3 参数更新)
  - [6.4 YOLO v3的改进计算](#6.4 YOLO v3的改进计算)
  - - [6.4.1 置信度损失（BCE）](#6.4.1 置信度损失（BCE）)
    - [6.4.2 类别损失（BCE）](#6.4.2 类别损失（BCE）)
  - [6.5 计算复杂度分析](#6.5 计算复杂度分析)
  - [6.6 数值稳定性技巧](#6.6 数值稳定性技巧)
- 七、YOLO的版本演进
- - [7.1 YOLO v1（2016）](#7.1 YOLO v1（2016）)
  - [7.2 YOLO v2（2017）](#7.2 YOLO v2（2017）)
  - [7.3 YOLO v3（2018）](#7.3 YOLO v3（2018）)
  - [7.4 YOLO v4（2020）](#7.4 YOLO v4（2020）)
  - [7.5 YOLO v5（2020）](#7.5 YOLO v5（2020）)
  - [7.6 YOLO v8（2023）](#7.6 YOLO v8（2023）)
- 八、YOLO的实际应用
- - [8.1 智能监控](#8.1 智能监控)
  - [8.2 自动驾驶](#8.2 自动驾驶)
  - [8.3 医疗影像](#8.3 医疗影像)
  - [8.4 工业质检](#8.4 工业质检)
  - [8.5 体育分析](#8.5 体育分析)
- 九、YOLO的优缺点
- - [9.1 优点](#9.1 优点)
  - [9.2 缺点](#9.2 缺点)
- 十、如何学习YOLO？
- - [10.1 理论基础](#10.1 理论基础)
  - [10.2 实践项目](#10.2 实践项目)
  - [10.3 推荐资源](#10.3 推荐资源)
- 十一、总结
- 附录：常见问题
- - [Q1: YOLO和R-CNN有什么区别？](#Q1: YOLO和R-CNN有什么区别？)
  - [Q2: 为什么YOLO检测小目标效果不好？](#Q2: 为什么YOLO检测小目标效果不好？)
  - [Q3: YOLO可以检测多少个类别？](#Q3: YOLO可以检测多少个类别？)
  - [Q4: YOLO需要多少数据才能训练？](#Q4: YOLO需要多少数据才能训练？)
  - [Q5: YOLO可以在手机上运行吗？](#Q5: YOLO可以在手机上运行吗？)

通俗易懂：YOLO模型原理详解

前言

你是否曾经好奇过，为什么手机拍照时能够自动识别照片中的人脸？为什么自动驾驶汽车能够识别道路上的车辆和行人？这背后都离不开一个强大的技术------目标检测。而YOLO（You Only Look Once）就是目标检测领域中最著名的算法之一。

今天，我们就用最通俗的语言，来揭开YOLO模型的神秘面纱。

一、什么是YOLO？

1.1 YOLO的简单理解

想象一下，你是一个经验丰富的保安，需要在监控画面中快速找出所有可疑人员。传统的方法可能是：

方法一：把画面分成很多小格子，一个一个格子仔细检查（类似滑动窗口）
方法二：先找到可能有人出现的区域，再确认是否真的是人（类似两阶段检测）

而YOLO的做法是：只看一眼，就能同时告诉你画面中所有目标的位置和类别！

这就是YOLO名字的由来：You Only Look Once（你只需要看一次）。

1.2 YOLO的核心优势

速度快：实时检测，可以处理视频流
精度高：能够准确识别多种目标
端到端：一个网络完成所有工作，不需要分步骤

二、为什么需要YOLO？

2.1 传统方法的局限性

在YOLO出现之前，目标检测主要有两种思路：

方法一：滑动窗口

就像用放大镜在图片上逐块扫描
速度慢，效率低
需要检查成千上万个窗口

方法二：两阶段检测（如R-CNN系列）

第一阶段：找出可能包含目标的区域
第二阶段：对这些区域进行分类
虽然精度高，但速度慢，无法实时处理

2.2 YOLO的革命性突破

YOLO将目标检测问题转化为回归问题：

输入：一张图片
输出：所有目标的位置和类别
一次前向传播，全部搞定！

三、YOLO的核心思想

3.1 把图片分成网格

YOLO的第一步，是把输入图片划分成一个网格（比如7×7或13×13的格子）。

打个比方：

想象图片是一张地图
YOLO把地图划分成很多小格子（网格）
每个格子负责检测"自己地盘"内的目标

3.2 每个格子负责预测

对于每个网格单元，YOLO会预测：

边界框（Bounding Box） ：目标在哪里（x, y, w, h）
- x, y：目标中心点的坐标
- w, h：目标的宽度和高度
置信度（Confidence）：这个框里有没有目标，有多确信
类别概率（Class Probability）：如果框里有目标，它是什么类别（人、车、狗等）

3.3 一次预测，全部搞定

最关键的是：YOLO只需要一次前向传播，就能同时预测所有网格的所有信息！

这就像：

传统方法：需要看100次，每次看一个区域
YOLO方法：只看1次，同时看所有区域

四、YOLO的工作原理（详细版）

4.1 整体流程

让我们用一个具体的例子来说明：

假设我们要检测一张图片中的猫和狗

输入处理
- 将图片缩放到固定尺寸（如416×416）
- 输入到卷积神经网络（CNN）
特征提取
- CNN提取图片的特征
- 就像人眼识别物体时，先看轮廓、颜色、纹理等特征
网格划分与预测
- 将特征图划分成网格（如13×13）
- 每个网格预测：
  - 是否有目标
  - 目标的位置（边界框）
  - 目标的类别（猫、狗等）
后处理（NMS）
- 同一个目标可能被多个网格检测到
- 使用NMS（非极大值抑制）去除重复的检测框
- 只保留最准确的检测结果

4.2 边界框预测

YOLO预测的边界框包含4个值：

x, y：目标中心点相对于网格单元的坐标（0-1之间）
w, h：目标宽度和高度相对于整张图片的比例（0-1之间）

举个例子：

如果图片是416×416像素
某个网格预测：x=0.5, y=0.3, w=0.2, h=0.15
那么目标中心在：(416×0.5, 416×0.3) = (208, 124.8)
目标大小：宽=416×0.2=83.2像素，高=416×0.15=62.4像素

4.3 置信度计算

置信度 = P(目标存在) × IOU(预测框与真实框的重叠度)

P(目标存在)：这个网格里有目标的概率
IOU：预测框和真实框的重叠程度（Intersection over Union）

置信度越高，说明检测越可靠。

4.4 类别预测

对于每个网格，YOLO会预测所有可能类别的概率：

例如：P(猫)=0.8, P(狗)=0.1, P(背景)=0.1
最终类别 = 置信度 × 最大类别概率

五、YOLO的损失函数

YOLO通过最小化损失函数来训练模型。损失函数包含几个部分：

5.1 坐标损失

预测的边界框位置与真实位置的误差
确保预测框能准确框住目标

5.2 置信度损失

有目标的网格：预测置信度应该接近1
无目标的网格：预测置信度应该接近0

5.3 类别损失

预测的类别概率与真实类别的误差
确保能正确识别目标的类别

训练过程：

就像教一个学生识别物体
不断给他看图片和正确答案
学生（模型）通过调整参数，逐渐学会准确检测

六、YOLO的详细计算原理

前面我们介绍了YOLO的基本思想和工作流程，现在让我们深入数学层面，看看YOLO模型到底是如何计算的。

6.1 前向传播计算过程

6.1.1 输入处理

假设输入图片尺寸为 416×416×3（宽×高×RGB通道），YOLO的处理流程如下：

步骤1：特征提取（CNN前向传播）

图片经过卷积神经网络（如Darknet-53），逐层提取特征：

复制代码

输入：416×416×3
  ↓ Conv + BN + LeakyReLU
  ↓ 多次下采样（stride=2）
  ↓ ...
输出特征图：13×13×1024

关键计算：

卷积操作：输出 = 卷积(输入, 权重) + 偏置
批量归一化：BN(x) = γ * (x - μ) / √(σ² + ε) + β
激活函数：LeakyReLU(x) = max(0.1x, x)

6.1.2 网格预测计算

以YOLO v3为例，使用 13×13 网格，每个网格预测 3个锚框，每个锚框预测：

边界框：4个值（x, y, w, h）
置信度：1个值（confidence）
类别概率：C个值（C为类别数，如COCO数据集C=80）

每个网格的输出维度：

复制代码

输出 = 3 × (4 + 1 + 80) = 3 × 85 = 255

整个特征图的输出：

复制代码

输出张量形状：13 × 13 × 255

6.1.3 边界框坐标计算

YOLO预测的是相对坐标 ，需要转换为绝对坐标：

预测值（网络输出）：

tx, ty, tw, th：网络直接输出的原始值

坐标转换公式（YOLO v3）：

复制代码

bx = σ(tx) + cx    # x坐标
by = σ(ty) + cy    # y坐标
bw = pw × e^(tw)   # 宽度
bh = ph × e^(th)   # 高度

其中：

σ(x) = 1 / (1 + e^(-x))：Sigmoid函数，将值限制在(0,1)
cx, cy：当前网格单元左上角的坐标（如网格(5,3)对应cx=5, cy=3）
pw, ph：锚框的宽度和高度（预定义的先验框尺寸）
bx, by：目标中心点相对于网格的坐标（0-1之间）
bw, bh：目标宽度和高度相对于锚框的比例

转换为图片绝对坐标：

复制代码

绝对x = (bx + cx) × (图片宽度 / 网格数)
绝对y = (by + cy) × (图片高度 / 网格数)
绝对宽度 = bw × pw × (图片宽度 / 网格数)
绝对高度 = bh × ph × (图片高度 / 网格数)

数值示例 ：

假设：

图片尺寸：416×416
网格大小：13×13（每个网格单元对应32×32像素）
当前网格：(5, 3)，即cx=5, cy=3
锚框尺寸（相对于特征图）：pw=1.0, ph=1.0（归一化后的锚框宽度和高度）
网络输出：tx=0.5, ty=0.3, tw=0.2, th=0.1

计算过程：

复制代码

# 步骤1：计算相对坐标
bx = σ(0.5) + 5 = 0.622 + 5 = 5.622
by = σ(0.3) + 3 = 0.574 + 3 = 3.574
bw = 1.0 × e^(0.2) = 1.0 × 1.221 = 1.221
bh = 1.0 × e^(0.1) = 1.0 × 1.105 = 1.105

# 步骤2：转换为图片绝对坐标（像素）
网格单元大小 = 416 / 13 = 32 像素

绝对x坐标 = bx × 32 = 5.622 × 32 = 179.9 像素
绝对y坐标 = by × 32 = 3.574 × 32 = 114.4 像素
绝对宽度 = bw × 32 = 1.221 × 32 = 39.1 像素
绝对高度 = bh × 32 = 1.105 × 32 = 35.4 像素

注意：在实际YOLO v3实现中，锚框尺寸pw和ph是预定义的，通常基于数据集统计得到，这里简化处理。

6.1.4 置信度计算

置信度表示"这个框里有目标，且预测准确"的置信程度：

复制代码

confidence = P(目标存在) × IOU(预测框, 真实框)

在推理时，网络直接输出置信度值（经过Sigmoid激活）：

复制代码

confidence = σ(tconf)

其中 tconf 是网络输出的原始值。

6.1.5 类别概率计算

对于每个类别，网络输出一个logit值，然后通过Softmax转换为概率：

复制代码

类别logits: [t1, t2, ..., tC]  # C个类别的原始输出
类别概率: P(class_i) = e^(ti) / Σ(e^(tj))  # Softmax

最终类别得分：

复制代码

类别得分 = confidence × P(class_i)

选择得分最高的类别作为预测结果。

6.2 损失函数详细计算

YOLO的损失函数由5个部分组成，我们以YOLO v1的损失函数为例（最经典且易于理解）：

6.2.1 完整损失函数公式

复制代码

L = λcoord × Lcoord + Lconf_obj + λnoobj × Lconf_noobj + Lclass

其中：

λcoord = 5：坐标损失权重（因为坐标预测很重要）
λnoobj = 0.5：无目标置信度损失权重（降低背景的权重）

6.2.2 坐标损失（Lcoord）

公式：

复制代码

Lcoord = Σ[1(obj) × ((x - x̂)² + (y - ŷ)² + (√w - √ŵ)² + (√h - √ĥ)²)]

说明：

1(obj)：指示函数，如果网格有目标则为1，否则为0
x, y, w, h：真实边界框坐标
x̂, ŷ, ŵ, ĥ：预测边界框坐标
对w和h取平方根：因为大框的误差应该比小框的误差权重更大

计算示例 ：

假设某个网格有目标：

真实值：x=0.5, y=0.3, w=0.2, h=0.15
预测值：x̂=0.48, ŷ=0.32, ŵ=0.22, ĥ=0.14

计算：

复制代码

Lcoord = (0.5-0.48)² + (0.3-0.32)² + (√0.2-√0.22)² + (√0.15-√0.14)²
       = 0.0004 + 0.0004 + (0.447-0.469)² + (0.387-0.374)²
       = 0.0004 + 0.0004 + 0.000484 + 0.000169
       = 0.001453

6.2.3 有目标置信度损失（Lconf_obj）

公式：

复制代码

Lconf_obj = Σ[1(obj) × (C - Ĉ)²]

说明：

C：真实置信度（有目标时为1）
Ĉ：预测置信度（Sigmoid后的值）

计算示例：

真实置信度：C = 1.0
预测置信度：Ĉ = 0.85

计算：

复制代码

Lconf_obj = (1.0 - 0.85)² = 0.15² = 0.0225

6.2.4 无目标置信度损失（Lconf_noobj）

公式：

复制代码

Lconf_noobj = Σ[1(noobj) × (C - Ĉ)²]

说明：

1(noobj)：指示函数，如果网格无目标则为1
C = 0：无目标时真实置信度为0

计算示例：

真实置信度：C = 0.0
预测置信度：Ĉ = 0.1

计算：

复制代码

Lconf_noobj = (0.0 - 0.1)² = 0.01

6.2.5 类别损失（Lclass）

公式：

复制代码

Lclass = Σ[1(obj) × Σ(p(c) - p̂(c))²]

说明：

p(c)：真实类别概率（one-hot编码，正确类别为1，其他为0）
p̂(c)：预测类别概率（Softmax后的值）

计算示例 ：

假设有3个类别：猫、狗、鸟

真实类别：猫（one-hot: [1, 0, 0]）
预测概率：[0.7, 0.2, 0.1]

计算：

复制代码

Lclass = (1-0.7)² + (0-0.2)² + (0-0.1)²
       = 0.09 + 0.04 + 0.01
       = 0.14

6.2.6 总损失计算示例

假设一个13×13的网格，其中：

有目标的网格：10个
无目标的网格：159个（169-10）

简化计算（每个有目标网格的平均损失）：

复制代码

Lcoord = 10 × 0.001453 = 0.01453
Lconf_obj = 10 × 0.0225 = 0.225
Lconf_noobj = 159 × 0.01 = 1.59
Lclass = 10 × 0.14 = 1.4

总损失：
L = 5 × 0.01453 + 0.225 + 0.5 × 1.59 + 1.4
  = 0.07265 + 0.225 + 0.795 + 1.4
  = 2.49265

6.3 反向传播计算

训练时，通过反向传播更新网络参数。我们来看一个简化的例子：

6.3.1 梯度计算

对于损失函数 L，我们需要计算每个参数的梯度：

复制代码

∂L/∂w = ∂L/∂y × ∂y/∂w

其中：

w：网络权重
y：网络输出
L：损失函数

6.3.2 坐标损失的梯度

以x坐标为例：

复制代码

∂Lcoord/∂tx = ∂Lcoord/∂bx × ∂bx/∂tx

其中：

bx = σ(tx) + cx
∂bx/∂tx = σ(tx) × (1 - σ(tx))（Sigmoid的导数）

计算示例 ：

假设：

tx = 0.5
σ(0.5) = 0.622
∂Lcoord/∂bx = 2 × (bx - x_true) = 2 × (0.622 - 0.5) = 0.244

则：

复制代码

∂Lcoord/∂tx = 0.244 × 0.622 × (1 - 0.622)
            = 0.244 × 0.235
            = 0.057

6.3.3 参数更新

使用梯度下降更新参数：

复制代码

w_new = w_old - α × ∂L/∂w

其中 α 是学习率（如0.001）。

6.4 YOLO v3的改进计算

YOLO v3在损失函数上做了改进，使用二元交叉熵（Binary Cross-Entropy）代替平方误差：

6.4.1 置信度损失（BCE）

复制代码

Lconf = -[y × log(ŷ) + (1-y) × log(1-ŷ)]

其中：

y：真实标签（0或1）
ŷ：预测概率（Sigmoid后的值）

优势：BCE对概率预测更合适，梯度更稳定。

6.4.2 类别损失（BCE）

YOLO v3对每个类别使用独立的二元分类（而不是多分类）：

复制代码

Lclass = -Σ[y_i × log(p_i) + (1-y_i) × log(1-p_i)]

这样允许一个目标同时属于多个类别（多标签分类）。

6.5 计算复杂度分析

前向传播：

输入：416×416×3 = 519,168 个像素
主要计算：卷积操作
时间复杂度：O(H × W × C × K² × F)
- H, W：特征图高宽
- C：输入通道数
- K：卷积核大小
- F：输出通道数
典型YOLO v3：约 10-20 GFLOPs（十亿次浮点运算）

反向传播：

计算量约为前向传播的2-3倍
需要存储中间激活值（占用显存）

推理速度：

GPU（RTX 3080）：约 30-50 FPS
CPU（i7）：约 5-10 FPS

6.6 数值稳定性技巧

在实际实现中，YOLO使用了一些技巧保证数值稳定：

对数空间计算：
复制代码
```
log(Softmax(x)) = x - log(Σe^(x_i))
```
避免直接计算大指数值。
IoU计算优化：
复制代码
```
IoU = 交集面积 / 并集面积
```
使用向量化操作提高计算效率。
NMS（非极大值抑制）：
- 按置信度排序
- 逐个检查，删除与高置信度框重叠度高的框
- 时间复杂度：O(n²)，n为检测框数量

七、YOLO的版本演进

7.1 YOLO v1（2016）

开创性：首次提出单阶段检测
特点：速度快，但精度相对较低
网格大小：7×7

7.2 YOLO v2（2017）

改进：引入锚框（Anchor Boxes）
特点：精度提升，速度依然很快
网格大小：13×13

7.3 YOLO v3（2018）

重大改进 ：
- 多尺度检测（3个不同尺度）
- 更好的特征提取网络（Darknet-53）
- 更精确的边界框预测
特点：精度和速度的完美平衡

7.4 YOLO v4（2020）

改进：
- 数据增强技术（Mosaic、MixUp等）
- 更好的损失函数
- 更强大的特征提取网络
特点：精度大幅提升

7.5 YOLO v5（2020）

特点：
- 工程化程度高，易于使用
- 训练速度快
- 模型文件小
应用：工业界广泛使用

7.6 YOLO v8（2023）

最新版本 ：
- 更先进的架构
- 支持目标检测、实例分割、关键点检测等多种任务
- 精度和速度进一步提升

八、YOLO的实际应用

8.1 智能监控

应用场景：商场、银行、学校等场所的安防监控
功能：实时检测人员、车辆、异常行为

8.2 自动驾驶

应用场景：识别道路上的车辆、行人、交通标志
重要性：保障行车安全

8.3 医疗影像

应用场景：CT、X光片中的病灶检测
价值：辅助医生诊断

8.4 工业质检

应用场景：生产线上的产品缺陷检测
优势：速度快，准确率高，24小时工作

8.5 体育分析

应用场景：足球、篮球等比赛中的球员追踪
功能：分析球员位置、跑动轨迹

九、YOLO的优缺点

9.1 优点

速度快
- 实时处理视频流
- 适合移动设备和嵌入式设备
精度高
- 能够准确检测多种目标
- 定位精度好
端到端训练
- 不需要复杂的多阶段训练
- 训练简单，易于实现
泛化能力强
- 在多种场景下都能工作
- 迁移学习效果好

9.2 缺点

小目标检测能力弱
- 对于很小的目标，检测效果不佳
- 因为网格划分后，小目标可能只占几个像素
密集目标检测困难
- 当目标非常密集时，可能漏检
- 因为一个网格只能预测有限数量的目标
长宽比异常的目标
- 对于非常细长或非常宽的目标，检测效果一般

十、如何学习YOLO？

10.1 理论基础

深度学习基础：CNN、反向传播、损失函数
计算机视觉：图像处理、特征提取
目标检测：边界框、IOU、NMS等概念

10.2 实践项目

环境搭建
- 安装PyTorch或TensorFlow
- 下载YOLO代码（推荐YOLOv5或YOLOv8）
运行Demo
- 使用预训练模型检测图片
- 理解输入输出格式
训练自己的模型
- 准备数据集（标注图片）
- 训练模型
- 评估和优化

10.3 推荐资源

论文：YOLO系列原始论文
代码：GitHub上的YOLO实现
教程：B站、YouTube上的视频教程

十一、总结

YOLO模型通过"只看一次"的革命性思想，将目标检测从复杂的两阶段过程简化为单阶段回归问题。它的核心思想是：

网格划分：将图片分成网格
并行预测：每个网格同时预测目标的位置和类别
端到端训练：一个网络完成所有工作

YOLO的成功不仅在于它的速度和精度，更在于它开创了单阶段目标检测的新思路，影响了整个计算机视觉领域的发展。

无论是智能监控、自动驾驶，还是医疗影像、工业质检，YOLO都在为我们的生活带来便利。随着技术的不断发展，YOLO也在不断进化，相信未来会有更多令人惊喜的应用！

附录：常见问题

Q1: YOLO和R-CNN有什么区别？

R-CNN是两阶段方法：先找区域，再分类
YOLO是单阶段方法：一次完成检测和分类
YOLO速度更快，R-CNN精度可能更高（但YOLO v5/v8已经追上）

Q2: 为什么YOLO检测小目标效果不好？

小目标在网格划分后可能只占几个像素
特征信息不足，难以准确检测
解决方法：使用多尺度检测、增大输入分辨率

Q3: YOLO可以检测多少个类别？

理论上可以检测任意数量的类别
常见数据集：COCO（80类）、VOC（20类）
可以通过训练扩展到更多类别

Q4: YOLO需要多少数据才能训练？

至少需要几百张标注好的图片
建议每个类别至少100-200张
数据越多，效果越好

Q5: YOLO可以在手机上运行吗？

可以！YOLO v5/v8都有轻量级版本
可以通过模型压缩、量化等技术优化
现在很多手机APP都集成了YOLO

希望这篇文章能帮助你理解YOLO模型！如果还有疑问，欢迎在评论区讨论！