从零吃透 YOLO：从 v1 到 v2，实时目标检测的完整进化之路

一、先搞明白：目标检测到底分哪两类

在正式讲 YOLO 之前，我们必须先分清目标检测的两大类型，这是理解 YOLO 优势的基础。

第一种叫两阶段算法，代表就是 Faster R-CNN、Mask R-CNN 这一系列。它的思路很直接，先从图里找出可能有物体的候选框，把大量背景过滤掉，然后再对这些候选框做分类和位置微调。优点非常明显，就是准，定位精准、分类可靠，但是缺点也很致命，太慢了，通常只有每秒几帧，根本用不了实时视频流。

第二种就是单阶段算法，YOLO、SSD 都属于这一类。它完全抛弃了候选框这一步，直接把检测任务当成一个回归问题来做，一个神经网络跑一次前向传播，就同时输出所有物体的位置和类别。好处就是极快，能轻松做到实时检测，结构简单、好训练、好部署，早期的缺点就是精度稍微比两阶段低一点，但这个差距在 YOLO 不断迭代中越来越小。

简单总结就是，两阶段追求极致准，单阶段追求极致快，而 YOLO 的厉害之处，就是在保证快的同时，还能不断逼近两阶段的精度，最后成为工业界最常用的检测方案。

二、YOLOv1：单阶段实时检测的开山鼻祖

YOLOv1 是 2016 年提出的开创性工作，它第一次真正实现了高精度和实时性的平衡，在它之前，没有算法能做到又快又准。

YOLOv1 的核心思想特别简单，就是把输入图像统一缩放到 448×448，然后均匀分成 7×7 个网格。如果一个物体的中心点落在某个网格里，那这个网格就负责预测这个物体。整个网络只看一次图像，就完成所有检测，这也是 You Only Look Once 的由来。

它的最终输出是一个 7×7×30 的张量，这个结构一定要理解。7×7 就是我们分的网格数量，30 是每个网格要输出的全部信息。其中包括两个边界框，每个框有 5 个信息，分别是中心坐标 x、y，宽 w，高 h，还有置信度，两个框就是 10 个维度。剩下 20 个维度是类别概率，对应 VOC 数据集的 20 个类别，表示如果这个网格里有物体，它属于每一类的可能性。

置信度是 YOLOv1 非常关键的设计，它由两部分相乘得到，一部分是这个网格里有没有物体，另一部分是预测框和真实框的交并比，也就是 IoU。置信度越高，说明这里越可能有物体，而且框的位置越准。如果没有物体，置信度直接就是 0，不会参与后续计算。

再看 YOLOv1 的网络结构，它借鉴了 GoogLeNet，一共有 24 个卷积层加 2 个全连接层。它没有用复杂的 Inception 模块，而是用 1×1 卷积降维，再配合 3×3 卷积提取特征，既减少计算量，又能保证特征提取的效果。训练的时候先在 ImageNet 上用 224×224 的尺寸做预训练，然后再把输入放大到 448×448 做检测微调，这也是后来很多检测网络通用的训练方式。

YOLOv1 的损失函数也很有讲究，它同时优化三个部分，分别是位置损失、置信度损失和分类损失。位置损失负责优化框的坐标和宽高，为了让小目标更敏感，还对宽高做了开根号处理，并且给了更高的权重，优先保证定位准确。置信度损失区分有物体和没有物体的框，因为没有物体的框特别多，所以给了较低的权重，避免负样本主导训练。分类损失只对负责物体的网格计算，保证类别预测准确。整个损失都用均方误差，把检测当成回归任务来做，简单又稳定。

检测完之后会有很多重复的框，这时候就要用非极大值抑制，也就是 NMS 来做后处理。先按置信度从高到低排序，保留置信度最高的框，然后把和它重叠度过高的框全部删掉，重复这个过程，最后剩下的就是最准确的检测结果。

YOLOv1 的优点非常突出，第一就是快，基础版本能达到 45FPS，快速版本甚至能到 155FPS，完全满足实时需求。第二是全局感受野，网络看的是整张图，背景误检率比候选框算法低很多。第三是端到端，一个网络从头到尾训练，结构简单，容易理解也容易部署。

但 YOLOv1 的缺点也很明显，这些都是后来 YOLOv2 要解决的问题。首先每个网格只能预测一个类别，遇到重叠的物体就没办法检测。其次小目标效果很差，7×7 的网格太稀疏，小物体很容易漏检。另外它没有先验框，完全靠网络随机回归，定位精度有限，输入尺寸也必须固定 448×448，不够灵活，训练的时候坐标偏移没有约束，早期很容易发散。

可以说，YOLOv1 是一个伟大的原型，证明了单阶段实时检测的可行性，但离真正落地使用还有不少距离，而 YOLOv2 就是为了补齐这些短板而来。

三、YOLOv2：更快更强更稳，全面升级的实用版本

2017 年提出的 YOLOv2，全名是 YOLO9000，它的目标就是更好、更快、更强，在保持实时速度的前提下，把 VOC 数据集的 mAP 从 63.4% 直接提升到 78.6%，还能支持九千多类别的检测，成为真正能在工程中使用的算法。

YOLOv2 对 v1 做了系统性的改进，每一项都精准命中痛点，我们一项一项说。

第一个改进是加入批归一化，也就是 Batch Normalization。它把所有 Dropout 层都去掉，在每个卷积层后面都加上 BN 层，对特征做归一化，能加速网络收敛，稳定梯度，还能提升泛化能力，光这一项就让 mAP 直接提升 2%，后来几乎所有卷积网络都标配了 BN 层。

第二个改进是高分辨率分类器。YOLOv1 训练的时候用 224×224，测试的时候突然换成 448×448，模型会不适应。YOLOv2 在预训练之后，用 448×448 的尺寸额外再微调十轮，让模型适应高分辨率输入，这一项又让 mAP 提升 4%，大目标的定位精度明显变好。

第三个改进是删掉所有全连接层，整个网络全部用卷积层构成。这样一来，输入图像的尺寸就不再固定，只要能被 32 整除就行，还能支持多尺度训练。训练过程中每隔几轮就随机切换输入尺寸，从 320×320 到 608×608 都可以，模型的泛化能力变得极强，能适应各种分辨率的图像，小目标检测能力也跟着提升。

第四个改进是用 K-means 聚类生成先验框，这是 YOLOv2 最关键的改进之一。YOLOv1 没有先验框，全靠网络自己回归，收敛慢、精度低。YOLOv2 先把训练集里所有真实框的宽高拿出来，用聚类算法自动学习出五种最适合数据集的框形状，比人工设定的先验框更贴合数据，召回率也更高。

第五个改进是约束位置预测。YOLOv1 直接预测坐标偏移，很容易导致训练发散，框的位置乱跑。YOLOv2 改为预测相对于当前网格的偏移量，还用 sigmoid 函数把偏移值限制在 0 到 1 之间，让框的中心永远不会超出所属网格，训练变得非常稳定，收敛速度快很多。

第六个改进是细粒度特征融合。深层特征感受野大，适合检测大物体，但小目标的细节特征容易丢失。YOLOv2 加入了 Passthrough 结构，把浅层 26×26 的特征图和深层 13×13 的特征图融合在一起，浅层保留细节，深层保留语义，小目标的检测效果明显提升。

第七个改进是更换了主干网络，使用轻量化的 DarkNet-19，只有 19 个卷积层，五次下采样，最终输出 13×13 的特征图，速度更快，计算量更小，精度还更高。

第八个改进是优化感受野，用三个堆叠的 3×3 卷积代替一个 7×7 卷积，参数量更少，非线性更强，特征提取更精细，计算效率也更高。

第九个改进是支持多尺度推理，因为没有全连接层，推理的时候可以自由选择输入尺寸，想要速度就用小尺寸，想要精度就用大尺寸，灵活平衡速度和精度，非常适合工程使用。

综合这些改进，YOLOv2 的优势非常明显，精度大幅提升，速度依然保持实时，训练更稳定，小目标检测效果更好，输入尺寸灵活，纯卷积结构更容易部署，完全摆脱了 v1 的实验性质，成为能直接落地使用的算法。

四、从 YOLOv1 到 YOLOv2，到底进化在了哪里

从 v1 到 v2，YOLO 完成了一次教科书式的升级。v1 解决了有没有的问题，证明单阶段实时检测能行；v2 解决了好不好用的问题，让算法真正能走进实际项目。

它从手动设计变成了数据驱动，先验框不再靠人定，而是从数据里聚类学习，更贴合真实场景。训练从不稳定变得稳定，批归一化和约束位置预测，让新手也能轻松训好模型。输入从固定尺寸变成灵活尺寸，适配各种设备和场景。小目标、重叠目标这些 v1 的痛点，在 v2 里都得到了明显改善。

可以说，YOLOv2 奠定了整个 YOLO 系列的基础框架，后来的 v3、v4、v5 等版本，都是在 v2 的核心思想上继续优化升级。

五、总结

YOLO 系列是目标检测历史上里程碑式的算法，而 YOLOv1 和 YOLOv2 就是整个系列的根基。

YOLOv1 用极简的思想，开创了单阶段检测的范式，让实时目标检测从不可能变成可能。YOLOv2 用全面、精准的改进，补齐了 v1 的所有短板，实现了速度和精度的完美平衡，成为早期最实用的实时检测算法。

对于学习的人来说，吃透 YOLOv1，就能理解单阶段检测的核心思想；吃透 YOLOv2，就能掌握目标检测工程化的关键技巧。网格划分、损失函数设计、先验框聚类、位置约束、多尺度训练、特征融合，这些技术直到今天依然是目标检测领域的标配。

不管 YOLO 未来更新到多少代，这些底层逻辑永远不会过时。如果你是初学者，按照 v1 到 v2 的顺序学习，先懂思想，再学改进，很快就能入门。如果你是做工程开发，YOLOv2 的轻量化、稳定性、灵活性，依然能给你的项目带来很多参考。

目标检测一直在往更小、更快、更准的方向发展，但 YOLO 留下的设计思路和技术方案，会一直影响整个计算机视觉领域。