新书速览|计算机视觉:YOLO目标检测原理与实践

从基础理论到项目实践，一本书学透YOLO计算机视觉。

本书内容

《计算机视觉:YOLO目标检测原理与实践》详细介绍YOLO目标检测 核心技术与前沿进展，涵盖基础概念、主流算法框架及其实际应用场景。《计算机视觉:YOLO目标检测原理与实践》分为3部分，共10章 。基础理论部分（第1～3章） ：介绍目标检测的核心概念、评估指标与公开数据集，常用的深度学习框架及其目标检测开发环境的搭建与使用，以及卷积神经网络（CNN）的核心原理与经典架构。技术实现部分（第4～8章） ：重点介绍YOLO目标检测框架的技术演进，从YOLOv1到YOLOv11，涵盖特征提取、特征融合、Anchor机制、损失函数优化、多维注意力机制等关键技术，并结合实际案例介绍YOLOv11的小目标检测实现过程。实战应用部分（第9、10章）：以交通场景中的目标检测为例，介绍YOLOv11在实际项目中的应用，以及开放世界目标检测技术YOLO-UniOW框架在动态开放环境下的表现。

《计算机视觉:YOLO目标检测原理与实践》内容系统且案例丰富，适合计算机专业的学生、目标检测领域的初学者，以及希望深入掌握目标检测最新进展的科研人员与工程师使用。

本书作者

凌峰，博士，就职于985高校，长期从事机器学习、人工智能、计算机视觉及大语言模型方向的研发与教学工作。专注于模型优化、训练加速与数据驱动算法设计，具备扎实的理论基础与丰富的实践经验，主持及参与多项相关科研项目，致力于推荐推动大模型及多模态技术在教学与产业中的落地应用。

本书读者

适合计算机专业的学生、目标检测领域的初学者 ，以及希望深入掌握目标检测最新进展的科研人员与工程师使用。

本书目录

第 1 部分基础理论

第 1 章目标检测概述2

1.1 目标检测的基础概念2

1.1.1 目标检测的定义与任务2

1.1.2 目标检测的评估指标4

1.1.3 目标检测方法的分类7

1.1.4 目标检测方法的发展历程11

1.2 目标检测的实际应用15

1.2.1 人脸识别的进展与挑战16

1.2.2 智慧交通中的目标检测应用19

1.2.3 工业自动化检测的趋势22

1.3 公开数据集与标准评测23

1.3.1 PASCAL VOC数据集24

1.3.2 MS COCO数据集25

1.3.3 Visdrone数据集26

1.4 本章小结28

1.5 思考题28

第 2 章常用的深度学习框架30

2.1 深度学习框架概述30

2.1.1 Theano与TensorFlow30

2.1.2 PyTorch31

2.1.3 MXNet与Keras33

2.2 搭建目标检测开发环境35

2.2.1 使用Anaconda与Conda管理环境35

2.2.2 配置PyTorch与TensorFlow38

2.2.3 处理GPU与多GPU训练环境40

2.3 数据处理与NumPy42

2.3.1 创建与操作数组42

2.3.2 矩阵运算与广播44

2.3.3 数据增强与转换46

2.4 本章小结49

2.5 思考题49

第 3 章卷积神经网络51

3.1 CNN的基础结构与原理51

3.1.1 卷积层与池化层52

3.1.2 激活函数与批量归一化55

3.1.3 Dropout与正则化58

3.2 经典卷积神经网络架构61

3.2.1 LeNet与AlexNet61

3.2.2 VGGNet与GoogLeNet68

3.2.3 ResNet与DenseNet72

3.3 高效卷积网络与自适应特征融合76

3.3.1 Depthwise卷积与轻量化设计76

3.3.2 特征金字塔网络80

3.3.3 高效卷积网络的实践应用87

3.4 本章小结90

3.5 思考题90

第 2 部分技术实现

第 4 章目标检测的前处理与数据增强94

4.1 数据增强技术概述94

4.1.1 图像裁剪与缩放94

4.1.2 随机翻转与旋转97

4.1.3 亮度与对比度的随机变化100

4.2 数据的标准化与格式化103

4.2.1 数据集的创建与预处理103

4.2.2 VOC与COCO格式的转换107

4.3 数据增强的新技术110

4.3.1 图像混合技术：CutMix与MixUp110

4.3.2 GAN生成的图像增强113

4.3.3 自监督学习在数据增强中的应用116

4.4 本章小结120

4.5 思考题120

第 5 章 YOLO架构初步演化与具体实现121

5.1 YOLOv1的基本结构与工作原理121

5.1.1 目标检测的回归问题121

5.1.2 YOLOv1的优势与局限126

5.2 YOLOv2与新技术的加入127

5.2.1 批归一化与高分辨率特征图127

5.2.2 先验框与多尺度训练131

5.3 YOLOv3与性能优化135

5.3.1 特征融合与多尺度检测135

5.3.2 改进的损失函数140

5.4 YOLOv4的创新与应用144

5.4.1 结合CSPNet与PANet145

5.4.2 高效训练策略152

5.5 YOLOv5与YOLOv6的现代化设计156

5.5.1 模块化设计与性能优化156

5.5.2 YOLOv5在移动端的应用157

5.6 初步实战：基于YOLOv5的目标检测框架实现160

5.6.1 环境配置与框架搭建160

5.6.2 模型训练结果分析及评价指标解析163

5.6.3 加入CBAM模块的目标检测改进169

5.6.4 基于Transformer的多头注意力机制改进174

5.7 本章小结178

5.8 思考题179

第 6 章 YOLOv7至YOLOv11的一些改进180

6.1 YOLOv7的特性与技术创新详解180

6.1.1 新的主干网络与特征提取模块181

6.1.2 对抗性训练与自监督学习188

6.2 YOLOv8与YOLOv10创新技术点详解193

6.2.1 多尺度特征融合与自适应池化194

6.2.2 YOLOv8的轻量化与实时检测203

6.3 YOLOv11：高效目标检测208

6.3.1 YOLOv11的全新架构与自适应模块209

6.3.2 在大规模数据集上的表现216

6.3.3 YOLOv11的移动端推理优化220

6.4 本章小结225

6.5 思考题225

第 7 章目标检测改进方法与最新技术227

7.1 RetinaNet简介227

7.1.1 RetinaNet的网络架构227

7.1.2 如何解决类别不平衡问题234

7.2 改进的多维度注意力机制239

7.2.1 多维度注意力机制的基本概念239

7.2.2 多维注意力模块的实现240

7.3 弱化的非极大值抑制算法242

7.3.1 NMS的改进方法243

7.3.2 弱化NMS的优势245

7.4 RetinaNet的损失函数与训练策略248

7.4.1 Focal Loss的原理与实现248

7.4.2 焦点损失在密集目标检测中的应用252

7.4.3 自适应学习率策略255

7.5 基于LSTM的视频目标检测257

7.5.1 LSTM的基本概念257

7.5.2 LSTM网络与视频目标检测258

7.5.3 记忆引导网络261

7.5.4 交叉检测原理263

7.5.5 交叉检测框架的应用263

7.5.6 LSTM网络的训练与优化267

7.6 对抗样本与模型健壮性269

7.6.1 对抗样本的生成与防御269

7.6.2 模型健壮性的提升方法270

7.7 本章小结273

7.8 思考题273

第 8 章 DETR：Transformer在目标检测中的应用275

8.1 DETR架构与Transformer的结合275

8.1.1 DETR的主干网络275

8.1.2 基于Transformer的YOLO框架改进277

8.2 DETR的实现与训练280

8.2.1 数据预处理与样本匹配280

8.2.2 以YOLOv11为例：损失函数与优化282

8.3 本章小结285

8.4 思考题286

第 3 部分实战应用

第 9 章基于YOLOv11架构的密集小目标检测实战288

9.1 小目标检测的挑战与YOLOv11的优化策略288

9.1.1 小目标检测的技术难点288

9.1.2 YOLOv11的Anchor机制与特征融合289

9.1.3 自适应损失函数与小目标优化292

9.2 YOLOv11的训练流程与技术实现295

9.2.1 数据预处理与小目标数据集构建295

9.2.2 YOLOv11的训练流程与超参数调优296

9.2.3 使用PyTorch训练YOLOv11模型299

9.2.4 YOLOv11源码文件结构及各文件的作用301

9.3 后处理与优化：精确检测小目标304

9.3.1 YOLOv11的后处理流程304

9.3.2 自定义NMS算法与小目标优化305

9.4 YOLOv11在小目标检测中的实战案例308

9.4.1 基于YOLOv11的交通目标与行人检测308

9.4.2 模型评估与性能优化309

9.4.3 实战项目中的调优与结果分析312

9.5 本章小结315

9.6 思考题315

第 10 章领域前沿：开放世界目标检测技术316

10.1 开放世界目标检测OWOD的核心问题316

10.1.1 闭集目标检测的局限性317

10.1.2 OWOD的核心问题317

10.2 YOLO-UniOW开放世界框架319

10.2.1 YOLO-UniOW开放世界框架简介319

10.2.2 自适应决策学习321

10.2.3 通配符学习的原理323

10.2.4 无须增量学习的动态适配机制326

10.3 YOLO-UniOW的性能评估与应用实践329

10.3.1 多数据集实验分析329

10.3.2 实际应用场景中的表现330

10.3.3 与现有框架的对比与未来发展331

10.4 本章小结333

10.5 思考题333

编辑推荐

**·**在人工智能与计算机视觉飞速迭代的今天，目标检测作为核心技术，已深度渗透到自动驾驶、安防监控、智慧交通等诸多领域，而YOLO系列算法以其实时性与高效性，成为行业主流与科研热点。这本《计算机视觉：YOLO目标检测原理与实践》，正是为想要系统掌握目标检测技术、深耕YOLO框架的读者量身打造的实用指南，兼具理论深度、实战价值与前沿视野，是入门、进阶与科研路上的必备工具书。

·《计算机视觉:YOLO目标检测原理与实践》最突出的优势的是体系完整、循序渐进，打破了"理论与实践脱节"的行业痛点。全书以YOLO目标检测框架为核心，清晰划分三大模块：基础理论部分夯实根基，从目标检测的核心概念、评估指标，到深度学习框架搭建、卷积神经网络原理，层层拆解入门难点，让零基础读者也能快速入门；技术实现部分聚焦核心，全面梳理YOLOv1至YOLOv11的完整技术演进，详解特征提取、Anchor机制、损失函数优化等关键技术，深入剖析每一代算法的创新点与实现细节，兼顾经典与前沿；实战应用与前沿探索部分落地性极强，以交通场景小目标检测为案例，完整呈现YOLOv11的项目开发流程，同时引入YOLO-UniOW开放世界目标检测框架，助力读者紧跟领域前沿趋势。

**·**不同于市面上同类书籍"重理论、轻实战"或"重案例、缺体系"的局限，《计算机视觉:YOLO目标检测原理与实践》实现了理论讲解与实战操作的深度融合。每章节均搭配清晰的原理解析、具体的示例实现，辅以思考题巩固知识点，同时结合PyTorch、TensorFlow等主流深度学习框架，手把手指导开发环境搭建、模型训练与调优，甚至包含YOLOv11源码解析与小目标检测实战案例，让读者既能理解"为什么"，也能学会"怎么做"，真正实现从理论到实践的无缝衔接。

·《计算机视觉:YOLO目标检测原理与实践》内容兼具系统性与先进性，既覆盖了目标检测的基础理论、经典架构，也紧跟技术前沿，详细介绍了YOLOv11的全新架构、多维注意力机制、弱化非极大值抑制等最新技术，同时纳入开放世界目标检测等前沿方向，兼顾初学者入门与进阶者提升的需求。无论是计算机专业的学生、目标检测领域的入门者，还是希望掌握最新技术的开发者与科研人员，都能在书中找到适合自己的学习内容，既能夯实基础，也能拓宽视野、提升实战能力。

**·**深耕原理、聚焦实战、紧跟前沿，本书以严谨的逻辑、丰富的案例，为读者搭建起从入门到实践的YOLO目标检测学习体系，助力每一位读者突破技术瓶颈，在计算机视觉的赛道上稳步前行。

本文摘自《计算机视觉:YOLO目标检测原理与实践》，具体内容请以书籍为准。

计算机视觉：YOLO目标检测原理与实践_jd