YOLOv8n机器人场景目标检测实战｜第一周工作笔记1

核心完成项 ：基于Conda搭建Ultralytics8.0+PyTorch2.1专属环境，完成COCO2017机器人场景子集筛选（8000张，7000训+1000验），跑通YOLOv8n基础训练（epoch=50），小障碍物mAP≥65%，模型可正常输出推理结果，满足周验收全部目标。
环境说明：全程使用Conda进行包管理与环境隔离，无pip命令使用，规避版本兼容问题；模型选用YOLOv8n（轻量化版本，适配机器人端算力限制），替代原计划YOLOv9n，核心实操逻辑一致。

一、本周核心目标与执行思路

1. 核心目标

掌握YOLO系列核心创新与轻量化模型适配逻辑，聚焦机器人室内小场景（室内小障碍物/桌椅/行人/台阶）检测需求；
搭建稳定可复现的Ultralytics+PyTorch训练环境，规避版本冲突；
筛选并整理符合YOLO格式的机器人场景自定义数据集，完成基础标注与训练集/验证集划分；
跑通YOLOv8n基础训练流程，验证数据集与模型兼容性，获取基础精度、参数量、推理速度指标。

2. 执行思路

理论侧：跳过基础CNN知识，聚焦YOLO特征融合、骨干网络、损失函数核心设计，对比YOLOv8与前版本的速度/精度优化点，结合机器人场景思考后续轻量化方向；
实操侧：按「环境搭建→数据集处理→配置编写→模型训练→指标验证」分步执行，全程基于Conda环境，所有操作留痕可复现，重点保证数据集格式正确性与训练流程通畅性。

二、工作日实操：理论学习+环境搭建+数据集筛选

（一）理论学习（1h）：YOLOv8核心设计与机器人场景适配

1. 学习核心内容（对标YOLOv9原计划，适配YOLOv8n）

跳过基础CNN、目标检测基础概念，重点精读YOLOv8核心创新模块，梳理与YOLOv5/v7的差异，结合机器人小场景分析核心适配点，整理核心笔记如下：

核心模块	YOLOv8n设计亮点	与前版本（YOLOv5n）优化点	机器人场景适配性分析
C2f骨干网络	替代C3模块，采用双分支残差结构，特征提取更高效，计算量更低	参数量减少约12%，推理速度提升约15%	轻量化结构适配机器人端有限算力，残差设计保留小障碍物特征
PAN-FPN特征融合	保留PAN-FPN双向融合结构，强化低层级特征传递	小目标检测mAP@0.5提升约3%	针对室内小障碍物（如瓶盖、小摆件），低层级特征强化可提升检测召回率
损失函数	分类损失用BCEWithLogitsLoss，回归损失用CIoULoss，正负样本分配采用Task-Aligned Assigner	边界框回归精度提升，训练收敛速度更快	机器人场景对检测框精度要求高（避免避障误判），CIoULoss可提升框回归稳定性
检测头	采用无锚框（Anchor-Free）设计，省去锚框聚类步骤	适配不同尺度目标，减少人工调参成本	机器人视角下目标尺度多变（如近处桌椅、远处行人），无锚框设计更灵活

2. 机器人场景后续优化方向初步梳理

结合理论学习，明确后续轻量化优化核心方向：骨干网络C2f层裁剪、特征融合分支精简（删除远距离融合，适配室内小场景）、注意力机制精简，为第二周轻量化优化铺垫。

（二）实操1：基于Conda搭建Ultralytics8.0+PyTorch2.1环境（1.5h）

1. 环境前置检查

系统：Ubuntu 20.04（机器人端常用系统，兼容性强）
显卡：NVIDIA GTX 1660ti（CUDA 11.8，适配PyTorch2.1）
Python版本要求：3.8-3.10（避免PyTorch2.1兼容问题）
核心要求：全程使用Conda，创建独立环境，隔离项目依赖。

2. 分步搭建流程（全程Conda命令，无pip）

bash 复制代码

# 1. 打开终端，创建Conda独立环境，命名yolo_robot，指定Python3.9
conda create -n yolo_robot python=3.9 -y

# 2. 激活环境（后续所有操作均在该环境下执行）
conda activate yolo_robot

# 3. 安装PyTorch2.1+Torchvision+Torchaudio（适配CUDA11.8，Conda源安装，避免网络问题）
conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=11.8 -c pytorch -c nvidia -y

# 4. 安装Ultralytics8.0（指定版本，Conda源安装）
conda install ultralytics==8.0.200 -c conda-forge -y

# 5. 安装配套依赖（opencv、pycocotools、pandas等，数据集处理与可视化用）
conda install opencv-python pillow matplotlib pycocotools pandas -y

# 6. 验证环境是否安装成功
conda list | grep -E "pytorch|ultralytics|opencv-python"

3. 环境有效性验证

编写简单验证脚本env_check.py，运行无报错即代表环境正常：

python 复制代码

import torch
import ultralytics
import cv2

# 验证PyTorch版本与CUDA可用性
print(f"PyTorch版本：{torch.__version__}")
print(f"CUDA是否可用：{torch.cuda.is_available()}")
print(f"CUDA设备数量：{torch.cuda.device_count()}")

# 验证Ultralytics版本
print(f"Ultralytics版本：{ultralytics.__version__}")

# 验证OpenCV
print(f"OpenCV版本：{cv2.__version__}")

# 加载YOLOv8n官方模型，验证模型加载正常
from ultralytics import YOLO
model = YOLO('yolov8n.pt')
print("YOLOv8n模型加载成功，环境验证通过！")

运行结果：所有版本匹配要求，CUDA可用，模型加载正常，环境搭建完成。

4. 官方模型推理测试（验证环境可正常推理）

用官方示例图片测试YOLOv8n推理，确保环境无运行问题：

python 复制代码

from ultralytics import YOLO

# 加载YOLOv8n预训练模型
model = YOLO('yolov8n.pt')

# 对官方bus.jpg进行推理（无图片可自行上传任意图片）
results = model('bus.jpg', device=0)

# 可视化推理结果并保存
results[0].show()
results[0].save('inference_test.jpg')

print("推理完成，结果已保存为inference_test.jpg")

测试结果：可正常显示检测框，保存推理结果图片，无报错，环境满足训练与推理要求。

（三）实操2：COCO2017机器人场景子集筛选与YOLO格式整理（1.5h）

1. 数据集下载与解压

从COCO2017官方镜像下载数据集（训练集+验证集+标注文件），解压后目录结构如下：

复制代码

coco2017/
├── train2017/  # 训练图片（118k+张）
├── val2017/    # 验证图片（5k+张）
├── annotations/
    ├── instances_train2017.json  # 训练集标注
    ├── instances_val2017.json    # 验证集标注

2. 筛选目标与类别映射

聚焦机器人室内小场景，筛选4大类核心目标，对应COCO2017类别ID，补充小障碍物细分类别，最终确定筛选类别及YOLO格式索引（从0开始）：

YOLO索引	目标类别	COCO2017类别ID	筛选说明
0	person	1	行人，机器人避障核心目标
1	chair	62	椅子，室内常见障碍物
2	dining table	67	餐桌，室内常见障碍物
3	bench	13	长凳，替代台阶（COCO台阶样本少，长凳场景相似）
4	bottle	44	瓶子，作为室内小障碍物代表

3. 数据集筛选与YOLO格式转换（Python脚本）

编写coco2robot.py脚本，实现COCO格式→YOLO格式转换，同时筛选出8000张样本（7000训练+1000验证），YOLO格式要求：

图片：保持原JPG格式，按训练/验证划分至对应目录；
标注：每张图片对应一个.txt文件，每行格式为「类别索引归一化x_center 归一化y_center 归一化width 归一化height」；
目录结构：严格遵循Ultralytics要求，便于后续配置与训练。

核心脚本代码：

python 复制代码

import json
import os
import shutil
import random

# 配置参数
COCO_ROOT = "./coco2017"  # COCO2017解压根路径
OUTPUT_ROOT = "./robot_dataset"  # 机器人场景数据集输出路径
TARGET_CATS = {"person":1, "chair":62, "dining table":67, "bench":13, "bottle":44}  # 筛选类别
TRAIN_NUM = 7000  # 训练集样本数
VAL_NUM = 1000    # 验证集样本数

# 创建YOLO格式数据集目录结构
os.makedirs(os.path.join(OUTPUT_ROOT, "images/train"), exist_ok=True)
os.makedirs(os.path.join(OUTPUT_ROOT, "images/val"), exist_ok=True)
os.makedirs(os.path.join(OUTPUT_ROOT, "labels/train"), exist_ok=True)
os.makedirs(os.path.join(OUTPUT_ROOT, "labels/val"), exist_ok=True)

def coco2yolo(anno_file, img_dir, output_img_dir, output_label_dir, target_cats, max_num):
    """
    COCO格式转YOLO格式，同时筛选指定类别与样本数
    anno_file: COCO标注文件路径
    img_dir: COCO图片目录
    output_img_dir: 输出图片目录
    output_label_dir: 输出标注目录
    target_cats: 目标类别字典{名称:COCO ID}
    max_num: 最大筛选样本数
    """
    # 加载COCO标注
    with open(anno_file, "r", encoding="utf-8") as f:
        coco_data = json.load(f)
    
    # 建立图片ID→文件名/宽高映射
    img_id2info = {img["id"]: (img["file_name"], img["width"], img["height"]) for img in coco_data["images"]}
    # 建立类别ID→YOLO索引映射
    coco_id2yolo_idx = {v:k for k,v in enumerate(target_cats.values())}
    
    # 按图片分组标注
    img_anno = {}
    for ann in coco_data["annotations"]:
        coco_cat_id = ann["category_id"]
        if coco_cat_id not in coco_id2yolo_idx:
            continue  # 跳过非目标类别
        img_id = ann["image_id"]
        if img_id not in img_anno:
            img_anno[img_id] = []
        # COCO标注为[x, y, w, h]（左上角坐标，宽高），转YOLO归一化[x_center, y_center, w, h]
        x, y, w, h = ann["bbox"]
        img_name, img_w, img_h = img_id2info[img_id]
        # 归一化
        x_center = (x + w/2) / img_w
        y_center = (y + h/2) / img_h
        w_norm = w / img_w
        h_norm = h / img_h
        # 添加YOLO格式标注（类别索引 坐标）
        yolo_idx = coco_id2yolo_idx[coco_cat_id]
        img_anno[img_id].append(f"{yolo_idx} {x_center:.6f} {y_center:.6f} {w_norm:.6f} {h_norm:.6f}")
    
    # 随机筛选指定数量样本
    selected_img_ids = random.sample(list(img_anno.keys()), min(max_num, len(img_anno)))
    print(f"筛选出{len(selected_img_ids)}张样本")
    
    # 复制图片并生成YOLO标注文件
    for img_id in selected_img_ids:
        img_name, _, _ = img_id2info[img_id]
        # 复制图片
        shutil.copy(os.path.join(img_dir, img_name), os.path.join(output_img_dir, img_name))
        # 生成标注文件
        label_name = img_name.replace(".jpg", ".txt")
        with open(os.path.join(output_label_dir, label_name), "w", encoding="utf-8") as f:
            f.write("\n".join(img_anno[img_id]))

# 处理训练集
print("开始处理训练集...")
coco2yolo(
    anno_file=os.path.join(COCO_ROOT, "annotations/instances_train2017.json"),
    img_dir=os.path.join(COCO_ROOT, "train2017"),
    output_img_dir=os.path.join(OUTPUT_ROOT, "images/train"),
    output_label_dir=os.path.join(OUTPUT_ROOT, "labels/train"),
    target_cats=TARGET_CATS,
    max_num=TRAIN_NUM
)

# 处理验证集
print("开始处理验证集...")
coco2yolo(
    anno_file=os.path.join(COCO_ROOT, "annotations/instances_val2017.json"),
    img_dir=os.path.join(COCO_ROOT, "val2017"),
    output_img_dir=os.path.join(OUTPUT_ROOT, "images/val"),
    output_label_dir=os.path.join(OUTPUT_ROOT, "labels/val"),
    target_cats=TARGET_CATS,
    max_num=VAL_NUM
)

print(f"机器人场景数据集整理完成，保存至{OUTPUT_ROOT}，共{TRAIN_NUM+VAL_NUM}张样本")

4. 数据集有效性验证

编写dataset_check.py脚本，验证数据集格式、路径、标注是否正确，避免后续训练报错：

python 复制代码

from ultralytics.data.utils import check_dataset
import os
import random

# 临时创建数据集配置文件，用于验证
robot_yaml = "./robot_dataset/robot_dataset.yaml"
with open(robot_yaml, "w", encoding="utf-8") as f:
    f.write(f"""
path: {os.path.abspath("./robot_dataset")}  # 数据集绝对路径
train: images/train
val: images/val
nc: 5  # 类别数
names: ['person', 'chair', 'dining table', 'bench', 'bottle']  # 类别名称，与YOLO索引一致
    """)

# 检查数据集（Ultralytics官方工具，可检测路径、格式、标注错误）
check_dataset(robot_yaml)
print("数据集格式验证通过！")

# 随机抽查标注文件
label_dir = "./robot_dataset/labels/train"
random_label = random.choice(os.listdir(label_dir))
with open(os.path.join(label_dir, random_label), "r", encoding="utf-8") as f:
    anno_content = f.read()
print(f"随机抽查标注文件{random_label}内容：\n{anno_content}")

验证结果：无报错，Ultralytics可正常识别数据集，标注文件格式为YOLO标准格式，数据集整理完成。