【改进YOLOv8】融合感受野注意力卷积RFCBAMConv的杂草分割系统

1.研究背景与意义

项目参考AAAI Association for the Advancement of Artificial Intelligence

研究背景与意义

随着计算机视觉技术的不断发展,图像分割成为了一个重要的研究领域。图像分割可以将图像中的不同对象或区域进行有效的分离,对于许多应用领域具有重要的意义,如医学图像分析、自动驾驶、智能监控等。其中,杂草分割是农业领域中的一个重要应用,可以帮助农民准确地识别和分离出农作物和杂草,从而实现精确的农药喷洒和杂草控制。

目前,深度学习技术在图像分割领域取得了显著的进展。YOLOv8是一种经典的目标检测算法,具有高效、准确的特点。然而,YOLOv8在杂草分割任务中存在一些问题。首先,YOLOv8在感受野的选择上存在局限性,导致对于不同尺度的杂草难以进行准确的分割。其次,YOLOv8在处理图像中的细节信息时存在一定的困难,导致分割结果的精度不高。因此,如何改进YOLOv8算法,提高杂草分割的准确性和效率,成为了当前研究的一个重要课题。

为了解决上述问题,本研究提出了一种改进的YOLOv8算法,即融合感受野注意力卷积RFCBAMConv的杂草分割系统。该系统通过引入感受野注意力机制,能够自适应地调整感受野的大小,从而更好地适应不同尺度的杂草分割任务。同时,通过引入RFCBAMConv卷积层,可以有效地提取图像中的细节信息,从而提高分割结果的精度。

本研究的意义主要体现在以下几个方面:

  1. 提高杂草分割的准确性:通过融合感受野注意力卷积RFCBAMConv,可以更好地适应不同尺度的杂草分割任务,提高分割结果的准确性。这对于农业领域来说具有重要意义,可以帮助农民更准确地识别和分离出农作物和杂草,从而实现精确的农药喷洒和杂草控制。

  2. 提高杂草分割的效率:改进的YOLOv8算法在保持准确性的同时,还能够提高分割的效率。这对于大规模的农田杂草分割任务来说尤为重要,可以减少农民的劳动成本和时间成本,提高农业生产的效率。

  3. 推动深度学习在农业领域的应用:本研究的改进算法可以为农业领域的图像分割任务提供一个有效的解决方案,推动深度学习技术在农业领域的应用。这对于提高农业生产的智能化水平,实现农业的可持续发展具有重要意义。

综上所述,改进YOLOv8算法,融合感受野注意力卷积RFCBAMConv的杂草分割系统具有重要的研究背景和意义。通过提高杂草分割的准确性和效率,推动深度学习在农业领域的应用,可以为农业生产的智能化发展做出重要贡献。

2.图片演示



3.视频演示

【改进YOLOv8】融合感受野注意力卷积RFCBAMConv的杂草分割系统_哔哩哔哩_bilibili

4.数据集的采集&标注和整理

图片的收集

首先,我们需要收集所需的图片。这可以通过不同的方式来实现,例如使用现有的公开数据集ZCDatasets。

eiseg是一个图形化的图像注释工具,支持COCO和YOLO格式。以下是使用eiseg将图片标注为COCO格式的步骤:

(1)下载并安装eiseg。

(2)打开eiseg并选择"Open Dir"来选择你的图片目录。

(3)为你的目标对象设置标签名称。

(4)在图片上绘制矩形框,选择对应的标签。

(5)保存标注信息,这将在图片目录下生成一个与图片同名的JSON文件。

(6)重复此过程,直到所有的图片都标注完毕。

由于YOLO使用的是txt格式的标注,我们需要将VOC格式转换为YOLO格式。可以使用各种转换工具或脚本来实现。

下面是一个简单的方法是使用Python脚本,该脚本读取XML文件,然后将其转换为YOLO所需的txt格式。

python 复制代码
import contextlib
import json

import cv2
import pandas as pd
from PIL import Image
from collections import defaultdict

from utils import *


# Convert INFOLKS JSON file into YOLO-format labels ----------------------------
def convert_infolks_json(name, files, img_path):
    # Create folders
    path = make_dirs()

    # Import json
    data = []
    for file in glob.glob(files):
        with open(file) as f:
            jdata = json.load(f)
            jdata['json_file'] = file
            data.append(jdata)

    # Write images and shapes
    name = path + os.sep + name
    file_id, file_name, wh, cat = [], [], [], []
    for x in tqdm(data, desc='Files and Shapes'):
        f = glob.glob(img_path + Path(x['json_file']).stem + '.*')[0]
        file_name.append(f)
        wh.append(exif_size(Image.open(f)))  # (width, height)
        cat.extend(a['classTitle'].lower() for a in x['output']['objects'])  # categories

        # filename
        with open(name + '.txt', 'a') as file:
            file.write('%s\n' % f)

    # Write *.names file
    names = sorted(np.unique(cat))
    # names.pop(names.index('Missing product'))  # remove
    with open(name + '.names', 'a') as file:
        [file.write('%s\n' % a) for a in names]

    # Write labels file
    for i, x in enumerate(tqdm(data, desc='Annotations')):
        label_name = Path(file_name[i]).stem + '.txt'

        with open(path + '/labels/' + label_name, 'a') as file:
            for a in x['output']['objects']:
                # if a['classTitle'] == 'Missing product':
                #    continue  # skip

                category_id = names.index(a['classTitle'].lower())

                # The INFOLKS bounding box format is [x-min, y-min, x-max, y-max]
                box = np.array(a['points']['exterior'], dtype=np.float32).ravel()
                box[[0, 2]] /= wh[i][0]  # normalize x by width
                box[[1, 3]] /= wh[i][1]  # normalize y by height
                box = [box[[0, 2]].mean(), box[[1, 3]].mean(), box[2] - box[0], box[3] - box[1]]  # xywh
                if (box[2] > 0.) and (box[3] > 0.):  # if w > 0 and h > 0
                    file.write('%g %.6f %.6f %.6f %.6f\n' % (category_id, *box))

    # Split data into train, test, and validate files
    split_files(name, file_name)
    write_data_data(name + '.data', nc=len(names))
    print(f'Done. Output saved to {os.getcwd() + os.sep + path}')


# Convert vott JSON file into YOLO-format labels -------------------------------
def convert_vott_json(name, files, img_path):
    # Create folders
    path = make_dirs()
    name = path + os.sep + name

    # Import json
    data = []
    for file in glob.glob(files):
        with open(file) as f:
            jdata = json.load(f)
            jdata['json_file'] = file
            data.append(jdata)

    # Get all categories
    file_name, wh, cat = [], [], []
    for i, x in enumerate(tqdm(data, desc='Files and Shapes')):
        with contextlib.suppress(Exception):
            cat.extend(a['tags'][0] for a in x['regions'])  # categories

    # Write *.names file
    names = sorted(pd.unique(cat))
    with open(name + '.names', 'a') as file:
        [file.write('%s\n' % a) for a in names]

    # Write labels file
    n1, n2 = 0, 0
    missing_images = []
    for i, x in enumerate(tqdm(data, desc='Annotations')):

        f = glob.glob(img_path + x['asset']['name'] + '.jpg')
        if len(f):
            f = f[0]
            file_name.append(f)
            wh = exif_size(Image.open(f))  # (width, height)

            n1 += 1
            if (len(f) > 0) and (wh[0] > 0) and (wh[1] > 0):
                n2 += 1

                # append filename to list
                with open(name + '.txt', 'a') as file:
                    file.write('%s\n' % f)

                # write labelsfile
                label_name = Path(f).stem + '.txt'
                with open(path + '/labels/' + label_name, 'a') as file:
                    for a in x['regions']:
                        category_id = names.index(a['tags'][0])

                        # The INFOLKS bounding box format is [x-min, y-min, x-max, y-max]
                        box = a['boundingBox']
                        box = np.array([box['left'], box['top'], box['width'], box['height']]).ravel()
                        box[[0, 2]] /= wh[0]  # normalize x by width
                        box[[1, 3]] /= wh[1]  # normalize y by height
                        box = [box[0] + box[2] / 2, box[1] + box[3] / 2, box[2], box[3]]  # xywh

                        if (box[2] > 0.) and (box[3] > 0.):  # if w > 0 and h > 0
                            file.write('%g %.6f %.6f %.6f %.6f\n' % (category_id, *box))
        else:
            missing_images.append(x['asset']['name'])

    print('Attempted %g json imports, found %g images, imported %g annotations successfully' % (i, n1, n2))
    if len(missing_images):
        print('WARNING, missing images:', missing_images)

    # Split data into train, test, and validate files
    split_files(name, file_name)
    print(f'Done. Output saved to {os.getcwd() + os.sep + path}')


# Convert ath JSON file into YOLO-format labels --------------------------------
def convert_ath_json(json_dir):  # dir contains json annotations and images
    # Create folders
    dir = make_dirs()  # output directory

    jsons = []
    for dirpath, dirnames, filenames in os.walk(json_dir):
        jsons.extend(
            os.path.join(dirpath, filename)
            for filename in [
                f for f in filenames if f.lower().endswith('.json')
            ]
        )

    # Import json
    n1, n2, n3 = 0, 0, 0
    missing_images, file_name = [], []
    for json_file in sorted(jsons):
        with open(json_file) as f:
            data = json.load(f)

        # # Get classes
        # try:
        #     classes = list(data['_via_attributes']['region']['class']['options'].values())  # classes
        # except:
        #     classes = list(data['_via_attributes']['region']['Class']['options'].values())  # classes

        # # Write *.names file
        # names = pd.unique(classes)  # preserves sort order
        # with open(dir + 'data.names', 'w') as f:
        #     [f.write('%s\n' % a) for a in names]

        # Write labels file
        for x in tqdm(data['_via_img_metadata'].values(), desc=f'Processing {json_file}'):
            image_file = str(Path(json_file).parent / x['filename'])
            f = glob.glob(image_file)  # image file
            if len(f):
                f = f[0]
                file_name.append(f)
                wh = exif_size(Image.open(f))  # (width, height)

                n1 += 1  # all images
                if len(f) > 0 and wh[0] > 0 and wh[1] > 0:
                    label_file = dir + 'labels/' + Path(f).stem + '.txt'

                    nlabels = 0
                    try:
                        with open(label_file, 'a') as file:  # write labelsfile
                            # try:
                            #     category_id = int(a['region_attributes']['class'])
                            # except:
                            #     category_id = int(a['region_attributes']['Class'])
                            category_id = 0  # single-class

                            for a in x['regions']:
                                # bounding box format is [x-min, y-min, x-max, y-max]
                                box = a['shape_attributes']
                                box = np.array([box['x'], box['y'], box['width'], box['height']],
                                               dtype=np.float32).ravel()
                                box[[0, 2]] /= wh[0]  # normalize x by width
                                box[[1, 3]] /= wh[1]  # normalize y by height
                                box = [box[0] + box[2] / 2, box[1] + box[3] / 2, box[2],
                                       box[3]]  # xywh (left-top to center x-y)

                                if box[2] > 0. and box[3] > 0.:  # if w > 0 and h > 0
                                    file.write('%g %.6f %.6f %.6f %.6f\n' % (category_id, *box))
                                    n3 += 1
                                    nlabels += 1

                        if nlabels == 0:  # remove non-labelled images from dataset
                            os.system(f'rm {label_file}')
                            # print('no labels for %s' % f)
                            continue  # next file

                        # write image
                        img_size = 4096  # resize to maximum
                        img = cv2.imread(f)  # BGR
                        assert img is not None, 'Image Not Found ' + f
                        r = img_size / max(img.shape)  # size ratio
                        if r < 1:  # downsize if necessary
                            h, w, _ = img.shape
                            img = cv2.resize(img, (int(w * r), int(h * r)), interpolation=cv2.INTER_AREA)

                        ifile = dir + 'images/' + Path(f).name
                        if cv2.imwrite(ifile, img):  # if success append image to list
                            with open(dir + 'data.txt', 'a') as file:
                                file.write('%s\n' % ifile)
                            n2 += 1  # correct images

                    except Exception:
                        os.system(f'rm {label_file}')
                        print(f'problem with {f}')

            else:
                missing_images.append(image_file)

    nm = len(missing_images)  # number missing
    print('\nFound %g JSONs with %g labels over %g images. Found %g images, labelled %g images successfully' %
          (len(jsons), n3, n1, n1 - nm, n2))
    if len(missing_images):
        print('WARNING, missing images:', missing_images)

    # Write *.names file
    names = ['knife']  # preserves sort order
    with open(dir + 'data.names', 'w') as f:
        [f.write('%s\n' % a) for a in names]

    # Split data into train, test, and validate files
    split_rows_simple(dir + 'data.txt')
    write_data_data(dir + 'data.data', nc=1)
    print(f'Done. Output saved to {Path(dir).absolute()}')


def convert_coco_json(json_dir='../coco/annotations/', use_segments=False, cls91to80=False):
    save_dir = make_dirs()  # output directory
    coco80 = coco91_to_coco80_class()

    # Import json
    for json_file in sorted(Path(json_dir).resolve().glob('*.json')):
        fn = Path(save_dir) / 'labels' / json_file.stem.replace('instances_', '')  # folder name
        fn.mkdir()
        with open(json_file) as f:
            data = json.load(f)

        # Create image dict
        images = {'%g' % x['id']: x for x in data['images']}
        # Create image-annotations dict
        imgToAnns = defaultdict(list)
        for ann in data['annotations']:
            imgToAnns[ann['image_id']].append(ann)

        # Write labels file
        for img_id, anns in tqdm(imgToAnns.items(), desc=f'Annotations {json_file}'):
            img = images['%g' % img_id]
            h, w, f = img['height'], img['width'], img['file_name']

            bboxes = []
            segments = []
            for ann in anns:
                if ann['iscrowd']:
                    continue
                # The COCO box format is [top left x, top left y, width, height]
                box = np.array(ann['bbox'], dtype=np.float64)
                box[:2] += box[2:] / 2  # xy top-left corner to center
                box[[0, 2]] /= w  # normalize x
                box[[1, 3]] /= h  # normalize y
                if box[2] <= 0 or box[3] <= 0:  # if w <= 0 and h <= 0
                    continue

                cls = coco80[ann['category_id'] - 1] if cls91to80 else ann['category_id'] - 1  # class
                box = [cls] + box.tolist()
                if box not in bboxes:
                    bboxes.append(box)
                # Segments
                if use_segments:
                    if len(ann['segmentation']) > 1:
                        s = merge_multi_segment(ann['segmentation'])
                        s = (np.concatenate(s, axis=0) / np.array([w, h])).reshape(-1).tolist()
                    else:
                        s = [j for i in ann['segmentation'] for j in i]  # all segments concatenated
                        s = (np.array(s).reshape(-1, 2) / np.array([w, h])).reshape(-1).tolist()
                    s = [cls] + s
                    if s not in segments:
                        segments.append(s)

            # Write
            with open((fn / f).with_suffix('.txt'), 'a') as file:
                for i in range(len(bboxes)):
                    line = *(segments[i] if use_segments else bboxes[i]),  # cls, box or segments
                    file.write(('%g ' * len(line)).rstrip() % line + '\n')


def min_index(arr1, arr2):
    """Find a pair of indexes with the shortest distance. 
    Args:
        arr1: (N, 2).
        arr2: (M, 2).
    Return:
        a pair of indexes(tuple).
    """
    dis = ((arr1[:, None, :] - arr2[None, :, :]) ** 2).sum(-1)
    return np.unravel_index(np.argmin(dis, axis=None), dis.shape)


def merge_multi_segment(segments):
    """Merge multi segments to one list.
    Find the coordinates with min distance between each segment,
    then connect these coordinates with one thin line to merge all 
    segments into one.

    Args:
        segments(List(List)): original segmentations in coco's json file.
            like [segmentation1, segmentation2,...], 
            each segmentation is a list of coordinates.
    """
    s = []
    segments = [np.array(i).reshape(-1, 2) for i in segments]
    idx_list = [[] for _ in range(len(segments))]

    # record the indexes with min distance between each segment
    for i in range(1, len(segments)):
        idx1, idx2 = min_index(segments[i - 1], segments[i])
        idx_list[i - 1].append(idx1)
        idx_list[i].append(idx2)

    # use two round to connect all the segments
    for k in range(2):
        # forward connection
        if k == 0:
            for i, idx in enumerate(idx_list):
                # middle segments have two indexes
                # reverse the index of middle segments
                if len(idx) == 2 and idx[0] > idx[1]:
                    idx = idx[::-1]
                    segments[i] = segments[i][::-1, :]

                segments[i] = np.roll(segments[i], -idx[0], axis=0)
                segments[i] = np.concatenate([segments[i], segments[i][:1]])
                # deal with the first segment and the last one
                if i in [0, len(idx_list) - 1]:
                    s.append(segments[i])
                else:
                    idx = [0, idx[1] - idx[0]]
                    s.append(segments[i][idx[0]:idx[1] + 1])

        else:
            for i in range(len(idx_list) - 1, -1, -1):
                if i not in [0, len(idx_list) - 1]:
                    idx = idx_list[i]
                    nidx = abs(idx[1] - idx[0])
                    s.append(segments[i][nidx:])
    return s


def delete_dsstore(path='../datasets'):
    # Delete apple .DS_store files
    from pathlib import Path
    files = list(Path(path).rglob('.DS_store'))
    print(files)
    for f in files:
        f.unlink()


if __name__ == '__main__':
    source = 'COCO'

    if source == 'COCO':
        convert_coco_json('./annotations',  # directory with *.json
                          use_segments=True,
                          cls91to80=True)

    elif source == 'infolks':  # Infolks https://infolks.info/
        convert_infolks_json(name='out',
                             files='../data/sm4/json/*.json',
                             img_path='../data/sm4/images/')

    elif source == 'vott':  # VoTT https://github.com/microsoft/VoTT
        convert_vott_json(name='data',
                          files='../../Downloads/athena_day/20190715/*.json',
                          img_path='../../Downloads/athena_day/20190715/')  # images folder

    elif source == 'ath':  # ath format
        convert_ath_json(json_dir='../../Downloads/athena/')  # images folder

    # zip results
    # os.system('zip -r ../coco.zip ../coco')
整理数据文件夹结构

我们需要将数据集整理为以下结构:

-----datasets
	-----coco128-seg
	   |-----images
	   |   |-----train
	   |   |-----valid
	   |   |-----test
	   |
	   |-----labels
	   |   |-----train
	   |   |-----valid
	   |   |-----test
	   |
模型训练
 Epoch   gpu_mem       box       obj       cls    labels  img_size
 1/200     20.8G   0.01576   0.01955  0.007536        22      1280: 100%|██████████| 849/849 [14:42<00:00,  1.04s/it]
           Class     Images     Labels          P          R     mAP@.5 mAP@.5:.95: 100%|██████████| 213/213 [01:14<00:00,  2.87it/s]
             all       3395      17314      0.994      0.957      0.0957      0.0843

 Epoch   gpu_mem       box       obj       cls    labels  img_size
 2/200     20.8G   0.01578   0.01923  0.007006        22      1280: 100%|██████████| 849/849 [14:44<00:00,  1.04s/it]
           Class     Images     Labels          P          R     mAP@.5 mAP@.5:.95: 100%|██████████| 213/213 [01:12<00:00,  2.95it/s]
             all       3395      17314      0.996      0.956      0.0957      0.0845

 Epoch   gpu_mem       box       obj       cls    labels  img_size
 3/200     20.8G   0.01561    0.0191  0.006895        27      1280: 100%|██████████| 849/849 [10:56<00:00,  1.29it/s]
           Class     Images     Labels          P          R     mAP@.5 mAP@.5:.95: 100%|███████   | 187/213 [00:52<00:00,  4.04it/s]
             all       3395      17314      0.996      0.957      0.0957      0.0845

5.核心代码讲解

5.1 export.py
python 复制代码
class YOLOv8Exporter:
    def __init__(self):
        self.FILE = Path(__file__).resolve()
        self.ROOT = self.FILE.parents[0]  # YOLOv8 root directory
        if str(self.ROOT) not in sys.path:
            sys.path.append(str(self.ROOT))  # add ROOT to PATH
        if platform.system() != 'Windows':
            self.ROOT = Path(os.path.relpath(self.ROOT, Path.cwd()))  # relative

        from models.experimental import attempt_load
        from models.yolo import ClassificationModel, Detect, DetectionModel, SegmentationModel
        from utils.dataloaders import LoadImages
        from utils.general import (LOGGER, Profile

该程序文件是用于将YOLOv8 PyTorch模型导出为其他格式的工具。它支持导出为PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、CoreML、TensorFlow SavedModel、TensorFlow GraphDef、TensorFlow Lite、TensorFlow Edge TPU、TensorFlow.js和PaddlePaddle等格式。导出的模型可以在不同的深度学习框架中使用。

程序文件首先定义了一些常量和全局变量,然后导入了所需的库和模块。接下来,定义了一些辅助函数和装饰器,用于导出模型和处理异常情况。

然后,定义了导出模型的具体函数,包括导出TorchScript模型、导出ONNX模型、导出OpenVINO模型、

5.2 predict.py
python 复制代码
from ultralytics.engine.predictor import BasePredictor
from ultralytics.engine.results import Results
from ultralytics.utils import ops

class DetectionPredictor(BasePredictor):
    def postprocess(self, preds, img, orig_imgs):
        preds = ops.non_max_suppression(preds,
                                        self.args.conf,
                                        self.args.iou,
                                        agnostic=self.args.agnostic_nms,
                                        max_det=self.args.max_det,
                                        classes=self.args.classes)

        if not isinstance(orig_imgs, list):
            orig_imgs = ops.convert_torch2numpy_batch(orig_imgs)

        results = []
        for i, pred in enumerate(preds):
            orig_img = orig_imgs[i]
            pred[:, :4] = ops.scale_boxes(img.shape[2:], pred[:, :4], orig_img.shape)
            img_path = self.batch[0][i]
            results.append(Results(orig_img, path=img_path, names=self.model.names, boxes=pred))
        return results

这是一个名为predict.py的程序文件,它是一个用于预测基于检测模型的类DetectionPredictor的扩展。该类继承自BasePredictor类,并实现了postprocess方法来对预测结果进行后处理,并返回Results对象的列表。

在postprocess方法中,首先对预测结果进行非最大抑制处理,根据设定的置信度阈值和重叠度阈值进行筛选,并根据设定的参数进行类别的筛选和最大检测数的限制。

然后,对于每个预测结果,将其边界框的坐标进行缩放,以适应原始图像的尺寸。最后,将原始图像、图像路径、类别名称和边界框信息封装成Results对象,并添加到结果列表中。

该文件还包含了一个示例用法,展示了如何使用DetectionPredictor类进行预测。

5.3 train.py
python 复制代码
from copy import copy
import numpy as np
from ultralytics.data import build_dataloader, build_yolo_dataset
from ultralytics.engine.trainer import BaseTrainer
from ultralytics.models import yolo
from ultralytics.nn.tasks import DetectionModel
from ultralytics.utils import LOGGER, RANK
from ultralytics.utils.torch_utils import de_parallel, torch_distributed_zero_first

class DetectionTrainer(BaseTrainer):
    def build_dataset(self, img_path, mode='train', batch=None):
        gs = max(int(de_parallel(self.model).stride.max() if self.model else 0), 32)
        return build_yolo_dataset(self.args, img_path, batch, self.data, mode=mode, rect=mode == 'val', stride=gs)

    def get_dataloader(self, dataset_path, batch_size=16, rank=0, mode='train'):
        assert mode in ['train', 'val']
        with torch_distributed_zero_first(rank):
            dataset = self.build_dataset(dataset_path, mode, batch_size)
        shuffle = mode == 'train'
        if getattr(dataset, 'rect', False) and shuffle:
            LOGGER.warning("WARNING ⚠️ 'rect=True' is incompatible with DataLoader shuffle, setting shuffle=False")
            shuffle = False
        workers = 0
        return build_dataloader(dataset, batch_size, workers, shuffle, rank)

    def preprocess_batch(self, batch):
        batch['img'] = batch['img'].to(self.device, non_blocking=True).float() / 255
        return batch

    def set_model_attributes(self):
        self.model.nc = self.data['nc']
        self.model.names = self.data['names']
        self.model.args = self.args

    def get_model(self, cfg=None, weights=None, verbose=True):
        model = DetectionModel(cfg, nc=self.data['nc'], verbose=verbose and RANK == -1)
        if weights:
            model.load(weights)
        return model

    def get_validator(self):
        self.loss_names = 'box_loss', 'cls_loss', 'dfl_loss'
        return yolo.detect.DetectionValidator(self.test_loader, save_dir=self.save_dir, args=copy(self.args))

    def label_loss_items(self, loss_items=None, prefix='train'):
        keys = [f'{prefix}/{x}' for x in self.loss_names]
        if loss_items is not None:
            loss_items = [round(float(x), 5) for x in loss_items]
            return dict(zip(keys, loss_items))
        else:
            return keys

    def progress_string(self):
        return ('\n' + '%11s' *
                (4 + len(self.loss_names))) % ('Epoch', 'GPU_mem', *self.loss_names, 'Instances', 'Size')

    def plot_training_samples(self, batch, ni):
        plot_images(images=batch['img'],
                    batch_idx=batch['batch_idx'],
                    cls=batch['cls'].squeeze(-1),
                    bboxes=batch['bboxes'],
                    paths=batch['im_file'],
                    fname=self.save_dir / f'train_batch{ni}.jpg',
                    on_plot=self.on_plot)

    def plot_metrics(self):
        plot_results(file=self.csv, on_plot=self.on_plot)

    def plot_training_labels(self):
        boxes = np.concatenate([lb['bboxes'] for lb in self.train_loader.dataset.labels], 0)
        cls = np.concatenate([lb['cls'] for lb in self.train_loader.dataset.labels], 0)
        plot_labels(boxes, cls.squeeze(), names=self.data['names'], save_dir=self.save_dir, on_plot=self.on_plot)

这是一个用于训练基于检测模型的程序文件train.py。它使用了Ultralytics YOLO库,主要包括以下几个部分:

  1. 导入所需的库和模块。
  2. 定义了一个名为DetectionTrainer的类,该类继承自BaseTrainer类,用于训练基于检测模型的任务。
  3. 在DetectionTrainer类中定义了一些方法,包括构建数据集、构建数据加载器、预处理批次、设置模型属性等。
  4. 在DetectionTrainer类中还定义了一些用于可视化训练过程和结果的方法,如绘制训练样本、绘制指标、绘制训练标签等。
  5. 在文件的最后,使用了if name == 'main'语句,表示当该文件作为主程序运行时,执行以下代码:创建一个DetectionTrainer对象,传入参数进行初始化,并调用train方法开始训练。

总体来说,这个程序文件是一个用于训练检测模型的脚本,它使用了Ultralytics YOLO库提供的功能和模块,实现了数据集的构建、数据加载器的构建、模型的训练等功能,并提供了一些可视化方法用于展示训练过程和结果。

5.4 backbone\convnextv2.py
python 复制代码
import torch
import torch.nn as nn
import torch.nn.functional as F
from timm.models.layers import trunc_normal_, DropPath

class LayerNorm(nn.Module):
    def __init__(self, normalized_shape, eps=1e-6, data_format="channels_last"):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(normalized_shape))
        self.bias = nn.Parameter(torch.zeros(normalized_shape))
        self.eps = eps
        self.data_format = data_format
        if self.data_format not in ["channels_last", "channels_first"]:
            raise NotImplementedError 
        self.normalized_shape = (normalized_shape, )
    
    def forward(self, x):
        if self.data_format == "channels_last":
            return F.layer_norm(x, self.normalized_shape, self.weight, self.bias, self.eps)
        elif self.data_format == "channels_first":
            u = x.mean(1, keepdim=True)
            s = (x - u).pow(2).mean(1, keepdim=True)
            x = (x - u) / torch.sqrt(s + self.eps)
            x = self.weight[:, None, None] * x + self.bias[:, None, None]
            return x

class GRN(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.gamma = nn.Parameter(torch.zeros(1, 1, 1, dim))
        self.beta = nn.Parameter(torch.zeros(1, 1, 1, dim))

    def forward(self, x):
        Gx = torch.norm(x, p=2, dim=(1,2), keepdim=True)
        Nx = Gx / (Gx.mean(dim=-1, keepdim=True) + 1e-6)
        return self.gamma * (x * Nx) + self.beta + x

class Block(nn.Module):
    def __init__(self, dim, drop_path=0.):
        super().__init__()
        self.dwconv = nn.Conv2d(dim, dim, kernel_size=7, padding=3, groups=dim)
        self.norm = LayerNorm(dim, eps=1e-6)
        self.pwconv1 = nn.Linear(dim, 4 * dim)
        self.act = nn.GELU()
        self.grn = GRN(4 * dim)
        self.pwconv2 = nn.Linear(4 * dim, dim)
        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()

    def forward(self, x):
        input = x
        x = self.dwconv(x)
        x = x.permute(0, 2, 3, 1)
        x = self.norm(x)
        x = self.pwconv1(x)
        x = self.act(x)
        x = self.grn(x)
        x = self.pwconv2(x)
        x = x.permute(0, 3, 1, 2)

        x = input + self.drop_path(x)
        return x

class ConvNeXtV2(nn.Module):
    def __init__(self, in_chans=3, num_classes=1000, 
                 depths=[3, 3, 9, 3], dims=[96, 192, 384, 768], 
                 drop_path_rate=0., head_init_scale=1.
                 ):
        super().__init__()
        self.depths = depths
        self.downsample_layers = nn.ModuleList()
        stem = nn.Sequential(
            nn.Conv2d(in_chans, dims[0], kernel_size=4, stride=4),
            LayerNorm(dims[0], eps=1e-6, data_format="channels_first")
        )
        self.downsample_layers.append(stem)
        for i in range(3):
            downsample_layer = nn.Sequential(
                    LayerNorm(dims[i], eps=1e-6, data_format="channels_first"),
                    nn.Conv2d(dims[i], dims[i+1], kernel_size=2, stride=2),
            )
            self.downsample_layers.append(downsample_layer)

        self.stages = nn.ModuleList()
        dp_rates=[x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))] 
        cur = 0
        for i in range(4):
            stage = nn.Sequential(
                *[Block(dim=dims[i], drop_path=dp_rates[cur + j]) for j in range(depths[i])]
            )
            self.stages.append(stage)
            cur += depths[i]

        self.norm = nn.LayerNorm(dims[-1], eps=1e-6)
        self.head = nn.Linear(dims[-1], num_classes)

        self.apply(self._init_weights)
        self.channel = [i.size(1) for i in self.forward(torch.randn(1, 3, 640, 640))]

    def _init_weights(self, m):
        if isinstance(m, (nn.Conv2d, nn.Linear)):
            trunc_normal_(m.weight, std=.02)
            nn.init.constant_(m.bias, 0)

    def forward(self, x):
        res = []
        for i in range(4):
            x = self.downsample_layers[i](x)
            x = self.stages[i](x)
            res.append(x)
        return res

该程序文件是一个实现了ConvNeXt V2模型的PyTorch模块。ConvNeXt V2是一个用于图像分类任务的卷积神经网络模型。

该程序文件包含以下几个类和函数:

  1. LayerNorm类:实现了支持两种数据格式(channels_last和channels_first)的LayerNorm层。

  2. GRN类:实现了全局响应归一化(GRN)层。

  3. Block类:实现了ConvNeXtV2模型的基本块。

  4. ConvNeXtV2类:实现了ConvNeXt V2模型。

  5. update_weight函数:用于更新模型的权重。

  6. convnextv2_atto函数:创建一个ConvNeXtV2模型实例,该模型具有较小的尺寸。

  7. convnextv2_femto函数:创建一个ConvNeXtV2模型实例,该模型具有更小的尺寸。

  8. convnextv2_pico函数:创建一个ConvNeXtV2模型实例,该模型具有更小的尺寸。

  9. convnextv2_nano函数:创建一个ConvNeXtV2模型实例,该模型具有更小的尺寸。

  10. convnextv2_tiny函数:创建一个ConvNeXtV2模型实例,该模型具有较小的尺寸。

  11. convnextv2_base函数:创建一个ConvNeXtV2模型实例,该模型具有中等尺寸。

  12. convnextv2_large函数:创建一个ConvNeXtV2模型实例,该模型具有较大的尺寸。

  13. convnextv2_huge函数:创建一个ConvNeXtV2模型实例,该模型具有非常大的尺寸。

这些函数可以根据指定的参数创建不同尺寸的ConvNeXtV2模型,并且可以选择加载预训练的权重。

5.6 backbone\CSwomTramsformer.py
python 复制代码
class CSWinTransformer(nn.Module):
    def __init__(self, img_size=224, patch_size=4, in_chans=3, num_classes=1000, embed_dim=96, depths=[2, 2, 6, 2], num_heads=[3, 6, 12, 24], mlp_ratio=4., qkv_bias=True, qk_scale=None, drop_rate=0., attn_drop_rate=0., drop_path_rate=0., norm_layer=nn.LayerNorm):
        super().__init__()
        self.num_classes = num_classes
        self.depths = depths
        self.num_features = self.embed_dim = embed_dim

        self.patch_embed = PatchEmbed(
            img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dim)
        self.pos_drop = nn.Dropout(p=drop_rate)

        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]  # stochastic depth decay rule
        self.blocks = nn.ModuleList([
            CSWinBlock(
                dim=embed_dim, reso=img_size // patch_size, num_heads=num_heads[i], mlp_ratio=mlp_ratio,
                qkv_bias=qkv_bias, qk_scale=qk_scale, drop=drop_rate, attn_drop=attn_drop_rate,
                drop_path=dpr[sum(depths[:i]):sum(depths[:i + 1])], norm_layer=norm_layer,
                last_stage=(i == len(depths) - 1))
            for i in range(len(depths))])

        self.norm = norm_layer(embed_dim)

        self.head = nn.Linear(embed_dim, num_classes) if num_classes > 0 else nn.Identity()

        trunc_normal_(self.head.weight, std=0.02)
        zeros_(self.head.bias)

    def init_weights(self, pretrained=None):
        if isinstance(pretrained, str):
            logger = get_root_logger()
            load_checkpoint(self, pretrained, strict=False, logger=logger)
        elif pretrained is None:
            for m in self.modules():
                if isinstance(m, nn.Linear):
                    trunc_normal_(m.weight, std=.02)
                    if isinstance(m, nn.Linear) and m.bias is not None:
                        zeros_(m.bias)
                elif isinstance(m, nn.LayerNorm):
                    ones_(m.weight)
                    zeros_(m.bias)
        else:
            raise TypeError('pretrained must be a str or None')

    def forward(self, x):
        x = self.patch_embed(x)
        x = self.pos_drop(x)

        for blk in self.blocks:
            x = blk(x)

        x = self.norm(x)[:, 0]
        if self.num_classes > 0:
            x = self.head(x)
        return x

这个程序文件是一个用于图像分类的CSWin Transformer模型。它定义了CSWinBlock类和Mlp类,以及一些辅助函数。CSWinBlock类是CSWin Transformer的基本模块,它包含了多头注意力机制和多层感知机。Mlp类是多层感知机的实现。这个程序文件还定义了一些辅助函数,如img2windows和windows2img,用于将图像转换为窗口形式和将窗口形式的图像转换回原始图像形式。

6.系统整体结构

下表总结了每个文件的功能:

文件 功能
export.py 导出模型的功能
predict.py 进行预测的功能
train.py 模型训练的功能
ui.py 提供GUI界面的功能
backbone\convnextv2.py ConvNeXtV2模型的定义和创建
backbone\CSwomTramsformer.py CSwomTramsformer模型的定义和创建
backbone\EfficientFormerV2.py EfficientFormerV2模型的定义和创建
backbone\efficientViT.py efficientViT模型的定义和创建
backbone\fasternet.py fasternet模型的定义和创建
backbone\lsknet.py lsknet模型的定义和创建
backbone\repvit.py repvit模型的定义和创建
backbone\revcol.py revcol模型的定义和创建
backbone\SwinTransformer.py SwinTransformer模型的定义和创建
backbone\VanillaNet.py VanillaNet模型的定义和创建
extra_modules\afpn.py AFPN模块的定义和创建
extra_modules\attention.py 注意力模块的定义和创建
extra_modules\block.py 基础块模块的定义和创建
extra_modules\dynamic_snake_conv.py 动态蛇卷积模块的定义和创建
extra_modules\head.py 模型头部模块的定义和创建
extra_modules\kernel_warehouse.py 卷积核仓库模块的定义和创建
extra_modules\orepa.py OREPA模块的定义和创建
extra_modules\rep_block.py RepBlock模块的定义和创建
extra_modules\RFAConv.py RFAConv模块的定义和创建
models\common.py 通用模型函数和类的定义
models\experimental.py 实验性模型的定义
models\tf.py TensorFlow模型的定义
models\yolo.py YOLO模型的定义
segment\predict.py 分割模型的预测功能
segment\train.py 分割模型的训练功能
segment\val.py 分割模型的验证功能
ultralytics... Ultralytics库的各个模块和功能
utils... 通用工具函数和类的定义

这些文件组成了一个完整的杂草分割系统,包括模型定义、训练、预测、GUI界面等

7.深度学习基础

卷积神经网络通过使用具有共享参数的卷积运算显著降低了模型的计算开销和复杂性。在LeNet、AlexNet和VGG等经典网络的驱动下,卷积神经网络现在已经建立了一个完整的系统,并在深度学习领域形成了先进的卷积神经网络模型。

感受野注意力卷积RFCBAMConv的作者在仔细研究了卷积运算之后获得了灵感。对于分类、目标检测和语义分割任务,一方面,图像中不同位置的对象的形状、大小、颜色和分布是可变的。在卷积操作期间,卷积核在每个感受野中使用相同的参数来提取信息,而不考虑来自不同位置的差分信息。这限制了网络的性能,这已经在最近的许多工作中得到了证实。

另一方面,卷积运算没有考虑每个特征的重要性,这进一步影响了提取特征的有效性,并最终限制了模型的性能。此外,注意力机制允许模型专注于重要特征,这可以增强特征提取的优势和卷积神经网络捕获详细特征信息的能力。因此,注意力机制在深度学习中得到了广泛的应用,并成功地应用于各个领域。

通过研究卷积运算的内在缺陷和注意力机制的特点,作者认为现有的空间注意力机制从本质上解决了卷积运算的参数共享问题,但仍局限于对空间特征的认知。对于较大的卷积核,现有的空间注意力机制并没有完全解决共享参数的问题。此外,他们无法强调感受野中每个特征的重要性,例如现有的卷积块注意力模块(CBAM)和 Coordinate注意力(CA)。

因此,参考该博客提出了一种新的感受野注意力机制(RFA),它完全解决了卷积核共享参数的问题,并充分考虑了感受野中每个特征的重要性。通过RFA设计的卷积运算(RFAConv)是一种新的卷积运算,可以取代现有神经网络中的标准卷积运算。RFAConv通过添加一些参数和计算开销来提高网络性能。

大量关于Imagnet-1k、MS COCO和VOC的实验已经证明了RFAConv的有效性。作为一种由注意力构建的新型卷积运算,它超过了由CAM、CBAM和CA构建的卷积运算(CAMConv、CBAMConv、CAConv)以及标准卷积运算。

此外,为了解决现有方法提取感受野特征速度慢的问题,提出了一种轻量级操作。在构建RFAConv的过程中,再次设计了CA和CBAM的升级版本,并进行了相关实验。作者认为当前的空间注意力机制应该将注意力放在感受野空间特征上,以促进当前空间注意力机制的发展,并再次增强卷积神经网络架构的优势。

8.卷积神经网络架构

出色的神经网络架构可以提高不同任务的性能。卷积运算作为卷积神经网络的一种基本运算,推动了人工智能的发展,并为车辆检测、无人机图像、医学等先进的网络模型做出了贡献。He等人认为随着网络深度的增加,该模型将变得难以训练并产生退化现象,因此他们提出了残差连接来创新卷积神经网络架构的设计。Huang等人通过重用特征来解决网络梯度消失问题,增强了特征信息,他们再次创新了卷积神经网络架构。

通过对卷积运算的详细研究,Dai等人认为,具有固定采样位置的卷积运算在一定程度上限制了网络的性能,因此提出了Deformable Conv,通过学习偏移来改变卷积核的采样位置。在Deformable Conv的基础上,再次提出了Deformable Conv V2和Deformable Conv V3,以提高卷积网络的性能。

Zhang等人注意到,组卷积可以减少模型的参数数量和计算开销。然而,少于组内信息的交互将影响最终的网络性能。1×1的卷积可以与信息相互作用。然而,这将带来更多的参数和计算开销,因此他们提出了无参数的"通道Shuffle"操作来与组之间的信息交互。

Ma等人通过实验得出结论,对于参数较少的模型,推理速度不一定更快,对于计算量较小的模型,推理也不一定更快。经过仔细研究提出了Shufflenet V2。

YOLO将输入图像划分为网格,以预测对象的位置和类别。经过不断的研究,已经提出了8个版本的基于YOLO的目标检测器,如YOLOv5、YOLOv7、YOLOv8等。上述卷积神经网络架构已经取得了巨大的成功。然而,它们并没有解决提取特征过程中的参数共享问题。本文的工作从注意力机制开始,从一个新的角度解决卷积参数共享问题。

9.注意力机制

注意力机制被用作一种提高网络模型性能的技术,使其能够专注于关键特性。注意力机制理论已经在深度学习中建立了一个完整而成熟的体系。Hu等人提出了一种Squeeze-and-Excitation(SE)块,通过压缩特征来聚合全局通道信息,从而获得与每个通道对应的权重。Wang等人认为,当SE与信息交互时,单个通道和权重之间的对应关系是间接的,因此设计了高效通道注Efficient Channel Attention力(ECA),并用自适应kernel大小的一维卷积取代了SE中的全连接(FC)层。Woo等人提出了卷积块注意力模块(CBAM),它结合了通道注意力和空间注意力。作为一个即插即用模块,它可以嵌入卷积神经网络中,以提高网络性能。

尽管SE和CBAM已经提高了网络的性能。Hou等人仍然发现压缩特征在SE和CBAM中丢失了太多信息。因此,他们提出了轻量级Coordinate注意力(CA)来解决SE和CBAM中的问题。Fu等人计了一个空间注意力模块和通道注意力模块,用于扩展全卷积网络(FCN),分别对空间维度和通道维度的语义相关性进行建模。Zhang等人在通道上生成不同尺度的特征图,以建立更有效的通道注意力机制。

本文从一个新的角度解决了标准卷积运算的参数共享问题。这就是将注意力机制结合起来构造卷积运算。尽管目前的注意力机制已经获得了良好的性能,但它们仍然没有关注感受野的空间特征。因此,设计了具有非共享参数的RFA卷积运算,以提高网络的性能。

回顾标准卷积

以标准卷积运算为基础构建卷积神经网络,通过共享参数的滑动窗口提取特征信息,解决了全连接层构建的神经网络的固有问题(即参数数量大、计算开销高)。

设表示输入特征图,其中、和分别表示特征图的通道数、高度和宽度。为了能够清楚地展示卷积核提取特征信息的过程,以为例。提取每个感受野slider的特征信息的卷积运算可以表示如下:

这里,表示在每次卷积slider操作之后获得的值,表示在每个slider内的相应位置处的像素值。表示卷积核,表示卷积核中的参数数量,表示感受野slider的总数。

可以看出,每个slider内相同位置的特征共享相同的参数。因此,标准的卷积运算无法感知不同位置带来的差异信息,这在一定程度上限制了卷积神经网络的性能。

回顾空间注意力

目前,空间注意力机制使用通过学习获得的注意力图来突出每个特征的重要性。与上一节类似,以为例。突出关键特征的空间注意力机制可以简单地表达如下:

这里,表示在加权运算之后获得的值。和分别表示输入特征图和学习注意力图在不同位置的值,是输入特征图的高度和宽度的乘积,表示像素值的总数。一般来说,整个过程可以简单地表示在图1中。

空间注意力与标准卷积

众所周知,将注意力机制引入卷积神经网络可以提高网络的性能。通过标准的卷积运算和对现有空间注意力机制的仔细分析。作者认为空间注意力机制本质上解决了卷积神经网络的固有缺点,即共享参数的问题。

目前,该模型最常见的卷积核大小为1×1和3×3。引入空间注意力机制后用于提取特征的卷积操作是1×1或3×3卷积操作。这个过程可以直观地显示出来。空间注意力机制被插入到1×1卷积运算的前面。通过注意力图对输入特征图进行加权运算(Re-weight"×"),最后通过1×1卷积运算提取感受野的slider特征信息。

整个过程可以简单地表示如下:

这里,卷积核仅表示一个参数值。如果将的值作为一个新的卷积核参数,那么有趣的是,通过1×1卷积运算提取特征时的参数共享问题得到了解决。然而,空间注意力机制的传说到此结束。当空间注意力机制被插入到3×3卷积运算的前面时。具体情况如下:

如上所述,如果取的值。作为一种新的卷积核参数,上述方程完全解决了大规模卷积核的参数共享问题。然而,最重要的一点是,卷积核在每个感受野slider中提取将共享部分特征的特征。换句话说,在每个感受野slider内都会有重叠。

经过仔细分析发现,,...,空间注意力图的权重在每个slider内共享。因此,空间注意机制不能解决大规模卷积核共享参数的问题,因为它们不注意感受野的空间特征。在这种情况下,空间注意力机制是有限的。

创新空间注意力与标准卷积

RFA是为了解决空间注意力机制问题而提出的,创新了空间注意力。使用与RFA相同的思想,一系列空间注意力机制可以再次提高性能。RFA设计的卷积运算可以被视为一种轻量级的即插即用模块,以取代标准卷积,从而提高卷积神经网络的性能。因此,作者认为空间注意力机制和标准卷积在未来将有一个新的春天。

感受野的空间特征:

现在给出感受野空间特征的定义。它是专门为卷积核设计的,并根据kernel大小动态生成,如图2所示,以3×3卷积核为例。

在图2中,"空间特征"表示原始特征图,等于空间特征。"感受野空间特征"表示变换后的特征,该特征由每个感受野slider滑块组成,并且不重叠。也就是说,"感受野空间特征"中的每个3×3大小的slider表示提取原始3×3卷积特征时所有感觉野slider的特征。

感受野注意力卷积(RFA):

关于感受野空间特征,该博客的作者提出了感受野注意(RFA),它不仅强调了感受野slider内各种特征的重要性,而且还关注感受野空间特性,以彻底解决卷积核参数共享的问题。感受野空间特征是根据卷积核的大小动态生成的,因此,RFA是卷积的固定组合,不能脱离卷积运算的帮助,卷积运算同时依赖RFA来提高性能。

因此,作者提出了感受野注意力卷积(RFAConv)。具有3×3大小卷积核的RFAConv的总体结构如图3所示。

目前,提取感受野特征最常用的方法速度较慢,因此经过不断探索提出了一种快速的方法,通过分组卷积来取代原来的方法。

具体来说,根据感受野大小,使用相应的组卷积大小来动态生成展开特征。尽管与原始的无参数方法(如Pytorch提供的nn.Unfld())相比,该方法添加了一些参数,但速度要快得多。

注意:正如在上一节中提到的,当原始的3×3卷积核提取特征时,感受野空间特征中的每个3×3大小的窗口表示所有感受野滑块的特征。但在快速分组卷积提取感受野特征后,由于原始方法太慢,它们会被映射到新的特征中。

最近的一些工作已经证明信息交互可以提高网络性能。类似地,对于RFAConv,与感受野特征信息交互以学习注意力图可以提高网络性能,但与每个感受野特征交互将带来额外的计算开销。为了确保少量的计算开销和参数数量,通过探索使用AvgPool池化每个感受野特征的全局信息,然后通过1×1组卷积运算与信息交互。最后,softmax用于强调感受野特征中每个特征的重要性。通常,RFA的计算可以表示为:

表示分组卷积,表示卷积核的大小,代表规范化,表示输入特征图,是通过将注意力图与变换的感受野空间特征相乘而获得的。

与CBAM和CA不同,RFA可以为每个感受野特征生成注意力图。标准卷积受到卷积神经网络性能的限制,因为共享参数的卷积运算对位置带来的差异信息不敏感。RFA完全可以解决这个问题,具体细节如下:

由于RFA获得的特征图是"调整形状"后不重叠的感受野空间特征,因此通过池化每个感受野滑块的特征信息来学习学习的注意力图。换句话说,RFA学习的注意力图不再在每个感受野slider内共享,并且是有效的。这完全解决了现有的CA和CBAM对大尺寸kernel的注意力机制中的参数共享问题。

同时,RFA给标准卷积核带来了相当大的好处,但调整形状后,特征的高度和宽度是k倍,需要进行k×k的stride卷积运算,才能提取特征信息。RFAConv创新了标准卷积运算。

此外,空间注意力机制将得到升级,因为作者认为现有的空间注意力机制应该专注于感受野空间特征,以提高网络的性能。众所周知,基于自注意力机制的网络模型取得了巨大的成功,因为它解决了卷积参数共享的问题,并对远程信息进行了建模,但基于自注意力机理的方法给模型带来了巨大的计算开销和复杂性。作者认为通过将一些现有空间注意力机制的注意力放在感受野空间特征中,它以轻量级的方式解决了自注意力机制的问题。

答案如下:

将关注感受野空间特征的空间注意力与卷积相匹配,完全解决了卷积参数共享的问题;

当前的空间注意力机制本身具有考虑远距离信息的特点,它们通过全局平均池化或全局最大池化来获得全局信息,这在一定程度上考虑了远距离信息。

为此,作者设计了一种新的CBAM和CA,称为RFACBAM和RFACA,它专注于感受野的空间特征。与RFA类似,使用stride为k的k×k的最终卷积运算来提取特征信息,具体结构如图4和图5所示,将这2种新的卷积方法称为RFCBAMConv和RFCAConv。比较原始的CBAM,使用SE注意力来代替RFCBAM中的CAM。因为这样可以减少计算开销。

此外,在RFCBAM中,通道和空间注意力不是在单独的步骤中执行的,因为通道和空间注意力是同时加权的,从而允许在每个通道上获得的注意力图是不同的。

10.训练结果可视化分析

评价指标

epoch:迭代轮数

train/box_loss,train/seg_loss,train/obj_loss,train/cls_loss:训练时的各种损失

metrics/precision(B),metrics/recall(B),metrics/mAP_0.5(B),metrics/mAP_0.5:0.95(B):训练时对于背景类别(B)的精度、召回率和平均精度

metrics/precision(M),metrics/recall(M),metrics/mAP_0.5(M),metrics/mAP_0.5:0.95(M):训练时对于杂草类别(M)的精度、召回率和平均精度

val/box_loss,val/seg_loss,val/obj_loss,val/cls_loss:验证时的各种损失

x/lr0,x/lr1,x/lr2:学习率

训练结果可视化

为了更好地理解这些数据,并进行详细的数据分析,我将进行以下步骤:

损失分析:检查训练和验证损失如何随着迭代轮数的变化。

精度和召回率分析:分析模型在不同类别(背景和杂草)上的精度和召回率。

平均精度分析:分析模型的平均精度(mAP),这是一个重要的性能指标。

学习率分析:观察学习率如何变化,并分析其对模型性能的影响。

现在,我将开始进行这些分析,并为每个分析创建相应的图表。

python 复制代码
import matplotlib.pyplot as plt
import seaborn as sns

# 设定绘图风格
sns.set(style="whitegrid")

# 1. 损失分析
plt.figure(figsize=(14, 6))

# 训练损失
plt.subplot(1, 2, 1)
plt.plot(data['epoch'], data['train/box_loss'], label='Box Loss')
plt.plot(data['epoch'], data['train/seg_loss'], label='Seg Loss')
plt.plot(data['epoch'], data['train/obj_loss'], label='Obj Loss')
plt.plot(data['epoch'], data['train/cls_loss'], label='Cls Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Training Loss')
plt.legend()

# 验证损失
plt.subplot(1, 2, 2)
plt.plot(data['epoch'], data['val/box_loss'], label='Box Loss')
plt.plot(data['epoch'], data['val/seg_loss'], label='Seg Loss')
plt.plot(data['epoch'], data['val/obj_loss'], label='Obj Loss')
plt.plot(data['epoch'], data['val/cls_loss'], label='Cls Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Validation Loss')
plt.legend()

plt.tight_layout()
plt.show()

# 2. 精度和召回率分析
plt.figure(figsize=(14, 6))

# 背景类别精度和召回率
plt.subplot(1, 2, 1)
plt.plot(data['epoch'], data['metrics/precision(B)'], label='Precision (B)')
plt.plot(data['epoch'], data['metrics/recall(B)'], label='Recall (B)')
plt.xlabel('Epoch')
plt.ylabel('Value')
plt.title('Background Class Precision & Recall')
plt.legend()

# 杂草类别精度和召回率
plt.subplot(1, 2, 2)
plt.plot(data['epoch'], data['metrics/precision(M)'], label='Precision (M)')
plt.plot(data['epoch'], data['metrics/recall(M)'], label='Recall (M)')
plt.xlabel('Epoch')
plt.ylabel('Value')
plt.title('Weed Class Precision & Recall')
plt.legend()

plt.tight_layout()
plt.show()

# 3. 平均精度分析
plt.figure(figsize=(14, 6))

plt.plot(data['epoch'], data['metrics/mAP_0.5(B)'], label='mAP_0.5 (B)')
plt.plot(data['epoch'], data['metrics/mAP_0.5:0.95(B)'], label='mAP_0.5:0.95 (B)')
plt.plot(data['epoch'], data['metrics/mAP_0.5(M)'], label='mAP_0.5 (M)')
plt.plot(data['epoch'], data['metrics/mAP_0.5:0.95(M)'], label='mAP_0.5:0.95 (M)')
plt.xlabel('Epoch')
plt.ylabel('mAP')
plt.title('Mean Average Precision (mAP) for Background and Weed Classes')
plt.legend()

plt.tight_layout()
plt.show()

# 4. 学习率分析
plt.figure(figsize=(7, 4))
plt.plot(data['epoch'], data['x/lr0'], label='LR0')
plt.plot(data['epoch'], data['x/lr1'], label='LR1')
plt.plot(data['epoch'], data['x/lr2'], label='LR2')
plt.xlabel('Epoch')
plt.ylabel('Learning Rate')
plt.title('Learning Rate Changes Over Epochs')
plt.legend()

plt.tight_layout()
plt.show()



损失分析

训练损失:随着迭代次数的增加,所有四种损失(Box Loss, Seg Loss, Obj Loss, Cls Loss)都呈下降趋势。这表明模型在训练过程中逐渐学习并改进其预测。

验证损失:验证损失也呈下降趋势,这表明模型在未见过的数据上同样表现良好。这是避免过拟合的一个好迹象。

11.系统整合

下图完整源码&数据集&环境部署视频教程&自定义UI界面

参考博客《【改进YOLOv8】融合感受野注意力卷积RFCBAMConv的杂草分割系统》

12.参考文献


[1]郑三婷.浅谈MATLAB仿真在数字图像处理课程中的应用[J].电子制作.2020,(8).

[2]张有春.基于卷积神经网络的杂草快速识别研究[J].安徽农业科学.2019,(14).DOI:10.3969/j.issn.0517-6611.2019.14.071 .

[3]耿蕊,于晓敏,迟立颖.基于MATLAB图像处理的农业杂草种类识别研究[J].信息通信.2018,(7).DOI:10.3969/j.issn.1673-1131.2018.07.026 .

[4]李昌盛,王亚娟,黄启俊,等.基于FPGA的人脸检测系统设计[J].电子技术应用.2011,(10).DOI:10.3969/j.issn.0258-7998.2011.10.007 .

[5]颜世利.灰度图像阈值分割的自适应滤波和快速算法研究[J].桂林理工大学.2018.

[6]吴国瑞.基于图像处理的杂草种类识别技术研究[D].2009.

[7]王树文,张长利,房俊龙.基于计算机视觉的田间杂草识别研究[C].2005.

相关推荐
985小水博一枚呀35 分钟前
【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法
人工智能·深度学习·神经网络·cnn·transformer
AltmanChan36 分钟前
大语言模型安全威胁
人工智能·安全·语言模型
985小水博一枚呀40 分钟前
【深度学习滑坡制图|论文解读2】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法
人工智能·深度学习·神经网络·cnn·transformer·迁移学习
数据与后端架构提升之路1 小时前
从神经元到神经网络:深度学习的进化之旅
人工智能·神经网络·学习
爱技术的小伙子1 小时前
【ChatGPT】如何通过逐步提示提高ChatGPT的细节描写
人工智能·chatgpt
深度学习实战训练营2 小时前
基于CNN-RNN的影像报告生成
人工智能·深度学习
昨日之日20064 小时前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_4 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover4 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川5 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程