计算机视觉8 图像增广

图像增广(image augmentation)是通过对训练图像进行一系列随机改变,从而产生相似但又不同的训练样本的技术。

图像增广有以下两个主要作用:

  1. 扩大训练数据集的规模;
  2. 随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。

例如,通过不同方式裁剪图像,使感兴趣的物体出现在不同位置,可以减轻模型对物体出现位置的依赖性;调整亮度、色彩等因素能降低模型对色彩的敏感度。

一些常见的图像增广方法包括:

  1. 翻转 :如左右翻转(通过torchvision.transforms.RandomHorizontalFliptf.image.random_flip_left_right实现)和上下翻转(通过torchvision.transforms.RandomVerticalFliptf.image.random_flip_up_down实现),通常不会改变对象的类别。
  2. 随机裁剪 :随机裁剪一个面积为原始面积一定比例(如10%到100%)的区域,该区域的宽高比也在一定范围内随机取值(如0.5到2),然后将该区域的宽度和高度缩放到指定像素(如200像素)。例如,使用torchvision.transforms.RandomResizedCroptf.image.random_crop
  3. 亮度变化 :将图像的亮度随机调整为原图亮度的一定比例范围(如50%到150%),可通过torchvision.transforms.ColorJitter中的brightness参数或tf.image.random_brightness实现。
  4. 色调变化 :随机更改图像的色调,如使用torchvision.transforms.ColorJitter中的hue参数或tf.image.random_hue
  5. 颜色变化 :还可以同时随机更改图像的亮度、对比度、饱和度和色调,创建torchvision.transforms.ColorJitter实例并设置相应参数即可。
  6. 组合多种方法 :可以使用torchvision.transforms.Compose将多个图像增广方法组合起来应用到图像上。

在实践中,通常仅在训练样本上进行图像增广,而在预测过程中不使用随机操作的图像增广,以获得确切的结果。

相关推荐
gorgeous(๑>؂<๑)5 分钟前
【中国科学院光电研究所-张建林组-AAAI26】追踪不稳定目标:基于外观引导的运动建模在无人机拍摄视频中实现稳健的多目标跟踪
人工智能·机器学习·计算机视觉·目标跟踪·无人机
美狐美颜sdk12 分钟前
企业级直播美颜SDK与动态贴纸SDK开发技术方案拆解与落地实践
android·人工智能·计算机视觉·第三方美颜sdk·人脸美型sdk
不如语冰13 分钟前
AI大模型入门1.1-python基础-数据结构
数据结构·人工智能·pytorch·python·cnn
oscar99923 分钟前
机器学习实战:多项式回归建模——从模拟数据到模型评估
人工智能·机器学习·回归
五羟基己醛27 分钟前
【半小时入门深度学习】从零开始的Pytorch入门指南
人工智能·深度学习
喜欢吃豆27 分钟前
企业级 AI 系统分层存储架构深度研究报告
人工智能·架构·大模型·2025博客之星
北京地铁1号线29 分钟前
BERT(Bidirectional Encoder Representations from Transformers)架构详解
人工智能·深度学习·bert
低调小一30 分钟前
Kotlin 2025–2026 客户端开发路线:语言升级 × 跨端落地 × AI Agent 入门
开发语言·人工智能·kotlin
ThinkPet44 分钟前
【AI】大模型知识入门扫盲以及SpringAi快速入门
java·人工智能·ai·大模型·rag·springai·mcp
汽车仪器仪表相关领域1 小时前
双组分精准快检,汽修年检利器:MEXA-324M汽车尾气测量仪项目实战全解
大数据·人工智能·功能测试·测试工具·算法·机器学习·压力测试