计算机视觉8 图像增广

图像增广(image augmentation)是通过对训练图像进行一系列随机改变,从而产生相似但又不同的训练样本的技术。

图像增广有以下两个主要作用:

  1. 扩大训练数据集的规模;
  2. 随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。

例如,通过不同方式裁剪图像,使感兴趣的物体出现在不同位置,可以减轻模型对物体出现位置的依赖性;调整亮度、色彩等因素能降低模型对色彩的敏感度。

一些常见的图像增广方法包括:

  1. 翻转 :如左右翻转(通过torchvision.transforms.RandomHorizontalFliptf.image.random_flip_left_right实现)和上下翻转(通过torchvision.transforms.RandomVerticalFliptf.image.random_flip_up_down实现),通常不会改变对象的类别。
  2. 随机裁剪 :随机裁剪一个面积为原始面积一定比例(如10%到100%)的区域,该区域的宽高比也在一定范围内随机取值(如0.5到2),然后将该区域的宽度和高度缩放到指定像素(如200像素)。例如,使用torchvision.transforms.RandomResizedCroptf.image.random_crop
  3. 亮度变化 :将图像的亮度随机调整为原图亮度的一定比例范围(如50%到150%),可通过torchvision.transforms.ColorJitter中的brightness参数或tf.image.random_brightness实现。
  4. 色调变化 :随机更改图像的色调,如使用torchvision.transforms.ColorJitter中的hue参数或tf.image.random_hue
  5. 颜色变化 :还可以同时随机更改图像的亮度、对比度、饱和度和色调,创建torchvision.transforms.ColorJitter实例并设置相应参数即可。
  6. 组合多种方法 :可以使用torchvision.transforms.Compose将多个图像增广方法组合起来应用到图像上。

在实践中,通常仅在训练样本上进行图像增广,而在预测过程中不使用随机操作的图像增广,以获得确切的结果。

相关推荐
fundroid几秒前
Superpowers 如何帮助 AI Coding 走上正轨
人工智能·aicoding·superpowsers
發糞塗牆2 分钟前
【Azure 架构师学习笔记 】- Azure AI(23) -AI知识库Agent平台(2)-文档向量化与向量库存储
人工智能·ai·azure
hhzz6 分钟前
Claude Code 实战---开发华尔街日报风格新闻卡片应用
人工智能·大模型·智能体开发·ai编程工具
格林威7 分钟前
Baumer相机芯片引脚共面性检测:保障电子装配精度的 5 个实用方案,附 OpenCV+Halcon 实战代码!
开发语言·人工智能·opencv·计算机视觉·c#·视觉检测·工业相机
心 爱心 爱9 分钟前
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文精读
计算机视觉·transformer·图像识别·vit·特征提取·图像特征提取
irpywp9 分钟前
OfficeCLl:为 AI 智能体而生的 Office 引擎
人工智能·github·开源软件
AI英德西牛仔11 分钟前
ChatGPT Gemini Claude和Grok复制的文字带星号
人工智能·ai·chatgpt·豆包·deepseek·ds随心转
lisw0512 分钟前
生成式学习:AI时代的学习新范式!
人工智能·学习·机器学习
core51214 分钟前
赋予AI真正的“长期记忆”:开源大模型记忆操作系统 MemOS 深度解析与实战
人工智能·开源·大模型·记忆·长期记忆·memos
guoji778817 分钟前
ChatGPT 5.4官网技术内核与行业赋能:2026年国内镜像站实测与高阶应用拆解
人工智能