计算机视觉8 图像增广

图像增广(image augmentation)是通过对训练图像进行一系列随机改变,从而产生相似但又不同的训练样本的技术。

图像增广有以下两个主要作用:

  1. 扩大训练数据集的规模;
  2. 随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。

例如,通过不同方式裁剪图像,使感兴趣的物体出现在不同位置,可以减轻模型对物体出现位置的依赖性;调整亮度、色彩等因素能降低模型对色彩的敏感度。

一些常见的图像增广方法包括:

  1. 翻转 :如左右翻转(通过torchvision.transforms.RandomHorizontalFliptf.image.random_flip_left_right实现)和上下翻转(通过torchvision.transforms.RandomVerticalFliptf.image.random_flip_up_down实现),通常不会改变对象的类别。
  2. 随机裁剪 :随机裁剪一个面积为原始面积一定比例(如10%到100%)的区域,该区域的宽高比也在一定范围内随机取值(如0.5到2),然后将该区域的宽度和高度缩放到指定像素(如200像素)。例如,使用torchvision.transforms.RandomResizedCroptf.image.random_crop
  3. 亮度变化 :将图像的亮度随机调整为原图亮度的一定比例范围(如50%到150%),可通过torchvision.transforms.ColorJitter中的brightness参数或tf.image.random_brightness实现。
  4. 色调变化 :随机更改图像的色调,如使用torchvision.transforms.ColorJitter中的hue参数或tf.image.random_hue
  5. 颜色变化 :还可以同时随机更改图像的亮度、对比度、饱和度和色调,创建torchvision.transforms.ColorJitter实例并设置相应参数即可。
  6. 组合多种方法 :可以使用torchvision.transforms.Compose将多个图像增广方法组合起来应用到图像上。

在实践中,通常仅在训练样本上进行图像增广,而在预测过程中不使用随机操作的图像增广,以获得确切的结果。

相关推荐
小程故事多_801 分钟前
[大模型面试系列] RAG系统检索失效全链路排查指南,从根源定位到落地优化方法
人工智能·智能体
圣殿骑士-Khtangc2 分钟前
AI Agent Skills 数量爆炸治理方案:从混沌到有序的系统性实践
人工智能
汽车仪器仪表相关领域12 分钟前
Kvaser Memorator Professional 5xHS CB:五通道CAN FD裸板记录仪,赋能多总线系统集成测试的旗舰级核心装备
大数据·网络·人工智能·单元测试·汽车·集成测试
淡海水14 分钟前
【AI模型】模型量化技术详解
人工智能·算法·机器学习
Zik----15 分钟前
CILP模型讲解
人工智能·python·多模态
牧子川25 分钟前
001-Zero-shot-Prompting
人工智能·大模型·零样本
生成论实验室37 分钟前
《事件关系阴阳博弈动力学:识势应势之道》第八篇:认知与反思关系——探索、定位与延续
人工智能·算法·架构·知识图谱·创业创新
大树8842 分钟前
液冷从“电老虎“变“热银行“:算力废热如何变成真金白银?
人工智能
E等于MC平方44 分钟前
用 Next.js + Prisma + Gemini 打造 AI 替代风险追踪平台
人工智能·ai·职业·岗位·失业·替代
段一凡-华北理工大学44 分钟前
【高炉炼铁领域炉温监测、预警、调控智能体设计与应用】~系列文章10:实时预警机制:跑在问题前面!
网络·人工智能·python·知识图谱·高炉炼铁·工业智能体