一个简单有效的数据增强技术:data3

在训练图像到图像的生成任务时,经常会需要涉及到对图像做预处理。

一个最普通的预处理方式,就是统一将图像resize到固定的某个分辨率,比如1024×1024或512×512。或者使用random crop 或 center crop,这是学术界常用的建立Baseline结果的快速方法。

但是很多实习生会把这种学术界的常用方法用到工业界的落地实践中。会发现结果和预期相比大相径庭。

经过我的实际探索,发现了一个比较行之有效的数据增强方案,我称之为Data3

具体来说,我需要让模型能够充分利用数据的所有价值,包括全集信息和局部信息。同时,不能破坏数据的原始结构,也就是不能进行过分的缩放,也不能改变图像原始的长宽比。

talk is cheap, here is code

python 复制代码
from dmlutils.image_operations import (
    pad_short_side_to_size,
    resize_short_side_to_size,
    resize_long_side_to_size,
)


def data3_process_xy_pair(name, x, y, size=1024):
    """
    处理图像对 (x, y)
    
    Args:
        name: 数据名称
        x: 输入图像(草稿)
        y: 输出图像(线稿)
        size: 目标尺寸
    
    Yields:
        (name, {"x": x, "y": y})
    """
    assert x.size == y.size
    
    if min(x.size) > size:
        # ===== 大图: 生成2个版本 =====
        # v1: 短边缩放到 size(可随机crop获取局部)
        x1 = resize_short_side_to_size(x, size)
        y1 = resize_short_side_to_size(y, size)
        yield f"{name}_short", {"x": x1, "y": y1}
        
        # v2: 长边缩放 + pad 到 size(获取完整图)
        x2 = pad_short_side_to_size(resize_long_side_to_size(x, size), size)
        y2 = pad_short_side_to_size(resize_long_side_to_size(y, size), size)
        yield f"{name}_long", {"x": x2, "y": y2}
    
    else:
        # ===== 小图: 只生成1个版本 =====
        # 直接 pad 到 size
        x1 = pad_short_side_to_size(x, size)
        y1 = pad_short_side_to_size(y, size)
        yield f"{name}_pad", {"x": x1, "y": y1}


# ===== 使用示例 =====
for name, (x, y) in data_list:
    for out_name, data in data3_process_xy_pair(name, x, y):
        save(out_name, data)

以上代码的库函数来自这里 https://github.com/RaccoonDML/common_utils ,可以直接安装dmlutils包,当然这三个函数逻辑也很简单,自己实现也可以。

结果就是能够简单粗暴的提升模型效果,谁用谁知道(有用的话记得点个star, 没用的话可以回来留下恶评)

此外如果你的任务对结果的某些细节有更高的要求,比如对生成人物的头部或者手部,还可以在data3的基础上加上头部检测或者手部检测

相关推荐
OpenVINO 中文社区4 分钟前
OpenVINO™正式进入 llama.cpp:GGUF 模型现已支持 Intel CPU、GPU 与 NPU
人工智能·openvino·英特尔
ZKNOW甄知科技9 分钟前
数智同行:甄知科技2026年Q1季度回顾
运维·服务器·人工智能·科技·程序人生·安全·自动化
呆呆敲代码的小Y9 分钟前
【Unity工具篇】| 游戏完整资源热更新流程,YooAsset官方示例项目
人工智能·游戏·unity·游戏引擎·热更新·yooasset·免费游戏
jikemaoshiyanshi10 分钟前
B2B企业GEO服务商哪家好?深度解析径硕科技(JINGdigital)及其JINGEO产品为何是首选
大数据·运维·人工智能·科技
Lab_AI10 分钟前
浩天药业携手创腾科技,开启研发数字化新篇章!电子实验记录本(ELN)落地浩天药业
人工智能
supericeice12 分钟前
大模型建筑隐患管理方案怎么做?创邻科技用知识图谱、图数据库和企业AI大脑打通隐患问答、整改与推荐
人工智能·科技·知识图谱
蕤葳-16 分钟前
非编程背景学习AI的方法
人工智能
北京耐用通信19 分钟前
不换设备、不重写程序:耐达讯自动化网关如何实现CC-Link IE转Modbus TCP的高效互通?
人工智能·科技·物联网·网络协议·自动化·信息与通信
计算机毕业设计指导19 分钟前
基于机器学习和深度学习的恶意WebURL检测系统实战详解
人工智能·深度学习·机器学习·网络安全
珂朵莉MM20 分钟前
第七届全球校园人工智能算法精英大赛-算法巅峰赛产业命题赛第3赛季优化题--多策略混合算法
人工智能·算法