数据集获取与整理

数据获取的常见方法

开源数据集：Hugging Face平台，下载常见数据集
外包平台（Amazon Mechanical Turk，阿里众包，百度数据众包，京东微工等）
自己采集与标注
通过网络爬虫获取

爬虫工具使用

搜索引擎图片爬虫

支持Google，Bing，百度等网站，有GUI使用界面
地址：https://github.com/sczhengyabin/Image-Downloader

视频网站爬虫

支持主流视频网站（腾讯视频，抖音等）
地址：https://github.com/iawia002/lux

数据检查与清洗

图片的清洗

损坏的图片

动态

尺寸异常的图片，如过高或过宽

文本的清洗

停用词

特殊符号

nltj库提供了很多数据清洗的工具

图片归一化：

格式归一化(类型、命名归一化)

内容纠错

拼写纠正、语法纠正

数据去重

名字或分辨率不同，但实际内容相同的数据

通过hashlib库去掉md5相同的文件

连续视频帧，相似文档，噪声污染等

常见的相似度准则：MSE距离、leveshtein距离、DNN特征距离...

数据集划分

训练集、验证集、测试集3个不相交的子集

验证集：用于优化模型训练中的超参数

数据集难度划分

WIDER FACE,Easy set、Medium set、Hard set

PASCAL VOC,Difficult标注

数据标注

Label Studio

多模态数据标注工具，可以标注语音、文本、图片、视频等数据

https://github.com/HumanSignal/label-studio

数据增强

数据增强（Data Augmentation）也叫数据扩增、数据增广

从有限的数据产生更多的变种

降低数据采集成本

模型过拟合风险降低，提高模型泛化能力

图片数据增强

单样本数据增强

采用固定的预设规则进行数据扩增：如图片翻转、裁剪、缩放、旋转

仿射与透视变换

像素变换-添加噪声：如不规则的黑色或彩色斑点

像素变换-添加模糊：高斯模糊、超像素

像素变换-颜色扰动：改变颜色、亮度、对比度等

像素变换-综合变换

多样本数据增强

SamplePairing操作

Mixup：加权融合

CutMix：丰富背景，缓解类别不平衡问题

Mosaic

样本生成

生成对抗网络与扩散模型

数据增强库imgaug

python 复制代码

pip install imgaug

数据集获取与整理

目录

数据获取的常见方法

爬虫工具使用

搜索引擎图片爬虫

视频网站爬虫

更多的爬虫

数据检查与清洗

数据去重

数据集划分

数据标注

数据增强

图片数据增强

数据增强库imgaug