目录
数据获取的常见方法
- 开源数据集:Hugging Face平台,下载常见数据集
- 外包平台(Amazon Mechanical Turk,阿里众包,百度数据众包,京东微工等)
- 自己采集与标注
- 通过网络爬虫获取
爬虫工具使用
搜索引擎图片爬虫
- 支持Google,Bing,百度等网站,有GUI使用界面
- 地址:https://github.com/sczhengyabin/Image-Downloader
视频网站爬虫
- 支持主流视频网站(腾讯视频,抖音等)
- 地址:https://github.com/iawia002/lux
更多的爬虫
- 爬虫合集(几乎可以爬取)
- 地址:https://github.com/MStarlogo/awesome-spider
数据检查与清洗
- 图片的清洗
- 损坏的图片
- 动态
- 尺寸异常的图片,如过高或过宽
- 文本的清洗
- 停用词
- 特殊符号
nltj库提供了很多数据清洗的工具
- 图片归一化:
- 格式归一化(类型、命名归一化)
- 内容纠错
- 拼写纠正、语法纠正
数据去重
- 名字或分辨率不同,但实际内容相同的数据
- 通过
hashlib库去掉md5相同的文件
- 连续视频帧,相似文档,噪声污染等
- 常见的相似度准则:MSE距离、leveshtein距离、DNN特征距离...
数据集划分
- 训练集、验证集、测试集3个不相交的子集
- 验证集:用于优化模型训练中的超参数
- 数据集难度划分
- WIDER FACE,Easy set、Medium set、Hard set
- PASCAL VOC,Difficult标注
数据标注
- Label Studio
- 多模态数据标注工具,可以标注语音、文本、图片、视频等数据
- https://github.com/HumanSignal/label-studio
数据增强
- 数据增强(Data Augmentation)也叫数据扩增、数据增广
- 从有限的数据产生更多的变种
- 降低数据采集成本
- 模型过拟合风险降低,提高模型泛化能力
图片数据增强
- 单样本数据增强
- 采用固定的预设规则进行数据扩增:如图片翻转、裁剪、缩放、旋转
- 仿射与透视变换
- 像素变换-添加噪声:如不规则的黑色或彩色斑点
- 像素变换-添加模糊:高斯模糊、超像素
- 像素变换-颜色扰动:改变颜色、亮度、对比度等
- 像素变换-综合变换
- 多样本数据增强
- SamplePairing操作
- Mixup:加权融合
- CutMix:丰富背景,缓解类别不平衡问题
- Mosaic
- 样本生成
- 生成对抗网络与扩散模型
数据增强库imgaug
python
pip install imgaug