数据集获取与整理

目录

数据获取的常见方法

  • 开源数据集:Hugging Face平台,下载常见数据集
  • 外包平台(Amazon Mechanical Turk,阿里众包,百度数据众包,京东微工等)
  • 自己采集与标注
  • 通过网络爬虫获取

爬虫工具使用

搜索引擎图片爬虫

视频网站爬虫

更多的爬虫

数据检查与清洗

  • 图片的清洗
  • 损坏的图片
  • 动态
  • 尺寸异常的图片,如过高或过宽
  • 文本的清洗
  • 停用词
  • 特殊符号
  • nltj库提供了很多数据清洗的工具
  • 图片归一化:
  • 格式归一化(类型、命名归一化)
  • 内容纠错
  • 拼写纠正、语法纠正

数据去重

  • 名字或分辨率不同,但实际内容相同的数据
  • 通过hashlib库去掉md5相同的文件
  • 连续视频帧,相似文档,噪声污染等
  • 常见的相似度准则:MSE距离、leveshtein距离、DNN特征距离...

数据集划分

  • 训练集、验证集、测试集3个不相交的子集
  • 验证集:用于优化模型训练中的超参数
  • 数据集难度划分
  • WIDER FACE,Easy set、Medium set、Hard set
  • PASCAL VOC,Difficult标注

数据标注

  • Label Studio

数据增强

  • 数据增强(Data Augmentation)也叫数据扩增、数据增广
  • 从有限的数据产生更多的变种
  • 降低数据采集成本
  • 模型过拟合风险降低,提高模型泛化能力

图片数据增强

  • 单样本数据增强
  • 采用固定的预设规则进行数据扩增:如图片翻转、裁剪、缩放、旋转
  • 仿射与透视变换
  • 像素变换-添加噪声:如不规则的黑色或彩色斑点
  • 像素变换-添加模糊:高斯模糊、超像素
  • 像素变换-颜色扰动:改变颜色、亮度、对比度等
  • 像素变换-综合变换
  • 多样本数据增强
  • SamplePairing操作
  • Mixup:加权融合
  • CutMix:丰富背景,缓解类别不平衡问题
  • Mosaic
  • 样本生成
  • 生成对抗网络与扩散模型

数据增强库imgaug

python 复制代码
pip install imgaug
相关推荐
清水白石00811 小时前
从脚本到系统:设计一个支持插件、限流、重试与监控的 Python 异步爬虫框架
网络·爬虫·python
deepin_sir11 小时前
02 - 第一个 Python 程序
开发语言·python
徐先生 @_@|||11 小时前
pycharm/IDEA + markdown + 图床(PicList)
ide·python·pycharm·intellij-idea
ZHW_AI课题组11 小时前
基于PCA与HOG特征融合的热轧钢带缺陷检测
人工智能·python·机器学习
MediaTea11 小时前
DL:扩散模型的基本原理与 PyTorch 实现
人工智能·pytorch·python·深度学习·机器学习
programhelp_11 小时前
Ramp OA 四关全过,CodeSignal OOD 完整复盘
linux·前端·python
Chasing__Dreams11 小时前
大模型应用开发--0--知识点
python
清风一徐11 小时前
Python文件处理
开发语言·python
nbsaas-boot11 小时前
Drools 规则引擎实战:原理、规则语法、数据库动态规则与企业级玩法
java·数据库·python