数据集获取与整理

目录

数据获取的常见方法

  • 开源数据集:Hugging Face平台,下载常见数据集
  • 外包平台(Amazon Mechanical Turk,阿里众包,百度数据众包,京东微工等)
  • 自己采集与标注
  • 通过网络爬虫获取

爬虫工具使用

搜索引擎图片爬虫

视频网站爬虫

更多的爬虫

数据检查与清洗

  • 图片的清洗
  • 损坏的图片
  • 动态
  • 尺寸异常的图片,如过高或过宽
  • 文本的清洗
  • 停用词
  • 特殊符号
  • nltj库提供了很多数据清洗的工具
  • 图片归一化:
  • 格式归一化(类型、命名归一化)
  • 内容纠错
  • 拼写纠正、语法纠正

数据去重

  • 名字或分辨率不同,但实际内容相同的数据
  • 通过hashlib库去掉md5相同的文件
  • 连续视频帧,相似文档,噪声污染等
  • 常见的相似度准则:MSE距离、leveshtein距离、DNN特征距离...

数据集划分

  • 训练集、验证集、测试集3个不相交的子集
  • 验证集:用于优化模型训练中的超参数
  • 数据集难度划分
  • WIDER FACE,Easy set、Medium set、Hard set
  • PASCAL VOC,Difficult标注

数据标注

  • Label Studio

数据增强

  • 数据增强(Data Augmentation)也叫数据扩增、数据增广
  • 从有限的数据产生更多的变种
  • 降低数据采集成本
  • 模型过拟合风险降低,提高模型泛化能力

图片数据增强

  • 单样本数据增强
  • 采用固定的预设规则进行数据扩增:如图片翻转、裁剪、缩放、旋转
  • 仿射与透视变换
  • 像素变换-添加噪声:如不规则的黑色或彩色斑点
  • 像素变换-添加模糊:高斯模糊、超像素
  • 像素变换-颜色扰动:改变颜色、亮度、对比度等
  • 像素变换-综合变换
  • 多样本数据增强
  • SamplePairing操作
  • Mixup:加权融合
  • CutMix:丰富背景,缓解类别不平衡问题
  • Mosaic
  • 样本生成
  • 生成对抗网络与扩散模型

数据增强库imgaug

python 复制代码
pip install imgaug
相关推荐
JOJO数据科学6 小时前
JupyterLab Electron 鸿蒙 PC 适配全记录:从 Python 原生崩溃到 node-static 本地工作台
python·electron·harmonyos
xufengzhu6 小时前
第三方 Python 库 redis-py + hiredis 的使用
开发语言·redis·python
llxxyy卢6 小时前
polar夏季赛部分题目
开发语言·python
闵孚龙6 小时前
PyTorch 系列 之 nn.Module:所有模型的骨架
人工智能·pytorch·python
AI玫瑰助手6 小时前
Python模块:from...import...导入指定内容
开发语言·python·信息可视化
小森林之主6 小时前
Python re 模块速查:从实战对比中掌握正则表达式
python·正则表达式·性能测试·re模块·编程实战
郭wes代码7 小时前
Win10 拒绝访问、长期关机自动维护与声音图标灰色故障解决记录
windows·python·开源
伊布拉西莫7 小时前
LangChain LCEL源码深度剖析
python·langchain
用心_承载未来7 小时前
从“复制链接→打开APP“到“一键解析“:我做了个短视频去水印工具
python·去水印·短视频去水印
TYUT_xiaoming7 小时前
yolo模型训练
人工智能·python·yolo