机器学习 day33(误差分析、添加数据、迁移学习)

  1. 误差分析
  • 我们可以手动查看分类错误的子集样本(通常为100个),并统计他们的错误类型
  • 在所有错误类型中,选择一种或几种最常见的错误,进行改进。这可以最高效的改进你的模型
  • 误差分析的一个限制是:它只能很好的解决人类擅长的问题
  1. 添加数据
  • 添加数据有三种常见方法:直接添加全新的数据,数据增强,数据合成
  • 添加所有类型的全新数据可能又贵又慢,因此添加有针对性的全新数据可以更低成本的改进模型
  • 在图像和音频领域,数据增强是一种显著增加数据集的方法。
  • 数据增强:通过旋转、缩小、方法、增加对比度、镜像变换等改变已有的训练样本,来获得一个全新的训练样本
  • 数据增强的高级变换例子:在图片上加一个网格,并随机扭曲网格,从而获得一个更丰富的数据集
  • 数据增强,是在数据中制造更多的噪音,同时最后的结果应当与测试集接近
  • 数据合成:通常用于计算机视觉领域。上图右侧的例子是使用电脑上的字体,通过不同的对比度,颜色,字体进行截图得到。
  • AI包括代码(算法或模型)+ 数据,通常我们是以模型为中心来改进我们的系统,但也可以以数据为中心来改进我们的系统
  1. 迁移学习
  • 迁移学习分为两步:首先为监督预训练,即在一个非常大且与任务目标不完全相关数据集上对模型进行预训练,其次为微调,即在监督预训练中获得或初始化大部分参数的基础上,根据任务目标相关的数据集,进一步运行梯度下降或Adam算法,来微调所有权重参数或仅获得(改变)输出层参数
  • 微调有两种方法:一种是仅获得(改变)输出层的参数,适用于任务目标相关的数据集比较小。一种是训练所有权重参数,适用于任务目标相关的数据集稍大
  • 迁移学习的一个好处是,我们可以在网络上下载已经预训练完成的神经网络,省去了我们自己进行监督预训练的步骤
  • 由上图可以看出,神经网络在前几层学会了检测边缘,检测角点,检测曲线等通用基本形状,这对神经网络进行其他图片识别任务很有帮助。
  • 迁移学习的一个限制是,预训练和微调的数据集必须是同一个类型的,即都是图像数据或音频数据或文本数据
相关推荐
飞翔的佩奇4 分钟前
【完整源码+数据集+部署教程】 水果叶片分割系统: yolov8-seg-dyhead
人工智能·yolo·计算机视觉·数据集·yolov8·yolo11·水果叶片分割系统
小许学java20 分钟前
Spring AI快速入门以及项目的创建
java·开发语言·人工智能·后端·spring·ai编程·spring ai
人工智能技术派36 分钟前
Qwen-Audio:一种新的大规模音频-语言模型
人工智能·语言模型·音视频
lpfasd12341 分钟前
从OpenAI发布会看AI未来:中国就业市场的重构与突围
人工智能·重构
春末的南方城市1 小时前
清华&字节开源HuMo: 打造多模态可控的人物视频,输入文字、图片、音频,生成电影级的视频,Demo、代码、模型、数据全开源。
人工智能·深度学习·机器学习·计算机视觉·aigc
whltaoin1 小时前
Java 后端与 AI 融合:技术路径、实战案例与未来趋势
java·开发语言·人工智能·编程思想·ai生态
中杯可乐多加冰1 小时前
smardaten AI + 无代码开发实践:基于自然语言交互快速开发【苏超赛事管理系统】
人工智能
Hy行者勇哥1 小时前
数据中台的数据源与数据处理流程
大数据·前端·人工智能·学习·个人开发
岁月宁静2 小时前
AI 时代,每个程序员都该拥有个人提示词库:从效率工具到战略资产的蜕变
前端·人工智能·ai编程
双向332 小时前
Trae Solo+豆包Version1.6+Seedream4.0打造"AI识菜通"
人工智能