机器学习(二十一):错误分析、创造数据和迁移学习

一、错误分析

假设交叉验证集一共有500个数据点,模型拟合结果中,有100个数据点有误。

错误分析就是,手动地分析这100个错误数据(或随机选择一些错误数据),根据它们的共同属性、共同特征分类,然后根据特征进一步优化模型。

二、创造数据

首先,获取大量数据的成本很高,错误分析可以告诉我们,着重获取某一方面/特征的数据,而不是获取所有数据,可以减少成本。

当需要获取更多数据时,常用的添加数据的方法有数据增强和数据合成:

2.1 数据增强

数据增强:对原数据进行扭曲或改变,创造更多格外数据,常用于图像和语言类型的任务

例如,图像识别:通过把已有的图像进行旋转、放大、缩小、调整对比度、镜像、网格扭曲图像,创造更多的额外数据

语音识别:增加噪音背景,降低音质(像是在坏的录音机录制一样的声音)

2.2 数据合成

数据合成:创造合成,主要应用于计算机视觉任务。

例如:识别图像中文字的任务:可以在文本编辑器随机敲入一些文本,把不同字体、对比度、颜色的字体进行截图,创造合成数据。

三、迁移学习

对于没有大量数据的学习任务,可以使用迁移学习,使用来自不同任务的数据来帮助训练模型。

第一步:监督预训练

在拥有大型数据集的任务中,预先训练神经网络。例如此任务从大量图片中训练识别1000种分类:猫、狗、车、人等等,训练出隐藏层的参数。

第二步:微调

在数据量小的任务中,使用预先训练好的神经网络,隐藏层参数使用预先训练出的参数,然后使用本任务的数据进行参数微调。例如本任务需要从少量图片中训练识别数字0-9,可以使用上一步训练好的参数w1-w4,b1-b4,然后使用本任务的输入图片微调参数。

如果数据量很小,就只需要微调输出层参数;如果数据量大,可以微调所有参数。

微调的前提是使用和预训练相同类型的输入。

常用的操作:

  1. 下载具有相同类型的、在大型数据集上预先训练过的神经网络
  2. 使用自己的数据进行微调

四、机器学习项目的完整周期

机器学习项目的完整周期:

部署到生产环境以后,需要继续监控系统和维护系统,如果有需要,需要获取更多数据,重新训练模型。

学习来源:吴恩达机器学习,13.1-13.6节

相关推荐
UWA几秒前
GPM 2.0全新功能发布|GPU精准监测 + 精细化运营,重构游戏性能管控新范式
人工智能·游戏·性能优化·重构·游戏开发·uwa
无心水4 分钟前
【Stable Diffusion 3.5 FP8】1、Stable Diffusion 3.5 FP8 入门指南:为什么它能颠覆文生图效率?
人工智能·python·深度学习·机器学习·stable diffusion·ai镜像开发·ai镜像
Elastic 中国社区官方博客4 分钟前
Elasticsearch:使用 ES|QL 与 dense_vector 字段
大数据·数据库·人工智能·sql·elasticsearch·搜索引擎·全文检索
沉木渡香6 分钟前
AI驱动:我的系统化探索与成长之年(2025)
人工智能·年终总结·2025·ai驱动
OpenCSG8 分钟前
高性能 · 低门槛| i20 & RTX 4090 正式上线 OpenCSG 社区与三峡传神社区!
人工智能·opencsg
IT_陈寒13 分钟前
Redis性能提升50%的7个实战技巧,连官方文档都没讲全!
前端·人工智能·后端
小女孩真可爱14 分钟前
大模型学习记录(九)-------Agent
人工智能·pytorch·深度学习·学习·大模型
natide15 分钟前
词汇/表达差异-6-n-gram分布距离
人工智能·python·算法
偶信科技15 分钟前
自容式水听器是什么?偶信科技为您解答
人工智能·科技·偶信科技·ocean·自容式水听器·海洋仪器·海洋设备
躺柒20 分钟前
读人机沟通法则:理解数字世界的设计与形成04机器是不完整的
大数据·人工智能·ai·人机交互·人机对话