深度学习基础

EEPI2024-02-18 17:20

深度学习基础

[high variance/data mismatch](#high variance/data mismatch)
- [what is data mismatch](#what is data mismatch)
- [how to solve data mismatch](#how to solve data mismatch)
- [data synthesis数据合成](#data synthesis数据合成)
迁移学习与预训练/微调
- 什么时候用迁移学习

high variance/data mismatch

what is data mismatch

如果训练集和验证集的loss不一样，且验证集的loss高很多，有2种原因：

1.方差太大。模型没见过，没学习到；

2.数据不匹配。训练集和验证集的数据分布不同。

how to solve data mismatch

currently no systematic ways to solve, so try:

manually error analysis
make training and dev sets more similar.

data synthesis数据合成

make similar的方法包括数据合成。比如含有噪音的音频。

但是要注意：噪音背景需要和清晰的音频一样diverse，不能音频有1000条，噪音只有1条，要不然可能过拟合。

该方法在音频识别种效果很好。

迁移学习与预训练/微调

迁移学习是原本适用于taskA的模型同样应用在taskB。

为了能够使其适用于TaskB，需要对模型进行进一步训练，这个过程取决于taskB的样本数量。

如果样本数量较少，就重新训练最后一层layer或最后几层，其他layers固定不变；
如果样本数量很多，可以对整个模型重新进行训练。
对于最终的taskB来说，taskA过程的训练就是预训练，对于taskB的训练是微调。

什么时候用迁移学习

taskA和taskB输入相同，如都是图片
taskA的样本远多于taskB
taskA的低层次特征low level features有助于taskB

上一篇：[AIGC ~ coze] Kafka 消费者——从源码角度深入理解

下一篇：Jenkins 发布.NET项目到Docker

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 07AI科技热点日报 | 2026年07月01日 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一 102026 年 AI 大模型 & AI 编程工具实战全总结