深度学习基础与概念笔记

oraen2025-12-15 8:24

相关术语笔记

1. 分类和回归（Classification and Regression）

解释：这是监督学习的两大核心任务。
- 分类：预测离散的类别标签（如"是/否"、"猫/狗/鸟"）。输出是类别。
- 回归：预测连续的数值（如价格、温度、分数）。输出是实数。
举例：
- 分类：医院用X光片判断"是否患肺炎"（二分类）；电商平台识别商品属于哪个品类（多分类）。
- 回归：房产APP根据面积、地段预测房价（比如"85.3万元"）；天气预报预测明天最高气温（23.7℃）。
对比：分类像"选择题"，回归像"填空题"。分类关心"是什么"，回归关心"有多少"。

2. 微调（Fine-tuning）

解释：在已有预训练模型（通常在大规模通用数据上训练过）的基础上，用特定任务的小数据集继续训练，调整部分或全部参数，使其适应新任务。
为什么有效？因为底层特征（如边缘、纹理、词义）具有通用性，无需从头学起。
举例：
- 你在ImageNet上训练好的ResNet（能识别1000种物体），现在想让它识别"不同品种的狗狗"。只需用几百张带标签的狗图微调最后几层，几天就能达到高准确率。
- 用ChatGPT的开源版本LLaMA，在法律文书数据上微调，变成一个"AI律师助手"。
注意：微调 ≠ 从头训练，它快、省算力、适合小数据场景。

3. 学习（Learning）

解释：指模型通过数据自动调整内部参数，以更好地完成某项任务的过程。本质是优化------让预测越来越接近真实答案。
关键机制：通过误差函数计算偏差，再用反向传播+梯度下降更新参数。
举例：
- 就像小孩学骑车：一开始总摔倒（误差大），但每次摔倒后调整身体重心（参数更新），最终学会平衡（误差趋近于零）。
- 模型"学习"不是理解，而是拟合统计规律。

4. 迁移学习（Transfer Learning）

解释：将在一个任务（源任务）中学到的知识，"迁移"到另一个相关但不同的任务（目标任务）中，提升后者的学习效率或性能。
实现方式 ：常通过微调实现，也可冻结部分层做特征提取。
举例：
- 一个在百万张自然图像上学过的CNN，即使没见过医学影像，也能提取出"细胞边界""组织纹理"等有用特征，帮助诊断癌症。
- 语言模型先在维基百科上学"通用知识"，再迁移到客服对话系统中理解用户问题。
与微调关系 ：迁移学习是思想，微调是常用手段。

5. 训练集（Training Set）

解释：用于训练模型的数据子集。模型通过反复"看"这些（输入, 标签）对来调整参数。
要求：应具有代表性、足够大、无严重噪声。
举例：
- 训练人脸识别模型时，训练集包含10万人的100万张带姓名的照片。
注意：不能用训练集评估模型好坏------那就像"考试题提前背过"，会高估能力。

（你列了两次"训练集"，此处合并）

6. 监督学习（Supervised Learning）

解释：训练数据中每条样本都带有"正确答案"（标签），模型学习从输入到输出的映射。
核心：有"老师"（标签）指导学习。
举例：
- 给模型看1000张"标注了'苹果'或'橙子'"的水果照片，它学会区分两者。
- 银行用客户历史数据（收入、信用记录... + 是否违约）训练贷款审批模型。
典型任务：分类、回归。

7. 无监督学习（Unsupervised Learning）

解释：训练数据没有标签，模型需自行发现数据中的结构、模式或分组。
目标：降维、聚类、密度估计等。
举例：
- 电商平台将用户按购物行为自动分成"价格敏感型""品牌忠诚型"等群体（聚类），用于精准营销。
- 用PCA把100维的基因数据压缩到2维，方便科学家可视化。
对比监督学习 ：监督学习像"有标准答案的练习题"，无监督像"自己整理乱书架"------没人告诉你怎么分，但你能找出规律。

8. 自监督学习（Self-supervised Learning）

解释：一种特殊的无监督学习------从数据本身构造监督信号（伪标签），然后像监督学习一样训练。
关键思想："预测被遮盖的部分"或"预测未来"。
举例：
- BERT：把句子"今天[MASK]很好"中的"[MASK]"遮住，让模型猜是"天气"。
- 视频预测：给模型前3帧，让它预测第4帧。
优势：无需人工标注，可利用海量无标签数据（如整个互联网文本）。
与无监督学习对比 ：无监督是"探索式"，自监督是"伪装成监督"的聪明玩法。

9. 生成式模型（Generative Model）

解释：不仅能判别，还能生成与训练数据相似的新样本。它学习的是数据的联合概率分布 P(x, y) 或 P(x)。
代表模型：GAN、VAE、扩散模型、自回归语言模型。
举例：
- MidJourney输入"一只穿西装的柴犬在月球开会"，生成逼真图片。
- ChatGPT续写小说、写邮件、编代码------都是"生成"。
对比判别式模型 （如SVM、普通CNN）：判别式只回答"这是猫吗？"（建模 P(y|x)）；生成式能回答"猫长什么样？"并画出来（建模 P(x)）。

10. 提示词（Prompt）

解释：给大语言模型（LLM）的输入指令，用于引导其生成期望的输出。是人与AI沟通的语言接口。
形式：可以是问题、指令、示例（few-shot）、上下文等。
举例：
- 简单提示："翻译成英文：你好！" → "Hello!"
- 复杂提示："你是一位营养师。为一位糖尿病患者设计一份低GI早餐，列出食材和做法。"
意义：让同一个模型完成千变万化的任务，无需重新训练。

11. 大语言模型（Large Language Model, LLM）

解释：在海量文本上训练的、参数量巨大的神经网络（通常基于Transformer），具备理解与生成人类语言的能力。
特点：涌现能力、上下文学习、可提示性、泛化强。
举例：
- GPT-4、Claude、通义千问、LLaMA------它们能写诗、编程、辩论、总结文档。
- 背后原理：通过预测下一个词（自回归）学习语言的深层结构。
注意：LLM ≠ 有意识，它只是"超级模式匹配器"。

12. 自回归（Autoregressive）

解释：一种生成序列的方式------每次只生成一个元素，且依赖之前已生成的所有元素。
数学形式：P(x₁, x₂, ..., xₙ) = Π P(xₜ | x₁,...,xₜ₋₁)
举例：
- 写作文：先写"春"，接着根据"春"写"春天"，再根据"春天"写"春天来了"，依此类推。
- GPT就是典型的自回归模型：一个词一个词地"吐"出来。
优点：简单、稳定；缺点：无法并行生成（慢）。

13. 训练对（Training Pair）

解释：监督学习中最基本的数据单元，由输入（input）和对应的真实标签（label/ground truth） 组成。
也叫：(x, y) 对。
举例：
- 图像分类：(一张猫的照片, "猫")
- 机器翻译：("你好", "Hello")
- 语音识别：(一段音频, "今天天气不错")
重要性：模型通过大量这样的"问答对"学会映射关系。

14. 泛化能力（Generalization）

解释：模型在未见过的新数据上表现良好的能力。是衡量模型是否"真正学会"而非"死记硬背"的关键。
理想状态：训练误差 ≈ 测试误差。
举例：
- 一个识别交通标志的模型，不仅认得训练时见过的"红底白字停车牌"，也能认出新拍摄角度、雨天模糊的同类标志。
如何提升？更多数据、正则化、简化模型、数据增强等。

15. 误差函数（Loss Function）

解释：量化模型预测值与真实值之间差距的函数。是训练的"指南针"------模型通过最小化损失来学习。
常见类型 ：
- 分类：交叉熵损失（Cross-Entropy Loss）
- 回归：均方误差（Mean Squared Error, MSE）
举例：
- 预测房价：真实价100万，模型预测80万 → MSE = (100−80)² = 400（单位：万元²）
- 分类：模型说"80%是猫"，实际是猫 → 交叉熵较小；若说"20%是猫"，则损失大。
注意：损失函数必须可导，才能用梯度下降优化。

16. 噪声（Noise）

解释：数据中与任务无关的随机干扰或错误信息。可能来自采集设备、人为标注错误、环境干扰等。
类型：
- 特征噪声：图像模糊、录音有杂音
- 标签噪声：把"狗"错标成"猫"
影响：模型可能学到虚假模式，导致泛化变差。
应对：清洗数据、鲁棒损失函数、正则化。

17. 过拟合（Overfitting）

解释：模型在训练集上表现极好（损失很低），但在新数据上表现差------记住了训练数据的细节甚至噪声，而非通用规律。
表现：训练准确率99%，验证准确率60%。
生动比喻 ：学生把模拟题答案全背下来，考试换一道题就懵了。
解决方法：增加数据、正则化（Dropout/L2）、早停、简化模型。

18. 欠拟合（Underfitting）

解释：模型太简单或训练不足，连训练数据的基本规律都没学会。
表现：训练和验证误差都很高。
比喻：学生上课睡觉，连模拟题都做不对。
解决方法：增加模型容量（更深/更宽）、延长训练、改进特征。

过拟合 vs 欠拟合：

过拟合：模型"太聪明"，钻牛角尖。

欠拟合：模型"太笨"，学不会。

理想状态：在两者之间找到平衡（偏差-方差权衡）。

19. 超参数（Hyperparameter）

解释：在训练开始前 设定的、不被模型学习的配置参数。控制模型结构或训练过程。
常见超参数：学习率、批量大小（batch size）、网络层数、Dropout率、优化器类型。
调优方式：网格搜索、随机搜索、贝叶斯优化、人工试错。
举例：
- 学习率太大 → 模型"步子迈太大，错过最低点"；太小 → "蜗牛爬，半天不动"。
注意：超参数选择对性能影响巨大！

20. 验证集（Validation Set）

解释：从训练数据中分出的一部分，不参与参数更新 ，仅用于：
- 评估模型在训练过程中的表现
- 选择最佳超参数
- 决定何时早停（防止过拟合）
与测试集区别 ：验证集用于"调模型"，测试集用于"最终打分"------测试集只能用一次！

21. 交叉验证（Cross-validation, CV）

解释：一种更可靠的模型评估方法，尤其适用于小数据集。将数据分成K份（折），轮流用K−1份训练、1份验证，重复K次取平均性能。
最常见：5折或10折交叉验证。
优点：充分利用数据，减少评估结果的随机性。
举例：
- 只有500个医疗样本？用5折CV：每次用400个训练，100个验证，做5轮，结果更可信。

22. 留一法（Leave-One-Out Cross-validation, LOO-CV）

解释：K = N 的交叉验证（N为样本总数）。每次留一个样本做验证，其余N−1个训练。
优点：几乎无偏（训练集最大）。
缺点：计算量爆炸（N次训练），且验证结果方差大（因每次只验一个样本）。
适用场景：极小数据集（如N<50），且计算资源充足。

对比普通K折CV：LOO更准但更贵，K=5/10是性价比之选。

23. 神经网络（Neural Network）

解释：受生物神经系统启发的计算模型，由大量"神经元"连接而成。每个神经元执行加权求和 + 非线性激活。
核心思想：通过多层非线性变换，从原始输入中逐层提取抽象特征。
举例：
- 输入一张猫图 → 第一层检测边缘 → 第二层组合成眼睛/耳朵 → 最后层判断"是猫"。
现代基石：深度学习 = 深层神经网络 + 大数据 + 强算力。

24. 预激活 / 激活函数 / 激活（Pre-activation / Activation Function / Activation）

预激活（Pre-activation）：神经元的线性输出，即 z=Wx+bz=Wx+b。
激活函数（Activation Function）：引入非线性的函数，如 ReLU(z) = max(0, z)。
激活（Activation）：激活函数的输出，即 a=f(z)a=f(z)，也是下一层的输入。
为什么需要 ？如果没有激活函数，多层网络等价于单层线性模型------无法拟合复杂函数！
常用激活函数：ReLU（最常用）、Sigmoid（老派）、Tanh、GeLU（LLM常用）。

25. 单层网络（Single-layer Network）

解释：只有输入层和输出层，没有隐藏层的神经网络。例如感知机（Perceptron）。
能力限制 ：只能解决线性可分问题（如逻辑AND），无法解决XOR等非线性问题。
历史意义：1950s提出，但因能力有限曾导致"AI寒冬"。
对比深度网络 ：单层网络像"直尺"，只能画直线；深度网络像"万能曲线笔"，能拟合任意形状。

26. 反向传播（Backpropagation）

解释：一种高效计算神经网络中所有参数梯度的算法，基于链式法则（Chain Rule）。
流程：
1. 前向传播：计算预测值和损失
2. 反向传播：从输出层向输入层逐层计算损失对各参数的偏导
3. 更新参数：用梯度下降调整权重
意义：没有反向传播，就没有现代深度学习！
比喻：就像厨师尝汤（损失），发现太咸（误差大），然后逆向检查是盐（哪层权重）放多了，下次少放点。

27. 前馈神经网络（Feedforward Neural Network, FNN）

解释：最基础的神经网络类型，信息单向流动 ：输入 → 隐藏层 → 输出，无环、无反馈。
也叫：多层感知机（MLP）。
特点：结构简单，适合静态输入（如图像、表格数据）。
对比RNN/CNN ： FNN处理"一张图"；RNN处理"一句话"（有序列）；CNN处理"带空间结构的图"。

28. 先验知识 / 归纳偏置（Prior Knowledge / Inductive Bias）

解释：模型对"什么样的解更合理"的内在假设。没有它，模型无法从有限数据中泛化。
举例：
- CNN 的归纳偏置：图像具有局部性 （附近像素相关）、平移不变性（猫在左上角还是右下角都是猫）。
- Transformer 的归纳偏置：通过注意力机制捕捉长距离依赖。
重要性 ：归纳偏置 = 模型的"世界观"。它决定了模型能学什么、不能学什么。

29. 特征提取（Feature Extraction）

解释：从原始数据（如像素、文字）中提取对任务有用的表示（representation）。
传统方法：手工设计（如SIFT、HOG、TF-IDF）。
深度学习方法：自动学习（如CNN卷积层自动学边缘→纹理→部件）。
举例：
- 人脸识别：原始输入是100万像素，特征提取后变成128维"人脸编码"，相似人脸编码接近。
意义：好的特征让后续分类/检测变得简单。

30. 深度网络 / 深度学习（Deep Network / Deep Learning）

解释：包含多个隐藏层（通常≥3）的神经网络。"深度"指层数多。
核心优势 ：层次化表示学习------底层学简单特征（边、角），高层学复杂概念（脸、车）。
为什么近年爆发？大数据 + GPU + ReLU/残差连接等技术解决了训练难题。
应用：图像识别、语音识别、机器翻译、AlphaGo...

31. 表示学习 / 表征学习（Representation Learning）

解释：自动学习数据的有效表示（features/embeddings），使得后续任务（分类、聚类等）更容易。
深度学习的本质：就是强大的表示学习框架。
举例：
- Word2Vec：把单词变成向量，"国王 - 男人 + 女人 ≈ 女王"。
- BERT：把句子变成上下文相关的向量，可用于问答、情感分析等。
目标：让"相似的东西在向量空间中靠近"。

32. 基础模型和通用模型（Foundation Model / General-purpose Model）

解释：在海量通用数据上预训练的大模型，可作为多种下游任务的"基础"。
特点：规模大（数十亿参数以上）、通用性强、可通过微调或提示适配新任务。
代表：GPT系列、BERT、DALL·E、Stable Diffusion。
意义：以前：每个任务都要从头训练一个模型。

现在：一个基础模型 + 不同提示 = 万能工具箱。
与传统模型对比：基础模型是"通才"，传统模型是"专才"。

33. 正则 / 正则化（Regularization）

解释：防止过拟合的技术，通过约束模型复杂度 或引入先验，提升泛化能力。
常见方法 ：
- L2正则（权重衰减）：惩罚大权重，让模型更平滑
- Dropout：训练时随机"关掉"部分神经元，强迫网络不依赖个别节点
- 数据增强：对图像旋转、裁剪，人为扩大数据多样性
- 早停（Early Stopping）：验证损失不再下降时停止训练
比喻：正则化就像给学生划重点范围，防止他钻牛角尖背偏题。

34. 灾难性遗忘（Catastrophic Forgetting）

解释：在持续学习（Continual Learning）中，模型学习新任务时完全覆盖旧知识，导致旧任务性能骤降。
原因：神经网络参数是共享的，新任务的梯度更新会破坏旧任务学到的权重。
举例：
- 先教AI识别猫狗，准确率95%；再教它识别汽车，结果猫狗识别降到30%。
缓解方法 ：
- 经验回放：保留部分旧数据一起训练
- 弹性权重固化（EWC）：保护对旧任务重要的参数
- 多任务学习：同时学多个任务

35. 增量训练 / 重训练（Incremental Training / Retraining）

增量训练（Incremental Training） ：在已有模型基础上，用新数据继续训练。速度快，但可能引发灾难性遗忘。
重训练（Retraining） ：将新旧数据合并，从头开始训练整个模型。更稳定，但成本高。
应用场景 ：
- 增量：推荐系统每天加入新用户行为，快速更新模型。
- 重训练：每年一次大版本升级，确保模型整体一致性。
选择依据：数据量、计算资源、对旧任务性能的要求。

增量训练/重训练：

🌳 深度学习基础概念知识树

1. 学习范式（Learning Paradigms）

1.1 监督学习（Supervised Learning）

定义：使用带标签的数据（输入-输出对）训练模型。
核心任务 ：
- 分类（Classification）
- 回归（Regression）
关键组件 ：
- 训练对（Training Pair）
- 误差函数（Loss Function）
- 泛化能力（Generalization）
典型流程 ：
- 学习（Learning） → 通过反向传播优化参数
- 使用训练集（Training Set）进行参数更新

1.2 无监督学习（Unsupervised Learning）

定义：在无标签数据中发现结构或模式。
典型任务 ：
- 聚类（如用户分群）
- 降维（如PCA）
目标：特征提取（Feature Extraction）、表示学习（Representation Learning）

1.3 自监督学习（Self-supervised Learning）

定义：从无标签数据中自动生成监督信号（伪标签）进行学习。
代表方法 ：
- 掩码语言建模（如BERT）
- 对比学习（如SimCLR）
与无监督关系：是无监督学习的一种高级形式，更具结构性。
应用：大语言模型（LLM）预训练的核心范式

💡 迁移学习（Transfer Learning） 和 微调（Fine-tuning） 是跨范式的策略------通常在自监督/监督预训练后，迁移到下游监督任务。

2. 模型架构（Model Architectures）

2.1 基础神经网络结构

神经网络（Neural Network）
- 单层网络（Single-layer Network）：仅输入+输出层，只能解决线性问题
- 前馈神经网络（Feedforward Neural Network, FNN / MLP） ：信息单向流动，无反馈
  - 核心组件：
    - 预激活（Pre-activation）：z = Wx + b
    - 激活函数（Activation Function）：如 ReLU、Sigmoid
    - 激活（Activation）：a = f(z)

2.2 深度架构与表示学习

深度网络 / 深度学习（Deep Network / Deep Learning）
- 特点：多隐藏层，支持层次化特征学习
- 支撑技术：
  - 反向传播（Backpropagation）：高效梯度计算
  - 表示学习（Representation Learning）：自动学习有效特征表示
  - 特征提取（Feature Extraction）：从原始数据到抽象表示

2.3 现代大模型架构

大语言模型（Large Language Model, LLM）
- 架构基础：通常基于 Transformer
- 生成方式：自回归（Autoregressive）（逐词生成）
- 交互方式：通过 提示词（Prompt） 引导输出
生成式模型（Generative Model）
- 能力：建模数据分布 P(x)，生成新样本
- 代表：GAN、VAE、扩散模型、自回归LLM

2.4 模型设计原则

归纳偏置（Inductive Bias） （又称"先验知识"）
- CNN：局部性、平移不变性
- RNN：时序依赖
- Transformer：注意力机制捕捉长程依赖
基础模型 / 通用模型（Foundation Model）
- 在海量数据上预训练，具备通用能力
- 可通过微调或提示适配多种任务

3. 训练技巧与优化（Training Techniques & Optimization）

3.1 核心训练机制

学习（Learning）：通过优化损失函数调整参数
反向传播（Backpropagation）：计算梯度的核心算法
误差函数（Loss Function）：指导优化方向（如交叉熵、MSE）

3.2 防止过拟合与提升泛化

正则化（Regularization）
- L1/L2 正则（权重衰减）
- Dropout
- 数据增强
- 早停（Early Stopping）
泛化能力（Generalization）：模型在新数据上的表现
噪声（Noise）：数据中的干扰，正则化可提升鲁棒性

3.3 模型适配与持续学习

微调（Fine-tuning）：在预训练模型上用小数据集继续训练
迁移学习（Transfer Learning）：跨任务知识迁移（常通过微调实现）
增量训练（Incremental Training） vs 重训练（Retraining）
- 增量：快但可能灾难性遗忘
- 重训练：稳但成本高
灾难性遗忘（Catastrophic Forgetting）
- 问题：学新忘旧
- 缓解：经验回放、EWC、多任务学习

3.4 超参数控制

超参数（Hyperparameter）
- 学习率、批量大小、网络深度、Dropout率等
- 需通过验证集调优

4. 评估与验证方法（Evaluation & Validation）

4.1 数据划分

训练集（Training Set）：用于参数更新
验证集（Validation Set）：用于调超参、监控过拟合、决定早停
测试集（Test Set）：最终评估泛化性能（仅用一次！）

4.2 评估策略

交叉验证（Cross-validation, CV）
- K折交叉验证（K-fold CV）：平衡偏差与方差
留一法（Leave-One-Out, LOO-CV）
- K = N 的极端交叉验证，适用于极小数据集

4.3 过拟合与欠拟合诊断

过拟合（Overfitting）：训练好、验证差 → 需正则化
欠拟合（Underfitting）：训练差、验证差 → 需增强模型或训练

🔗 跨类别关联说明

迁移学习 横跨 学习范式 与 训练技巧 ：它是一种范式思想，常用微调实现。
表示学习 是 模型架构 的目标，也是 自监督学习 的核心产出。
基础模型 依赖 自监督学习 预训练，通过 提示词 或微调应用于下游任务。
泛化能力 是所有范式和技巧的终极目标，由 评估方法 来衡量。

上一篇：物联网通信之CAN通讯

下一篇：Linux 信号（2）

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03OpenClaw Chrome扩展使用教程 - 浏览器中继控制 04Linux下V2Ray安装配置指南 05使用 1panel面板部署 php网站 06UV安装并设置国内源 07从零搭建一个 PHP 登录注册系统（含完整源码）08openclaw配置教程（linux+局域网ollama）09Vue-skills的中文文档 10让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX ：mcp-documents-reader 工具使用指南