深度学习基础与概念笔记

相关术语笔记

1. 分类和回归(Classification and Regression)

  • 解释 :这是监督学习的两大核心任务。
    • 分类 :预测离散的类别标签(如"是/否"、"猫/狗/鸟")。输出是类别
    • 回归 :预测连续的数值(如价格、温度、分数)。输出是实数
  • 举例
    • 分类:医院用X光片判断"是否患肺炎"(二分类);电商平台识别商品属于哪个品类(多分类)。
    • 回归:房产APP根据面积、地段预测房价(比如"85.3万元");天气预报预测明天最高气温(23.7℃)。
  • 对比 : 分类像"选择题",回归像"填空题"。分类关心"是什么",回归关心"有多少"。

2. 微调(Fine-tuning)

  • 解释 :在已有预训练模型(通常在大规模通用数据上训练过)的基础上,用特定任务的小数据集继续训练,调整部分或全部参数,使其适应新任务。
  • 为什么有效?因为底层特征(如边缘、纹理、词义)具有通用性,无需从头学起。
  • 举例
    • 你在ImageNet上训练好的ResNet(能识别1000种物体),现在想让它识别"不同品种的狗狗"。只需用几百张带标签的狗图微调最后几层,几天就能达到高准确率。
    • 用ChatGPT的开源版本LLaMA,在法律文书数据上微调,变成一个"AI律师助手"。
  • 注意:微调 ≠ 从头训练,它快、省算力、适合小数据场景。

3. 学习(Learning)

  • 解释 :指模型通过数据自动调整内部参数,以更好地完成某项任务的过程。本质是优化------让预测越来越接近真实答案。
  • 关键机制:通过误差函数计算偏差,再用反向传播+梯度下降更新参数。
  • 举例
    • 就像小孩学骑车:一开始总摔倒(误差大),但每次摔倒后调整身体重心(参数更新),最终学会平衡(误差趋近于零)。
    • 模型"学习"不是理解,而是拟合统计规律

4. 迁移学习(Transfer Learning)

  • 解释:将在一个任务(源任务)中学到的知识,"迁移"到另一个相关但不同的任务(目标任务)中,提升后者的学习效率或性能。
  • 实现方式 :常通过微调实现,也可冻结部分层做特征提取。
  • 举例
    • 一个在百万张自然图像上学过的CNN,即使没见过医学影像,也能提取出"细胞边界""组织纹理"等有用特征,帮助诊断癌症。
    • 语言模型先在维基百科上学"通用知识",再迁移到客服对话系统中理解用户问题。
  • 与微调关系 : 迁移学习是思想 ,微调是常用手段

5. 训练集(Training Set)

  • 解释:用于训练模型的数据子集。模型通过反复"看"这些(输入, 标签)对来调整参数。
  • 要求:应具有代表性、足够大、无严重噪声。
  • 举例
    • 训练人脸识别模型时,训练集包含10万人的100万张带姓名的照片。
  • 注意:不能用训练集评估模型好坏------那就像"考试题提前背过",会高估能力。

(你列了两次"训练集",此处合并)


6. 监督学习(Supervised Learning)

  • 解释:训练数据中每条样本都带有"正确答案"(标签),模型学习从输入到输出的映射。
  • 核心:有"老师"(标签)指导学习。
  • 举例
    • 给模型看1000张"标注了'苹果'或'橙子'"的水果照片,它学会区分两者。
    • 银行用客户历史数据(收入、信用记录... + 是否违约)训练贷款审批模型。
  • 典型任务:分类、回归。

7. 无监督学习(Unsupervised Learning)

  • 解释 :训练数据没有标签,模型需自行发现数据中的结构、模式或分组。
  • 目标:降维、聚类、密度估计等。
  • 举例
    • 电商平台将用户按购物行为自动分成"价格敏感型""品牌忠诚型"等群体(聚类),用于精准营销。
    • 用PCA把100维的基因数据压缩到2维,方便科学家可视化。
  • 对比监督学习 : 监督学习像"有标准答案的练习题",无监督像"自己整理乱书架"------没人告诉你怎么分,但你能找出规律。

8. 自监督学习(Self-supervised Learning)

  • 解释 :一种特殊的无监督学习------从数据本身构造监督信号(伪标签),然后像监督学习一样训练。
  • 关键思想:"预测被遮盖的部分"或"预测未来"。
  • 举例
    • BERT:把句子"今天[MASK]很好"中的"[MASK]"遮住,让模型猜是"天气"。
    • 视频预测:给模型前3帧,让它预测第4帧。
  • 优势:无需人工标注,可利用海量无标签数据(如整个互联网文本)。
  • 与无监督学习对比 : 无监督是"探索式",自监督是"伪装成监督"的聪明玩法。

9. 生成式模型(Generative Model)

  • 解释 :不仅能判别,还能生成 与训练数据相似的新样本。它学习的是数据的联合概率分布 P(x, y)P(x)
  • 代表模型:GAN、VAE、扩散模型、自回归语言模型。
  • 举例
    • MidJourney输入"一只穿西装的柴犬在月球开会",生成逼真图片。
    • ChatGPT续写小说、写邮件、编代码------都是"生成"。
  • 对比判别式模型 (如SVM、普通CNN): 判别式只回答"这是猫吗?"(建模 P(y|x));生成式能回答"猫长什么样?"并画出来(建模 P(x))。

10. 提示词(Prompt)

  • 解释 :给大语言模型(LLM)的输入指令,用于引导其生成期望的输出。是人与AI沟通的语言接口
  • 形式:可以是问题、指令、示例(few-shot)、上下文等。
  • 举例
    • 简单提示:"翻译成英文:你好!" → "Hello!"
    • 复杂提示:"你是一位营养师。为一位糖尿病患者设计一份低GI早餐,列出食材和做法。"
  • 意义:让同一个模型完成千变万化的任务,无需重新训练。

11. 大语言模型(Large Language Model, LLM)

  • 解释:在海量文本上训练的、参数量巨大的神经网络(通常基于Transformer),具备理解与生成人类语言的能力。
  • 特点:涌现能力、上下文学习、可提示性、泛化强。
  • 举例
    • GPT-4、Claude、通义千问、LLaMA------它们能写诗、编程、辩论、总结文档。
    • 背后原理:通过预测下一个词(自回归)学习语言的深层结构。
  • 注意:LLM ≠ 有意识,它只是"超级模式匹配器"。

12. 自回归(Autoregressive)

  • 解释 :一种生成序列的方式------每次只生成一个元素,且依赖之前已生成的所有元素
  • 数学形式:P(x₁, x₂, ..., xₙ) = Π P(xₜ | x₁,...,xₜ₋₁)
  • 举例
    • 写作文:先写"春",接着根据"春"写"春天",再根据"春天"写"春天来了",依此类推。
    • GPT就是典型的自回归模型:一个词一个词地"吐"出来。
  • 优点 :简单、稳定;缺点:无法并行生成(慢)。

13. 训练对(Training Pair)

  • 解释 :监督学习中最基本的数据单元,由输入(input)和对应的真实标签(label/ground truth) 组成。
  • 也叫:(x, y) 对。
  • 举例
    • 图像分类:(一张猫的照片, "猫")
    • 机器翻译:("你好", "Hello")
    • 语音识别:(一段音频, "今天天气不错")
  • 重要性:模型通过大量这样的"问答对"学会映射关系。

14. 泛化能力(Generalization)

  • 解释 :模型在未见过的新数据上表现良好的能力。是衡量模型是否"真正学会"而非"死记硬背"的关键。
  • 理想状态:训练误差 ≈ 测试误差。
  • 举例
    • 一个识别交通标志的模型,不仅认得训练时见过的"红底白字停车牌",也能认出新拍摄角度、雨天模糊的同类标志。
  • 如何提升?更多数据、正则化、简化模型、数据增强等。

15. 误差函数(Loss Function)

  • 解释:量化模型预测值与真实值之间差距的函数。是训练的"指南针"------模型通过最小化损失来学习。
  • 常见类型
    • 分类:交叉熵损失(Cross-Entropy Loss)
    • 回归:均方误差(Mean Squared Error, MSE)
  • 举例
    • 预测房价:真实价100万,模型预测80万 → MSE = (100−80)² = 400(单位:万元²)
    • 分类:模型说"80%是猫",实际是猫 → 交叉熵较小;若说"20%是猫",则损失大。
  • 注意:损失函数必须可导,才能用梯度下降优化。

16. 噪声(Noise)

  • 解释:数据中与任务无关的随机干扰或错误信息。可能来自采集设备、人为标注错误、环境干扰等。
  • 类型
    • 特征噪声:图像模糊、录音有杂音
    • 标签噪声:把"狗"错标成"猫"
  • 影响:模型可能学到虚假模式,导致泛化变差。
  • 应对:清洗数据、鲁棒损失函数、正则化。

17. 过拟合(Overfitting)

  • 解释 :模型在训练集上表现极好(损失很低),但在新数据上表现差------记住了训练数据的细节甚至噪声,而非通用规律
  • 表现:训练准确率99%,验证准确率60%。
  • 生动比喻 : 学生把模拟题答案全背下来,考试换一道题就懵了。
  • 解决方法:增加数据、正则化(Dropout/L2)、早停、简化模型。

18. 欠拟合(Underfitting)

  • 解释:模型太简单或训练不足,连训练数据的基本规律都没学会。
  • 表现:训练和验证误差都很高。
  • 比喻 : 学生上课睡觉,连模拟题都做不对。
  • 解决方法:增加模型容量(更深/更宽)、延长训练、改进特征。

过拟合 vs 欠拟合

  • 过拟合:模型"太聪明",钻牛角尖。
  • 欠拟合:模型"太笨",学不会。
  • 理想状态:在两者之间找到平衡(偏差-方差权衡)。

19. 超参数(Hyperparameter)

  • 解释 :在训练开始前 设定的、不被模型学习的配置参数。控制模型结构或训练过程。
  • 常见超参数:学习率、批量大小(batch size)、网络层数、Dropout率、优化器类型。
  • 调优方式:网格搜索、随机搜索、贝叶斯优化、人工试错。
  • 举例
    • 学习率太大 → 模型"步子迈太大,错过最低点";太小 → "蜗牛爬,半天不动"。
  • 注意:超参数选择对性能影响巨大!

20. 验证集(Validation Set)

  • 解释 :从训练数据中分出的一部分,不参与参数更新 ,仅用于:
    • 评估模型在训练过程中的表现
    • 选择最佳超参数
    • 决定何时早停(防止过拟合)
  • 与测试集区别 : 验证集用于"调模型",测试集用于"最终打分"------测试集只能用一次!

21. 交叉验证(Cross-validation, CV)

  • 解释:一种更可靠的模型评估方法,尤其适用于小数据集。将数据分成K份(折),轮流用K−1份训练、1份验证,重复K次取平均性能。
  • 最常见:5折或10折交叉验证。
  • 优点:充分利用数据,减少评估结果的随机性。
  • 举例
    • 只有500个医疗样本?用5折CV:每次用400个训练,100个验证,做5轮,结果更可信。

22. 留一法(Leave-One-Out Cross-validation, LOO-CV)

  • 解释 :K = N 的交叉验证(N为样本总数)。每次留一个样本做验证,其余N−1个训练。
  • 优点:几乎无偏(训练集最大)。
  • 缺点:计算量爆炸(N次训练),且验证结果方差大(因每次只验一个样本)。
  • 适用场景:极小数据集(如N<50),且计算资源充足。

对比普通K折CV:LOO更准但更贵,K=5/10是性价比之选。


23. 神经网络(Neural Network)

  • 解释:受生物神经系统启发的计算模型,由大量"神经元"连接而成。每个神经元执行加权求和 + 非线性激活。
  • 核心思想:通过多层非线性变换,从原始输入中逐层提取抽象特征。
  • 举例
    • 输入一张猫图 → 第一层检测边缘 → 第二层组合成眼睛/耳朵 → 最后层判断"是猫"。
  • 现代基石:深度学习 = 深层神经网络 + 大数据 + 强算力。

24. 预激活 / 激活函数 / 激活(Pre-activation / Activation Function / Activation)

  • 预激活(Pre-activation):神经元的线性输出,即 z=Wx+bz=Wx+b。
  • 激活函数(Activation Function):引入非线性的函数,如 ReLU(z) = max(0, z)。
  • 激活(Activation):激活函数的输出,即 a=f(z)a=f(z),也是下一层的输入。
  • 为什么需要 ? 如果没有激活函数,多层网络等价于单层线性模型------无法拟合复杂函数!
  • 常用激活函数:ReLU(最常用)、Sigmoid(老派)、Tanh、GeLU(LLM常用)。

25. 单层网络(Single-layer Network)

  • 解释 :只有输入层和输出层,没有隐藏层的神经网络。例如感知机(Perceptron)。
  • 能力限制 :只能解决线性可分问题(如逻辑AND),无法解决XOR等非线性问题。
  • 历史意义:1950s提出,但因能力有限曾导致"AI寒冬"。
  • 对比深度网络 : 单层网络像"直尺",只能画直线;深度网络像"万能曲线笔",能拟合任意形状。

26. 反向传播(Backpropagation)

  • 解释 :一种高效计算神经网络中所有参数梯度的算法,基于链式法则(Chain Rule)。
  • 流程
    1. 前向传播:计算预测值和损失
    2. 反向传播:从输出层向输入层逐层计算损失对各参数的偏导
    3. 更新参数:用梯度下降调整权重
  • 意义:没有反向传播,就没有现代深度学习!
  • 比喻 : 就像厨师尝汤(损失),发现太咸(误差大),然后逆向检查是盐(哪层权重)放多了,下次少放点。

27. 前馈神经网络(Feedforward Neural Network, FNN)

  • 解释 :最基础的神经网络类型,信息单向流动 :输入 → 隐藏层 → 输出,无环、无反馈
  • 也叫:多层感知机(MLP)。
  • 特点:结构简单,适合静态输入(如图像、表格数据)。
  • 对比RNN/CNN : FNN处理"一张图";RNN处理"一句话"(有序列);CNN处理"带空间结构的图"。

28. 先验知识 / 归纳偏置(Prior Knowledge / Inductive Bias)

  • 解释 :模型对"什么样的解更合理"的内在假设。没有它,模型无法从有限数据中泛化。
  • 举例
    • CNN 的归纳偏置:图像具有局部性 (附近像素相关)、平移不变性(猫在左上角还是右下角都是猫)。
    • Transformer 的归纳偏置:通过注意力机制捕捉长距离依赖
  • 重要性 : 归纳偏置 = 模型的"世界观"。它决定了模型能学什么、不能学什么。

29. 特征提取(Feature Extraction)

  • 解释 :从原始数据(如像素、文字)中提取对任务有用的表示(representation)
  • 传统方法:手工设计(如SIFT、HOG、TF-IDF)。
  • 深度学习方法:自动学习(如CNN卷积层自动学边缘→纹理→部件)。
  • 举例
    • 人脸识别:原始输入是100万像素,特征提取后变成128维"人脸编码",相似人脸编码接近。
  • 意义:好的特征让后续分类/检测变得简单。

30. 深度网络 / 深度学习(Deep Network / Deep Learning)

  • 解释 :包含多个隐藏层(通常≥3)的神经网络。"深度"指层数多。
  • 核心优势层次化表示学习------底层学简单特征(边、角),高层学复杂概念(脸、车)。
  • 为什么近年爆发?大数据 + GPU + ReLU/残差连接等技术解决了训练难题。
  • 应用:图像识别、语音识别、机器翻译、AlphaGo...

31. 表示学习 / 表征学习(Representation Learning)

  • 解释 :自动学习数据的有效表示(features/embeddings),使得后续任务(分类、聚类等)更容易。
  • 深度学习的本质:就是强大的表示学习框架。
  • 举例
    • Word2Vec:把单词变成向量,"国王 - 男人 + 女人 ≈ 女王"。
    • BERT:把句子变成上下文相关的向量,可用于问答、情感分析等。
  • 目标:让"相似的东西在向量空间中靠近"。

32. 基础模型和通用模型(Foundation Model / General-purpose Model)

  • 解释 :在海量通用数据上预训练的大模型,可作为多种下游任务的"基础"。
  • 特点:规模大(数十亿参数以上)、通用性强、可通过微调或提示适配新任务。
  • 代表:GPT系列、BERT、DALL·E、Stable Diffusion。
  • 意义 : 以前:每个任务都要从头训练一个模型。

    现在:一个基础模型 + 不同提示 = 万能工具箱。

  • 与传统模型对比:基础模型是"通才",传统模型是"专才"。

33. 正则 / 正则化(Regularization)

  • 解释 :防止过拟合的技术,通过约束模型复杂度引入先验,提升泛化能力。
  • 常见方法
    • L2正则(权重衰减):惩罚大权重,让模型更平滑
    • Dropout:训练时随机"关掉"部分神经元,强迫网络不依赖个别节点
    • 数据增强:对图像旋转、裁剪,人为扩大数据多样性
    • 早停(Early Stopping):验证损失不再下降时停止训练
  • 比喻 : 正则化就像给学生划重点范围,防止他钻牛角尖背偏题。

34. 灾难性遗忘(Catastrophic Forgetting)

  • 解释 :在持续学习(Continual Learning)中,模型学习新任务时完全覆盖旧知识,导致旧任务性能骤降。
  • 原因:神经网络参数是共享的,新任务的梯度更新会破坏旧任务学到的权重。
  • 举例
    • 先教AI识别猫狗,准确率95%;再教它识别汽车,结果猫狗识别降到30%。
  • 缓解方法
    • 经验回放:保留部分旧数据一起训练
    • 弹性权重固化(EWC):保护对旧任务重要的参数
    • 多任务学习:同时学多个任务

35. 增量训练 / 重训练(Incremental Training / Retraining)

  • 增量训练(Incremental Training) :在已有模型基础上,用新数据继续训练。速度快,但可能引发灾难性遗忘。
  • 重训练(Retraining) :将新旧数据合并,从头开始训练整个模型。更稳定,但成本高。
  • 应用场景
    • 增量:推荐系统每天加入新用户行为,快速更新模型。
    • 重训练:每年一次大版本升级,确保模型整体一致性。
  • 选择依据:数据量、计算资源、对旧任务性能的要求。

增量训练/重训练:

🌳 深度学习基础概念知识树

1. 学习范式(Learning Paradigms)

1.1 监督学习(Supervised Learning)

  • 定义:使用带标签的数据(输入-输出对)训练模型。
  • 核心任务
    • 分类(Classification)
    • 回归(Regression)
  • 关键组件
    • 训练对(Training Pair)
    • 误差函数(Loss Function)
    • 泛化能力(Generalization)
  • 典型流程
    • 学习(Learning) → 通过反向传播优化参数
    • 使用训练集(Training Set)进行参数更新

1.2 无监督学习(Unsupervised Learning)

  • 定义:在无标签数据中发现结构或模式。
  • 典型任务
    • 聚类(如用户分群)
    • 降维(如PCA)
  • 目标:特征提取(Feature Extraction)、表示学习(Representation Learning)

1.3 自监督学习(Self-supervised Learning)

  • 定义:从无标签数据中自动生成监督信号(伪标签)进行学习。
  • 代表方法
    • 掩码语言建模(如BERT)
    • 对比学习(如SimCLR)
  • 与无监督关系:是无监督学习的一种高级形式,更具结构性。
  • 应用:大语言模型(LLM)预训练的核心范式

💡 迁移学习(Transfer Learning)微调(Fine-tuning) 是跨范式的策略------通常在自监督/监督预训练后,迁移到下游监督任务。


2. 模型架构(Model Architectures)

2.1 基础神经网络结构

  • 神经网络(Neural Network)
    • 单层网络(Single-layer Network):仅输入+输出层,只能解决线性问题
    • 前馈神经网络(Feedforward Neural Network, FNN / MLP) :信息单向流动,无反馈
      • 核心组件:
        • 预激活(Pre-activation):z = Wx + b
        • 激活函数(Activation Function):如 ReLU、Sigmoid
        • 激活(Activation):a = f(z)

2.2 深度架构与表示学习

  • 深度网络 / 深度学习(Deep Network / Deep Learning)
    • 特点:多隐藏层,支持层次化特征学习
    • 支撑技术:
      • 反向传播(Backpropagation):高效梯度计算
      • 表示学习(Representation Learning):自动学习有效特征表示
      • 特征提取(Feature Extraction):从原始数据到抽象表示

2.3 现代大模型架构

  • 大语言模型(Large Language Model, LLM)
    • 架构基础:通常基于 Transformer
    • 生成方式:自回归(Autoregressive)(逐词生成)
    • 交互方式:通过 提示词(Prompt) 引导输出
  • 生成式模型(Generative Model)
    • 能力:建模数据分布 P(x),生成新样本
    • 代表:GAN、VAE、扩散模型、自回归LLM

2.4 模型设计原则

  • 归纳偏置(Inductive Bias) (又称"先验知识")
    • CNN:局部性、平移不变性
    • RNN:时序依赖
    • Transformer:注意力机制捕捉长程依赖
  • 基础模型 / 通用模型(Foundation Model)
    • 在海量数据上预训练,具备通用能力
    • 可通过微调或提示适配多种任务

3. 训练技巧与优化(Training Techniques & Optimization)

3.1 核心训练机制

  • 学习(Learning):通过优化损失函数调整参数
  • 反向传播(Backpropagation):计算梯度的核心算法
  • 误差函数(Loss Function):指导优化方向(如交叉熵、MSE)

3.2 防止过拟合与提升泛化

  • 正则化(Regularization)
    • L1/L2 正则(权重衰减)
    • Dropout
    • 数据增强
    • 早停(Early Stopping)
  • 泛化能力(Generalization):模型在新数据上的表现
  • 噪声(Noise):数据中的干扰,正则化可提升鲁棒性

3.3 模型适配与持续学习

  • 微调(Fine-tuning):在预训练模型上用小数据集继续训练
  • 迁移学习(Transfer Learning):跨任务知识迁移(常通过微调实现)
  • 增量训练(Incremental Training) vs 重训练(Retraining)
    • 增量:快但可能灾难性遗忘
    • 重训练:稳但成本高
  • 灾难性遗忘(Catastrophic Forgetting)
    • 问题:学新忘旧
    • 缓解:经验回放、EWC、多任务学习

3.4 超参数控制

  • 超参数(Hyperparameter)
    • 学习率、批量大小、网络深度、Dropout率等
    • 需通过验证集调优

4. 评估与验证方法(Evaluation & Validation)

4.1 数据划分

  • 训练集(Training Set):用于参数更新
  • 验证集(Validation Set):用于调超参、监控过拟合、决定早停
  • 测试集(Test Set):最终评估泛化性能(仅用一次!)

4.2 评估策略

  • 交叉验证(Cross-validation, CV)
    • K折交叉验证(K-fold CV):平衡偏差与方差
  • 留一法(Leave-One-Out, LOO-CV)
    • K = N 的极端交叉验证,适用于极小数据集

4.3 过拟合与欠拟合诊断

  • 过拟合(Overfitting):训练好、验证差 → 需正则化
  • 欠拟合(Underfitting):训练差、验证差 → 需增强模型或训练

🔗 跨类别关联说明

  • 迁移学习 横跨 学习范式训练技巧 :它是一种范式思想,常用 微调 实现。
  • 表示学习模型架构 的目标,也是 自监督学习 的核心产出。
  • 基础模型 依赖 自监督学习 预训练,通过 提示词微调 应用于下游任务。
  • 泛化能力 是所有范式和技巧的终极目标,由 评估方法 来衡量。
相关推荐
ekprada2 小时前
Day 39 - 图像数据与显存
人工智能·python
Maynor9962 小时前
Claude vs ChatGPT vs Gemini: 기능 비교, 사용 경험, 적합 인군
人工智能·chatgpt
IT_陈寒2 小时前
JavaScript 开发者必知的 7 个 ES2023 新特性,第5个能让代码量减少50%
前端·人工智能·后端
winner88812 小时前
从 “碗状函数” 到 “坑坑洼洼”:机器学习的凸与非凸之战
人工智能·机器学习
q_30238195562 小时前
Atlas200赋能水稻病虫害精准识别:AI+边缘计算守护粮食安全
人工智能·边缘计算
芥末章宇2 小时前
TimeGAN论文精读
论文阅读·人工智能·论文笔记
腾飞开源2 小时前
40_Spring AI 干货笔记之 Transformers (ONNX) 嵌入
人工智能·huggingface·onnx·transformers·嵌入模型·spring ai·句子转换器
平凡之路无尽路2 小时前
google11月agent发展白皮书
人工智能·语言模型·自然语言处理·nlp·aigc·ai编程·agi
腾飞开源2 小时前
41_Spring AI 干货笔记之 OpenAI SDK 嵌入(官方支持)
人工智能·嵌入模型·spring ai·openai sdk·github models·示例控制器·无密码认证