相关术语笔记
1. 分类和回归(Classification and Regression)
- 解释 :这是监督学习的两大核心任务。
- 分类 :预测离散的类别标签(如"是/否"、"猫/狗/鸟")。输出是类别。
- 回归 :预测连续的数值(如价格、温度、分数)。输出是实数。
- 举例 :
- 分类:医院用X光片判断"是否患肺炎"(二分类);电商平台识别商品属于哪个品类(多分类)。
- 回归:房产APP根据面积、地段预测房价(比如"85.3万元");天气预报预测明天最高气温(23.7℃)。
- 对比 : 分类像"选择题",回归像"填空题"。分类关心"是什么",回归关心"有多少"。
2. 微调(Fine-tuning)
- 解释 :在已有预训练模型(通常在大规模通用数据上训练过)的基础上,用特定任务的小数据集继续训练,调整部分或全部参数,使其适应新任务。
- 为什么有效?因为底层特征(如边缘、纹理、词义)具有通用性,无需从头学起。
- 举例 :
- 你在ImageNet上训练好的ResNet(能识别1000种物体),现在想让它识别"不同品种的狗狗"。只需用几百张带标签的狗图微调最后几层,几天就能达到高准确率。
- 用ChatGPT的开源版本LLaMA,在法律文书数据上微调,变成一个"AI律师助手"。
- 注意:微调 ≠ 从头训练,它快、省算力、适合小数据场景。
3. 学习(Learning)
- 解释 :指模型通过数据自动调整内部参数,以更好地完成某项任务的过程。本质是优化------让预测越来越接近真实答案。
- 关键机制:通过误差函数计算偏差,再用反向传播+梯度下降更新参数。
- 举例 :
- 就像小孩学骑车:一开始总摔倒(误差大),但每次摔倒后调整身体重心(参数更新),最终学会平衡(误差趋近于零)。
- 模型"学习"不是理解,而是拟合统计规律。
4. 迁移学习(Transfer Learning)
- 解释:将在一个任务(源任务)中学到的知识,"迁移"到另一个相关但不同的任务(目标任务)中,提升后者的学习效率或性能。
- 实现方式 :常通过微调实现,也可冻结部分层做特征提取。
- 举例 :
- 一个在百万张自然图像上学过的CNN,即使没见过医学影像,也能提取出"细胞边界""组织纹理"等有用特征,帮助诊断癌症。
- 语言模型先在维基百科上学"通用知识",再迁移到客服对话系统中理解用户问题。
- 与微调关系 : 迁移学习是思想 ,微调是常用手段。
5. 训练集(Training Set)
- 解释:用于训练模型的数据子集。模型通过反复"看"这些(输入, 标签)对来调整参数。
- 要求:应具有代表性、足够大、无严重噪声。
- 举例 :
- 训练人脸识别模型时,训练集包含10万人的100万张带姓名的照片。
- 注意:不能用训练集评估模型好坏------那就像"考试题提前背过",会高估能力。
(你列了两次"训练集",此处合并)
6. 监督学习(Supervised Learning)
- 解释:训练数据中每条样本都带有"正确答案"(标签),模型学习从输入到输出的映射。
- 核心:有"老师"(标签)指导学习。
- 举例 :
- 给模型看1000张"标注了'苹果'或'橙子'"的水果照片,它学会区分两者。
- 银行用客户历史数据(收入、信用记录... + 是否违约)训练贷款审批模型。
- 典型任务:分类、回归。
7. 无监督学习(Unsupervised Learning)
- 解释 :训练数据没有标签,模型需自行发现数据中的结构、模式或分组。
- 目标:降维、聚类、密度估计等。
- 举例 :
- 电商平台将用户按购物行为自动分成"价格敏感型""品牌忠诚型"等群体(聚类),用于精准营销。
- 用PCA把100维的基因数据压缩到2维,方便科学家可视化。
- 对比监督学习 : 监督学习像"有标准答案的练习题",无监督像"自己整理乱书架"------没人告诉你怎么分,但你能找出规律。
8. 自监督学习(Self-supervised Learning)
- 解释 :一种特殊的无监督学习------从数据本身构造监督信号(伪标签),然后像监督学习一样训练。
- 关键思想:"预测被遮盖的部分"或"预测未来"。
- 举例 :
- BERT:把句子"今天[MASK]很好"中的"[MASK]"遮住,让模型猜是"天气"。
- 视频预测:给模型前3帧,让它预测第4帧。
- 优势:无需人工标注,可利用海量无标签数据(如整个互联网文本)。
- 与无监督学习对比 : 无监督是"探索式",自监督是"伪装成监督"的聪明玩法。
9. 生成式模型(Generative Model)
- 解释 :不仅能判别,还能生成 与训练数据相似的新样本。它学习的是数据的联合概率分布 P(x, y) 或 P(x)。
- 代表模型:GAN、VAE、扩散模型、自回归语言模型。
- 举例 :
- MidJourney输入"一只穿西装的柴犬在月球开会",生成逼真图片。
- ChatGPT续写小说、写邮件、编代码------都是"生成"。
- 对比判别式模型 (如SVM、普通CNN): 判别式只回答"这是猫吗?"(建模 P(y|x));生成式能回答"猫长什么样?"并画出来(建模 P(x))。
10. 提示词(Prompt)
- 解释 :给大语言模型(LLM)的输入指令,用于引导其生成期望的输出。是人与AI沟通的语言接口。
- 形式:可以是问题、指令、示例(few-shot)、上下文等。
- 举例 :
- 简单提示:"翻译成英文:你好!" → "Hello!"
- 复杂提示:"你是一位营养师。为一位糖尿病患者设计一份低GI早餐,列出食材和做法。"
- 意义:让同一个模型完成千变万化的任务,无需重新训练。
11. 大语言模型(Large Language Model, LLM)
- 解释:在海量文本上训练的、参数量巨大的神经网络(通常基于Transformer),具备理解与生成人类语言的能力。
- 特点:涌现能力、上下文学习、可提示性、泛化强。
- 举例 :
- GPT-4、Claude、通义千问、LLaMA------它们能写诗、编程、辩论、总结文档。
- 背后原理:通过预测下一个词(自回归)学习语言的深层结构。
- 注意:LLM ≠ 有意识,它只是"超级模式匹配器"。
12. 自回归(Autoregressive)
- 解释 :一种生成序列的方式------每次只生成一个元素,且依赖之前已生成的所有元素。
- 数学形式:P(x₁, x₂, ..., xₙ) = Π P(xₜ | x₁,...,xₜ₋₁)
- 举例 :
- 写作文:先写"春",接着根据"春"写"春天",再根据"春天"写"春天来了",依此类推。
- GPT就是典型的自回归模型:一个词一个词地"吐"出来。
- 优点 :简单、稳定;缺点:无法并行生成(慢)。
13. 训练对(Training Pair)
- 解释 :监督学习中最基本的数据单元,由输入(input)和对应的真实标签(label/ground truth) 组成。
- 也叫:(x, y) 对。
- 举例 :
- 图像分类:(一张猫的照片, "猫")
- 机器翻译:("你好", "Hello")
- 语音识别:(一段音频, "今天天气不错")
- 重要性:模型通过大量这样的"问答对"学会映射关系。
14. 泛化能力(Generalization)
- 解释 :模型在未见过的新数据上表现良好的能力。是衡量模型是否"真正学会"而非"死记硬背"的关键。
- 理想状态:训练误差 ≈ 测试误差。
- 举例 :
- 一个识别交通标志的模型,不仅认得训练时见过的"红底白字停车牌",也能认出新拍摄角度、雨天模糊的同类标志。
- 如何提升?更多数据、正则化、简化模型、数据增强等。
15. 误差函数(Loss Function)
- 解释:量化模型预测值与真实值之间差距的函数。是训练的"指南针"------模型通过最小化损失来学习。
- 常见类型 :
- 分类:交叉熵损失(Cross-Entropy Loss)
- 回归:均方误差(Mean Squared Error, MSE)
- 举例 :
- 预测房价:真实价100万,模型预测80万 → MSE = (100−80)² = 400(单位:万元²)
- 分类:模型说"80%是猫",实际是猫 → 交叉熵较小;若说"20%是猫",则损失大。
- 注意:损失函数必须可导,才能用梯度下降优化。
16. 噪声(Noise)
- 解释:数据中与任务无关的随机干扰或错误信息。可能来自采集设备、人为标注错误、环境干扰等。
- 类型 :
- 特征噪声:图像模糊、录音有杂音
- 标签噪声:把"狗"错标成"猫"
- 影响:模型可能学到虚假模式,导致泛化变差。
- 应对:清洗数据、鲁棒损失函数、正则化。
17. 过拟合(Overfitting)
- 解释 :模型在训练集上表现极好(损失很低),但在新数据上表现差------记住了训练数据的细节甚至噪声,而非通用规律。
- 表现:训练准确率99%,验证准确率60%。
- 生动比喻 : 学生把模拟题答案全背下来,考试换一道题就懵了。
- 解决方法:增加数据、正则化(Dropout/L2)、早停、简化模型。
18. 欠拟合(Underfitting)
- 解释:模型太简单或训练不足,连训练数据的基本规律都没学会。
- 表现:训练和验证误差都很高。
- 比喻 : 学生上课睡觉,连模拟题都做不对。
- 解决方法:增加模型容量(更深/更宽)、延长训练、改进特征。
过拟合 vs 欠拟合:
- 过拟合:模型"太聪明",钻牛角尖。
- 欠拟合:模型"太笨",学不会。
- 理想状态:在两者之间找到平衡(偏差-方差权衡)。
19. 超参数(Hyperparameter)
- 解释 :在训练开始前 设定的、不被模型学习的配置参数。控制模型结构或训练过程。
- 常见超参数:学习率、批量大小(batch size)、网络层数、Dropout率、优化器类型。
- 调优方式:网格搜索、随机搜索、贝叶斯优化、人工试错。
- 举例 :
- 学习率太大 → 模型"步子迈太大,错过最低点";太小 → "蜗牛爬,半天不动"。
- 注意:超参数选择对性能影响巨大!
20. 验证集(Validation Set)
- 解释 :从训练数据中分出的一部分,不参与参数更新 ,仅用于:
- 评估模型在训练过程中的表现
- 选择最佳超参数
- 决定何时早停(防止过拟合)
- 与测试集区别 : 验证集用于"调模型",测试集用于"最终打分"------测试集只能用一次!
21. 交叉验证(Cross-validation, CV)
- 解释:一种更可靠的模型评估方法,尤其适用于小数据集。将数据分成K份(折),轮流用K−1份训练、1份验证,重复K次取平均性能。
- 最常见:5折或10折交叉验证。
- 优点:充分利用数据,减少评估结果的随机性。
- 举例 :
- 只有500个医疗样本?用5折CV:每次用400个训练,100个验证,做5轮,结果更可信。
22. 留一法(Leave-One-Out Cross-validation, LOO-CV)
- 解释 :K = N 的交叉验证(N为样本总数)。每次留一个样本做验证,其余N−1个训练。
- 优点:几乎无偏(训练集最大)。
- 缺点:计算量爆炸(N次训练),且验证结果方差大(因每次只验一个样本)。
- 适用场景:极小数据集(如N<50),且计算资源充足。
对比普通K折CV:LOO更准但更贵,K=5/10是性价比之选。
23. 神经网络(Neural Network)
- 解释:受生物神经系统启发的计算模型,由大量"神经元"连接而成。每个神经元执行加权求和 + 非线性激活。
- 核心思想:通过多层非线性变换,从原始输入中逐层提取抽象特征。
- 举例 :
- 输入一张猫图 → 第一层检测边缘 → 第二层组合成眼睛/耳朵 → 最后层判断"是猫"。
- 现代基石:深度学习 = 深层神经网络 + 大数据 + 强算力。
24. 预激活 / 激活函数 / 激活(Pre-activation / Activation Function / Activation)
- 预激活(Pre-activation):神经元的线性输出,即 z=Wx+bz=Wx+b。
- 激活函数(Activation Function):引入非线性的函数,如 ReLU(z) = max(0, z)。
- 激活(Activation):激活函数的输出,即 a=f(z)a=f(z),也是下一层的输入。
- 为什么需要 ? 如果没有激活函数,多层网络等价于单层线性模型------无法拟合复杂函数!
- 常用激活函数:ReLU(最常用)、Sigmoid(老派)、Tanh、GeLU(LLM常用)。
25. 单层网络(Single-layer Network)
- 解释 :只有输入层和输出层,没有隐藏层的神经网络。例如感知机(Perceptron)。
- 能力限制 :只能解决线性可分问题(如逻辑AND),无法解决XOR等非线性问题。
- 历史意义:1950s提出,但因能力有限曾导致"AI寒冬"。
- 对比深度网络 : 单层网络像"直尺",只能画直线;深度网络像"万能曲线笔",能拟合任意形状。
26. 反向传播(Backpropagation)
- 解释 :一种高效计算神经网络中所有参数梯度的算法,基于链式法则(Chain Rule)。
- 流程 :
- 前向传播:计算预测值和损失
- 反向传播:从输出层向输入层逐层计算损失对各参数的偏导
- 更新参数:用梯度下降调整权重
- 意义:没有反向传播,就没有现代深度学习!
- 比喻 : 就像厨师尝汤(损失),发现太咸(误差大),然后逆向检查是盐(哪层权重)放多了,下次少放点。
27. 前馈神经网络(Feedforward Neural Network, FNN)
- 解释 :最基础的神经网络类型,信息单向流动 :输入 → 隐藏层 → 输出,无环、无反馈。
- 也叫:多层感知机(MLP)。
- 特点:结构简单,适合静态输入(如图像、表格数据)。
- 对比RNN/CNN : FNN处理"一张图";RNN处理"一句话"(有序列);CNN处理"带空间结构的图"。
28. 先验知识 / 归纳偏置(Prior Knowledge / Inductive Bias)
- 解释 :模型对"什么样的解更合理"的内在假设。没有它,模型无法从有限数据中泛化。
- 举例 :
- CNN 的归纳偏置:图像具有局部性 (附近像素相关)、平移不变性(猫在左上角还是右下角都是猫)。
- Transformer 的归纳偏置:通过注意力机制捕捉长距离依赖。
- 重要性 : 归纳偏置 = 模型的"世界观"。它决定了模型能学什么、不能学什么。
29. 特征提取(Feature Extraction)
- 解释 :从原始数据(如像素、文字)中提取对任务有用的表示(representation)。
- 传统方法:手工设计(如SIFT、HOG、TF-IDF)。
- 深度学习方法:自动学习(如CNN卷积层自动学边缘→纹理→部件)。
- 举例 :
- 人脸识别:原始输入是100万像素,特征提取后变成128维"人脸编码",相似人脸编码接近。
- 意义:好的特征让后续分类/检测变得简单。
30. 深度网络 / 深度学习(Deep Network / Deep Learning)
- 解释 :包含多个隐藏层(通常≥3)的神经网络。"深度"指层数多。
- 核心优势 :层次化表示学习------底层学简单特征(边、角),高层学复杂概念(脸、车)。
- 为什么近年爆发?大数据 + GPU + ReLU/残差连接等技术解决了训练难题。
- 应用:图像识别、语音识别、机器翻译、AlphaGo...
31. 表示学习 / 表征学习(Representation Learning)
- 解释 :自动学习数据的有效表示(features/embeddings),使得后续任务(分类、聚类等)更容易。
- 深度学习的本质:就是强大的表示学习框架。
- 举例 :
- Word2Vec:把单词变成向量,"国王 - 男人 + 女人 ≈ 女王"。
- BERT:把句子变成上下文相关的向量,可用于问答、情感分析等。
- 目标:让"相似的东西在向量空间中靠近"。
32. 基础模型和通用模型(Foundation Model / General-purpose Model)
- 解释 :在海量通用数据上预训练的大模型,可作为多种下游任务的"基础"。
- 特点:规模大(数十亿参数以上)、通用性强、可通过微调或提示适配新任务。
- 代表:GPT系列、BERT、DALL·E、Stable Diffusion。
- 意义 : 以前:每个任务都要从头训练一个模型。
现在:一个基础模型 + 不同提示 = 万能工具箱。
- 与传统模型对比:基础模型是"通才",传统模型是"专才"。
33. 正则 / 正则化(Regularization)
- 解释 :防止过拟合的技术,通过约束模型复杂度 或引入先验,提升泛化能力。
- 常见方法 :
- L2正则(权重衰减):惩罚大权重,让模型更平滑
- Dropout:训练时随机"关掉"部分神经元,强迫网络不依赖个别节点
- 数据增强:对图像旋转、裁剪,人为扩大数据多样性
- 早停(Early Stopping):验证损失不再下降时停止训练
- 比喻 : 正则化就像给学生划重点范围,防止他钻牛角尖背偏题。
34. 灾难性遗忘(Catastrophic Forgetting)
- 解释 :在持续学习(Continual Learning)中,模型学习新任务时完全覆盖旧知识,导致旧任务性能骤降。
- 原因:神经网络参数是共享的,新任务的梯度更新会破坏旧任务学到的权重。
- 举例 :
- 先教AI识别猫狗,准确率95%;再教它识别汽车,结果猫狗识别降到30%。
- 缓解方法 :
- 经验回放:保留部分旧数据一起训练
- 弹性权重固化(EWC):保护对旧任务重要的参数
- 多任务学习:同时学多个任务
35. 增量训练 / 重训练(Incremental Training / Retraining)
- 增量训练(Incremental Training) :在已有模型基础上,用新数据继续训练。速度快,但可能引发灾难性遗忘。
- 重训练(Retraining) :将新旧数据合并,从头开始训练整个模型。更稳定,但成本高。
- 应用场景 :
- 增量:推荐系统每天加入新用户行为,快速更新模型。
- 重训练:每年一次大版本升级,确保模型整体一致性。
- 选择依据:数据量、计算资源、对旧任务性能的要求。
增量训练/重训练:
🌳 深度学习基础概念知识树
1. 学习范式(Learning Paradigms)
1.1 监督学习(Supervised Learning)
- 定义:使用带标签的数据(输入-输出对)训练模型。
- 核心任务 :
- 分类(Classification)
- 回归(Regression)
- 关键组件 :
- 训练对(Training Pair)
- 误差函数(Loss Function)
- 泛化能力(Generalization)
- 典型流程 :
- 学习(Learning) → 通过反向传播优化参数
- 使用训练集(Training Set)进行参数更新
1.2 无监督学习(Unsupervised Learning)
- 定义:在无标签数据中发现结构或模式。
- 典型任务 :
- 聚类(如用户分群)
- 降维(如PCA)
- 目标:特征提取(Feature Extraction)、表示学习(Representation Learning)
1.3 自监督学习(Self-supervised Learning)
- 定义:从无标签数据中自动生成监督信号(伪标签)进行学习。
- 代表方法 :
- 掩码语言建模(如BERT)
- 对比学习(如SimCLR)
- 与无监督关系:是无监督学习的一种高级形式,更具结构性。
- 应用:大语言模型(LLM)预训练的核心范式
💡 迁移学习(Transfer Learning) 和 微调(Fine-tuning) 是跨范式的策略------通常在自监督/监督预训练后,迁移到下游监督任务。
2. 模型架构(Model Architectures)
2.1 基础神经网络结构
- 神经网络(Neural Network)
- 单层网络(Single-layer Network):仅输入+输出层,只能解决线性问题
- 前馈神经网络(Feedforward Neural Network, FNN / MLP) :信息单向流动,无反馈
- 核心组件:
- 预激活(Pre-activation):
z = Wx + b - 激活函数(Activation Function):如 ReLU、Sigmoid
- 激活(Activation):
a = f(z)
- 预激活(Pre-activation):
- 核心组件:
2.2 深度架构与表示学习
- 深度网络 / 深度学习(Deep Network / Deep Learning)
- 特点:多隐藏层,支持层次化特征学习
- 支撑技术:
- 反向传播(Backpropagation):高效梯度计算
- 表示学习(Representation Learning):自动学习有效特征表示
- 特征提取(Feature Extraction):从原始数据到抽象表示
2.3 现代大模型架构
- 大语言模型(Large Language Model, LLM)
- 架构基础:通常基于 Transformer
- 生成方式:自回归(Autoregressive)(逐词生成)
- 交互方式:通过 提示词(Prompt) 引导输出
- 生成式模型(Generative Model)
- 能力:建模数据分布
P(x),生成新样本 - 代表:GAN、VAE、扩散模型、自回归LLM
- 能力:建模数据分布
2.4 模型设计原则
- 归纳偏置(Inductive Bias) (又称"先验知识")
- CNN:局部性、平移不变性
- RNN:时序依赖
- Transformer:注意力机制捕捉长程依赖
- 基础模型 / 通用模型(Foundation Model)
- 在海量数据上预训练,具备通用能力
- 可通过微调或提示适配多种任务
3. 训练技巧与优化(Training Techniques & Optimization)
3.1 核心训练机制
- 学习(Learning):通过优化损失函数调整参数
- 反向传播(Backpropagation):计算梯度的核心算法
- 误差函数(Loss Function):指导优化方向(如交叉熵、MSE)
3.2 防止过拟合与提升泛化
- 正则化(Regularization)
- L1/L2 正则(权重衰减)
- Dropout
- 数据增强
- 早停(Early Stopping)
- 泛化能力(Generalization):模型在新数据上的表现
- 噪声(Noise):数据中的干扰,正则化可提升鲁棒性
3.3 模型适配与持续学习
- 微调(Fine-tuning):在预训练模型上用小数据集继续训练
- 迁移学习(Transfer Learning):跨任务知识迁移(常通过微调实现)
- 增量训练(Incremental Training) vs 重训练(Retraining)
- 增量:快但可能灾难性遗忘
- 重训练:稳但成本高
- 灾难性遗忘(Catastrophic Forgetting)
- 问题:学新忘旧
- 缓解:经验回放、EWC、多任务学习
3.4 超参数控制
- 超参数(Hyperparameter)
- 学习率、批量大小、网络深度、Dropout率等
- 需通过验证集调优
4. 评估与验证方法(Evaluation & Validation)
4.1 数据划分
- 训练集(Training Set):用于参数更新
- 验证集(Validation Set):用于调超参、监控过拟合、决定早停
- 测试集(Test Set):最终评估泛化性能(仅用一次!)
4.2 评估策略
- 交叉验证(Cross-validation, CV)
- K折交叉验证(K-fold CV):平衡偏差与方差
- 留一法(Leave-One-Out, LOO-CV)
- K = N 的极端交叉验证,适用于极小数据集
4.3 过拟合与欠拟合诊断
- 过拟合(Overfitting):训练好、验证差 → 需正则化
- 欠拟合(Underfitting):训练差、验证差 → 需增强模型或训练
🔗 跨类别关联说明
- 迁移学习 横跨 学习范式 与 训练技巧 :它是一种范式思想,常用 微调 实现。
- 表示学习 是 模型架构 的目标,也是 自监督学习 的核心产出。
- 基础模型 依赖 自监督学习 预训练,通过 提示词 或 微调 应用于下游任务。
- 泛化能力 是所有范式和技巧的终极目标,由 评估方法 来衡量。