1、神经网络，简称NN

1.1、深度神经网络，简称DL

1.1.1、卷积神经网络，简称CNN，常用于处理图像

1.1.2、循环神经网络，简称RNN，常用于处理文本

1.1.3、生成对抗网络，简称GAN等

1.1.4、图神经网络，简称GNN，常用于处理图数据结构，如：社交网络、蛋白质等

等等。。。

二、常见的名词概念解释

2.0、数学问题

说到底，神经网络其实是个数学问题，当有不明白的地方时，那一定是没把它的相关数学原理弄明白，所以请大家遇到问题也要考虑考虑他背后的数学原理和问题有哪些。要不就是常见的答案（比如1+1为什么等于2）：从古至今这样使用都没发现问题，或是最佳实践（虽然不知道它究竟是什么，但却经过大量实践证明它是可行的）。

比如：

高等数学：涉及回归分析、梯度算法等
线性代数：涉及神经网络的参数矩阵运算，卷积等
概率论：某些问题上会需要；也比如在创建初始数组矩阵时是服从正态分布还是服从均匀分布等小问题上也会需要去了解它
数值分析：主要是分析各种误差对实验的影响等，任何工科专业都会用到
。。。。。。

2.1、回归分析

回归分析的核心思想是：研究一个或多个变量（称为"自变量"）如何影响另一个变量（称为"因变量"），并试图建立一个数学方程（模型）来描述它们之间的关系，从而能够通过自变量来预测或解释因变量。

简单来说，就是根据现有数据：找关系 ，做预测 。

放一个最简单的线性回归的图：

通过旧的观测数据去找到这样一条线，从而可以去预测将来的观测数据。

本例只有两个维度y和x，但在真实的情况下维度数会很高，我们不是简单的找一条线就可以了，我们的目标是要找出一个数学函数（或叫模型），它更复杂，但它可以对结果进行预测或满足我们的其他需求。

（用数学去抽象理解我们的世界并进行预测，我认为正是因为目前是这样做的，又而计算机本来就是用来做数学运算的，所以用数学去解释这个世界的任务自然而然的交给计算机了）

2.2、拟合函数

拟合函数就是机器学习模型从数据中学习到的那个函数，它代表了模型所理解的"输入"和"输出"之间的映射关系。

简单来说，拟合函数就是模型本身。我们的整个训练过程，就是为了找到一个"最好"的拟合函数。

也即找到这个模型（函数）的最佳参数。

2.3、损失函数

损失函数：是一个用于量化模型预测值与真实值之间差异的函数。它衡量的是我们的"拟合函数"在预测时犯了多大的错误。

简单来说：损失函数是模型的"错题本"，上面的分数越低，说明模型成绩越好。

最简单的损失函数就是预测值与真实值的差。它是由模型（函数）的参数为自变量，损失值为因变量的函数。

2.4、梯度下降法

梯度下降法：是一种通过迭代方式，沿着损失函数梯度（斜率）的反方向逐步更新模型参数，从而最小化损失函数的优化算法。

在高数中学过，沿梯度方向，函数的值增长的越快，而反方向则减少的越快。

所以通过此法，降低损失值（也即预测值与真实值的差距），从而一步步的接近我们想要的模型（函数）。

2.5、过度拟合

过度拟合：是指机器学习模型在训练数据上表现过于优秀，但到了未知数据（测试数据）上表现很差的现象。这意味着模型不仅学习了数据背后的普遍规律，还记住了训练数据中的噪声和随机波动，从而失去了泛化能力。

举个例子，比如我们假设有数学模型为：

x为输入，y为输出，a为我们要训练的参数。

高次幂有两个缺点：

放大误差
不稳定

放大误差：从数值分析的角度将，此时我们会发现x的次幂太高，虽然更高次幂能够更好的拟合实际情况，但同时也会极大地放大数据误差（因设备或人为原因，数据上的误差是不可避免的），放大误差也很容易让我们得不到想要的结果。数值分析的书上说，一般次幂不大于3。

不稳定：当输入x的值稍微一变化，y也就会有非常大的变动，导致函数并不稳定

2.6、神经网络

前面我们说过要找到一个数学模型，能够拟合万物，达到我们想要的目的，而目前我们对于复杂的情况大都是使用神经网络去解决。

神经网络 是一种受人脑神经元结构启发而构建的计算模型，它由大量相互连接的人工神经元 组成，能够通过学习和调整内部连接参数（权重），来拟合极其复杂的输入与输出之间的关系。

神经网络灵感来源于我们大脑的神经，原理是建立数学模型去模拟大脑，通过训练模型中的参数，从而找到那个我们想要的拟合函数或模型。而计算机相当于是实现这一过程的工具。

（1）借用《大话计算机》上的图来说明，假设只有1个输入和1个输出时，可以建立如下公式：

其中的W1~W12是权重，b1~b12是偏置。W1~W12和b1~b12都是需要在训练中去确定的。S是Sigmoid函数。

（2）上图是详细表示，一般神经网络都会简化，当多个输入输出时有：

2.7、深度神经网络

建立在神经网络的基础上，有更多的隐藏层。

借用《大话计算机》的图：

2.8、卷积

卷积：操作的核心是使用一个小型滤波器（或称"卷积核"），在输入数据（如图片）上系统性地滑动 ，通过计算局部区域的加权和 ，来提取特定特征（如边缘、纹理、颜色块）。

目的：特征提取

它的维度是需要人为确定的，可以是二维、三维、四维等；

卷积核带参数，需要进行训练确定；里面的参数可以根据训练得到

2.9、池化

池化：操作的核心是对特征图进行下采样 ，即缩小其尺寸。它通过汇总一个小区域（如2x2）内的信息，输出一个代表值（如最大值或平均值），从而压缩数据、减少计算量、并防止过拟合。

目的：特征降维/压缩

使用固定的汇聚窗口 取最大值或平均值，更多时是人为确定

卷积层是CNN的"眼睛"，负责从像素中看出模式和特征；而池化层是"大脑的摘要功能"，负责过滤掉不重要的细节，保留核心信息，让网络更高效、更健壮地工作。

2.10、激活函数

激活函数 是施加在神经元加权输出 z 上的一个非线性函数 ，即 输出 = f(z) 。它的主要目的是为神经网络引入非线性变换，使其能够学习和拟合现实世界中的复杂非线性关系。
通过在每个神经元后引入非线性函数 ，它打破了这种线性约束。使得深度神经网络不再是简单的线性变换叠加，而是一个万能函数逼近器，能够拟合极其复杂的非线性函数。

例如： Sigmoid（S型函数），将输入"挤压"到0和1之间。

2.11、反向传播

反向传播 是一种用于高效计算神经网络中损失函数对于每个权重的梯度（导数） 的算法。它通过链式法则，将最终输出的误差从输出层向输入层反向传播，从而计算出每个参数对总误差的"贡献度"。
它利用神经网络本身的分层结构 和微积分中的链式法则，将复杂的大问题分解为一系列简单的局部计算，使得高效、自动地计算所有梯度成为可能。

高等数学中的链式法则举例：

2.12、跳跃连接（残差连接）

在深度学习中，跳跃连接（Skip Connection，也译作 "残差连接"）是一种将网络中不同层的特征或输出直接连接起来的设计思路，目的是解决深层网络训练中的梯度消失 / 爆炸 问题，同时促进不同层级特征的融合。
常见的方式有两种：

相加（Addition）：如 ResNet 中的残差块，将输入特征 x 与经过卷积处理的特征 F(x) 相加（x + F(x)），保留原始输入的同时叠加新特征。

拼接（Concatenation）：如 U-Net 中，将编码器的高分辨率特征图与解码器对应阶段的特征图在通道维度拼接（类似 "特征融合"），保留更丰富的细节信息。

举例：在U-Net 中在通道维度上进行拼接，如设在U-Net 中编码器部分（左侧下采样）采样后有8 * 8 * 16（高 × 宽 × 通道数），而对应的解码器部分也有 8 * 8 * 16，此时拼接后变成 8 * 8 * 32（高和宽保持不变，通道数累加）

2.13、转置卷积（反卷积）

转置卷积（Transposed Convolution），也常被称为 "反卷积（Deconvolution）"，是一种在深度学习中用于上采样（Up-sampling）的操作，其核心作用是将低分辨率的特征图转换为高分辨率的特征图，常应用于图像分割（如 U-Net 的解码器）、生成对抗网络（GAN）等需要恢复图像尺寸的任务中。转置卷积的核参数是可学习的。

举例：

假设我们有一个 2×2 的输入特征图（如下左），希望通过转置卷积将其放大为 4×4 的输出：

先对输入特征图进行 "扩张"
再用卷积核对扩张后的矩阵进行常规卷积

输入（2×2）扩张后（4×4）输出（4×4）
$a b \] → \[ a 0 b 0 \] → （卷积核运算结果） \[ c d \] \[ 0 0 0 0$ $c 0 d 0$ $0 0 0 0$

2.14、双线性插值

双线性插值（Bilinear Interpolation）是一种常用的上采样（或下采样）技术，用于在图像缩放、特征图尺寸调整时，通过加权计算相邻像素的值来生成新像素，以获得更平滑的结果。它是线性插值在二维空间的扩展，比简单的最近邻插值（直接取最近像素值）效果更优，能减少锯齿感。是一种固定规则的上采样方法，无学习参数，仅通过数学公式计算新像素值，优点是速度快、实现简单，缺点是无法根据任务自适应学习特征（例如无法针对性恢复图像细节）。
双线性插值的本质是：在两个方向（x 轴和 y 轴）上分别进行一次线性插值，最终得到目标位置的像素值。

比如：取原始点的四个角的点形成一个矩阵，然后再经过固定的数学运算得到结果，就像是求中心平均一样。

2.15、注意力机制

1、注意力机制

1）是什么：

注意力机制是模拟人类视觉注意力的算法思想。

它允许模型在处理信息时聚焦最重要的部分，同时忽略那些不相关的信息。

也就是：给重要信息 "多投票"，给次要信息 "少投票"，让模型只盯着关键部分干活。

2）用来解决：提高解决问题的效率；提升匹配精度；

3）注意力三要素：

Query（查询向量）：代表 "当前要关注什么"；
Key（键向量）：代表 "输入数据有什么信息"；
Value（值向量）：代表 "输入数据的具体内容"。

其中：Q、K、V是由原数据（可以同来源或者不同来源）再经过3个可学习的矩阵或提前定义好的函数等去计算出来。-

三者关系可以类比查字典：Query 是你要查的字，Key 是字典的索引，Value 是索引对应的释义。其中Query和每个Key都有不同的权重（通过训练得到），所以uery要和每个Key进行匹配，看哪个相似度最高才选哪个或者说哪个更重要。

其中dk是向量的维度。

2、自注意力机制

输入特征自己和自己计算注意力，捕捉内部关联

3、交叉注意力机制

两个不同模态 / 序列的特征计算注意力（如文本→图像）

4、多头注意力机制

并行计算多组注意力（即：分成N组分别计算，最后再将这N组的结果通过计算再合成1个最终结果），捕捉不同维度的关联信息

5、融合注意力机制

融合注意力机制（Fused Attention Mechanism） 是一种结合空间注意力 与通道注意力 的复合注意力策略，核心是同时捕捉"位置对应关系"和"色彩特征关联"，从而实现更精准的色彩迁移与匹配。

（注：上述描述都是我们理论上为了合理化它或者说更好去理解它而提出的，实际情况其实就是做数学运算，只是这种运算刚好能达到目标，所以我们需要去尝试去解释它为什么这样运算能有效果。）

具体计算细节可看这位博主的文章，其中的"自注意力机制"部分https://zhilengnuan.blog.csdn.net/article/details/121101749?fromshare=blogdetail&sharetype=blogdetail&sharerId=121101749&sharerefer=PC&sharesource=weixin_43687024&sharefrom=from_link

2.16、多模态

多模态（Multi-modal） 指的是融合两种或两种以上不同类型数据（模态） 进行模型训练或任务执行的技术范式，核心是让模型能同时理解和处理不同来源的信息。

常见的模态类型（以图像着色任务为例）

视觉模态：线稿图、彩色参考图、物体轮廓图等图像类数据；

文本模态：描述色彩和风格的文字指令（如 "给卡通人物的头发上棕色，衣服上黄色"）；

语义模态：图像的语义分割图、类别标签等结构化信息。

三、常见的激活函数

3.1、ReLU

ReLU（Rectified Linear Unit，修正线性单元）是深度学习中最常用的激活函数之一。

非线性的
ReLU 函数的定义为f(x) = max(0, x)。对于任意输入x，如果x小于 0，ReLU 的输出为 0；如果x大于或等于 0，输出就是x本身。

3.2、sigmoid

sigmoid 是一种经典的非线性激活函数，其核心作用是将任意实数输入映射到 (0, 1) 区间，常用于需要输出概率值的场景（如二分类任务）。函数图像呈 "S" 形（Sigmoid Curve），因此也被称为 "S 形函数"。

sigmoid 函数的数学公式为：

(1)当时：；

(2)当时：；

(3)当时：。

3.3、tanh

tanh（双曲正切函数，Hyperbolic Tangent）是另一种经典的非线性激活函数，与 sigmoid 类似但输出范围不同，在早期神经网络中常被用于隐藏层，尤其在循环神经网络（RNN）中曾较为常见。

tanh 函数的数学公式为：

(1)当时：；

(2)当时：；

(3)当时：。

关于原点对称。

3.4、Softmax

Softmax 函数是多分类任务中核心的归一化函数 ，作用是把一组任意实数的输出，转化为 0~1 之间的概率值，且所有概率之和为 1，方便模型判断输入样本属于哪一类。

Softmax函数的数学公式为：

四、常见的网络模型

4.1、U-Net

UNet 是一种经典的**编码器 - 解码器（Encoder-Decoder）架构的卷积神经网络，**被广泛应用于图像修复、图像分割、图像着色、扩散模型噪声预测等任务。

编码器（Encoder）------ 下采样过程，对应上图的左边：

由多个卷积层和池化层组成，作用是逐步降低特征图的空间维度，提取图像的深层语义特征（如物体轮廓、纹理模式）。越往下抽象程度越高。（特征信息从：细节-》全局）
解码器（Decoder）------ 上采样过程，对应上图的右边：

由多个反卷积层（或转置卷积层）组成，作用是逐步恢复特征图的空间维度，将深层语义特征映射回原始图像尺寸。
跳跃连接（Skip Connection），对应上图中间的灰色箭头：

将编码器对应层级的特征图直接拼接（Concat）到解码器的特征图上，补充下采样过程中丢失的细节信息（如边缘、纹理），让输出结果更精准。

流程：将图片从左上角经过多次下采样过程到中间最底下，再经过多次上采样过程到右上角，并且过程中还将左右两部分按对应的层级进行连接。（注意：模型中的卷积、池化和反卷积等等各种参数是在训练中得到的；尺寸和数量等等是人为提前设置好的）

4.2、生成对抗网络GAN

生成对抗网络（Generative Adversarial Networks，简称 GAN） ，是深度学习领域一种经典的生成模型 ，核心原理是通过两个子网络的博弈训练来生成高质量的新数据。

生成器（Generator, G）：接收随机噪声作为输入，通过网络运算生成模拟真实数据的假样本（比如模拟真实色彩分布的线稿着色图像）。尽可能生成逼真的样本，欺骗判别器。

判别器（Discriminator, D）：接收两类输入 ------ 真实数据样本（比如人工着色的高质量动漫线稿）和生成器产出的假样本，输出一个 0~1 的概率值，判断输入样本是 "真实" 还是 "伪造"。尽可能准确地区分真实样本和假样本。

训练过程：

训练初期，生成器生成的样本质量较差，判别器能轻松识别出 "伪造" 样本。

随着训练迭代，生成器不断优化参数，提升样本逼真度；判别器也同步优化，提升鉴别能力。

最终达到一种纳什均衡状态：生成器生成的样本足以以假乱真，判别器的判断准确率接近 50%（无法区分真假）。

4.3、扩散模型

扩散模型（Diffusion Model） 是一种基于概率理论的生成模型，核心是通过 "逐步加噪破坏" 与 "逐步去噪还原" 的双向过程学习数据分布，从而生成与真实数据高度相似的新内容。
扩散模型的运作分为前向扩散 和反向扩散两个阶段。其中：

前向扩散阶段（加噪过程）：这个阶段是无训练的确定性过程，模型只需按照固定的噪声添加规则执行即可

反向扩散阶段（去噪生成过程）：这是模型生成内容的核心阶段，需要通过训练让模型学习 "从噪声中还原真实图像" 的能力

4.4、隐扩散模型

隐扩散模型（Latent Diffusion Model，简称 LDM）。核心是将 "扩散过程" 从高维像素空间迁移到低维隐空间 ，实现 "高效训练 + 高质量生成" 的平衡。通过变分自动编码器（VAE） 将图像压缩为低维隐特征，再在隐空间中完成扩散过程，大幅降低计算量的同时，保留图像的语义与风格信息。

以老版本的Stable Diffusion为例，它是一个轻量化的隐扩散模型：

其中：x为输入；为输出；为编码器；D为解码器；z为经过编码器获得的潜在向量；为加噪后的潜在向量；是文本/图像的编码器（这部分做条件插入）。

4.5、卷积神经网络CNN

卷积神经网络（Convolutional Neural Network，简称 CNN） 是一种专门为处理网格结构数据 （如二维图像、一维时序信号）设计的深度学习模型，核心特点是通过卷积操作 自动提取数据的局部特征，并利用权值共享 和池化大幅降低模型参数规模

4.6、循环神经网络RNN

循环神经网络（Recurrent Neural Network，简称 RNN） 是一类专为序列数据 （如文本、语音、时序信号）设计的深度学习模型，核心特点是通过循环连接让网络拥有 "记忆" 能力，能够利用历史信息来处理当前输入，弥补了传统 CNN、全连接网络无法建模时序依赖的缺陷。

4.7、Transformer

Transformer 是一种基于自注意力机制（Self-Attention） 的深度学习模型架构。采用编码器 - 解码器（Encoder-Decoder） 的对称结构，无论是编码器还是解码器，都由多个相同的 "层" 堆叠而成。

这里只做简单描述，详情内容可以看这位博主的分享https://zhilengnuan.blog.csdn.net/article/details/121101749?fromshare=blogdetail&sharetype=blogdetail&sharerId=121101749&sharerefer=PC&sharesource=weixin_43687024&sharefrom=from_link

4.8、任意分割模型（SAM）

任意分割模型（SAM，Segment Anything Model），一款通用、基础的图像分割模型 ，核心能力是实现 "输入任意提示，输出任意目标的分割掩码"

其它基础知识：

1、数组

机器学习和深度学习常用的数据结构是数组。

1.1、N维数组

0维数组：标量；1.0；一个类别

1维数组：向量；[1.2,2.0,3.1]；一个特征向量

2维数组：矩阵；[[1,2,3],[2,3,4],[4,5,6]]；特征矩阵

3维数组：例如RGB图片（宽*高*通道）

4维数组：例如多个RGB图片的集合（宽*高*通道*图片数量），或说视频

5维数组：例如多个视频（宽*高*通道*时间*视频数量）

等等。。。

1.2、创建数组

形状

每个元素的数据类型

每个元素的值

初始化随机数组时，常用的两种分布方式：服从正态分布、服从均匀分布。

（1）服从正态分布

数组的值在0（或称中间值）左右徘徊。

（2）服从均匀分布

数组的值有高有低，数组的实际平均值接近理论平均值（或称中间值）。

1.3、访问元素

像访问普通数组一样。

2、图片的RGB模型表示：

++例如：图像224*224*3++

意思是：输入图像维度是224*224*3，图片大小是224*224，通道数是3。

224 * 224：这是图片的空间维度。它表示图片有 224 像素高，224 像素宽。总共有 224 x 224 = 50,176 个像素点。

*3：这是通道维度。它表示每个像素点不是由一个数字，而是由 3 个数字来描述的。

2.1、通道：

你可以把一张彩色数字图片想象成是由三张透明的灰度图（图层）叠在一起形成的。每一张灰度图就代表一个"通道"。

对于最常见的彩色图片（比如你用手机拍的照片），这三个通道分别是：

红色通道：这张灰度图只记录图像中每个像素的"红色"强度。越白的地方表示红色越多，越黑的地方表示红色越少。

绿色通道：只记录"绿色"强度。

蓝色通道：只记录"蓝色"强度。

计算机通过将这三个通道对应位置的灰度值进行混合，最终在我们屏幕上呈现出五彩斑斓的颜色。这就是著名的 RGB 颜色模型。所以，通道数 = 3，指的就是这张图片由红、绿、蓝三个颜色通道构成。

3、线稿

线稿是仅用线条勾勒轮廓、结构与细节，不上色、不做光影渲染的绘画底稿或独立作品，核心是定 "形"。

用途：创作前期打底（如漫画、插画），或作为独立线描作品；

仅用线条表达：依赖不同粗细、虚实的线条，区分物体边界、内部结构（如骨骼、褶皱）和层次关系；

无额外修饰：不添加颜色、渐变、阴影等元素，聚焦于 "形" 的精准呈现。

如下图，左边是线稿，右边是上色后：

4、语义分割

语义分割是计算机视觉中的一项任务，目标是对图像中的每个像素进行分类，即判断每个个像素属于哪个预定义的类别（如人、车、道路、天空等），最终输出一幅与输入图像尺寸相同的 "类别掩码"，实现像素级的场景理解。

5、CIELAB 颜色空间

3 个核心通道（独立无关联）

L：亮度通道，0 (纯黑) → 100 (纯白)

a：色彩通道，-128 (绿) → +127 (红)

b：色彩通道，-128 (蓝) → +127 (黄)

数字图像主流是 RGB，Lab主要用在图像修复、印刷校色、色差检测、图像调色等，同时Lab与 RGB 可无损互转。

6、先验知识

先验知识（Prior Knowledge）是主体在接触具体任务数据前已具备的知识或假设，来源包括语言学规律、世界常识、领域理论、专家经验等，可显著提升模型效率、准确性与可解释性，减少数据依赖与幻觉问题。

深度学习的基础知识（常见名词解释）

一、简介

1.0、机器学习与深度学习的关系

1.1、神经网络简介

1.2、应用领域

1.3、分类