掌握神经网络的模型结构

一、前言

二、什么是神经网络

三、神经网络的基本组成

[四、输入层（Input Layer）](#四、输入层（Input Layer）)

[五、隐藏层（Hidden Layer）](#五、隐藏层（Hidden Layer）)

[六、输出层（Output Layer）](#六、输出层（Output Layer）)

[十二、前向传播（Forward Propagation）](#十二、前向传播（Forward Propagation）)

[十三、损失函数（Loss Function）](#十三、损失函数（Loss Function）)

[十四、反向传播（Back Propagation）](#十四、反向传播（Back Propagation）)

十五、神经网络训练流程

[十六、使用 sklearn 创建神经网络](#十六、使用 sklearn 创建神经网络)

一、前言

在上一篇文章《掌握感知器的学习原理》中，我们学习了：

复制代码

输入特征

↓

加权求和

↓

激活函数

↓

输出结果

感知器虽然简单，但却存在一个致命缺陷：

复制代码

只能解决线性可分问题

例如：

复制代码

AND问题

OR问题

能够解决。

但：

复制代码

XOR问题

却无法处理。

于是研究人员提出了：

复制代码

多层感知器（MLP）

Multi-Layer Perceptron

也就是现代神经网络的雏形。

从今天的大模型：

复制代码

ChatGPT

DeepSeek

Claude

Gemini

到图像识别中的：

复制代码

CNN

ResNet

YOLO

本质上都属于神经网络。

因此：

理解神经网络结构，是进入深度学习世界的重要一步。

本文将系统讲解：

复制代码

神经网络是什么

神经网络组成结构

输入层

隐藏层

输出层

权重与偏置

激活函数

前向传播

反向传播

神经网络代码实现

二、什么是神经网络

神经网络（Neural Network）是一种模仿生物神经系统构建的机器学习模型。

简单来说：

复制代码

多个感知器

组合在一起

形成神经网络

整体结构：

其核心目标：

复制代码

自动学习数据中的规律

从而实现：

复制代码

分类

预测

识别

生成

等任务。

三、神经网络的基本组成

一个标准神经网络通常包含：

复制代码

输入层（Input Layer）

隐藏层（Hidden Layer）

输出层（Output Layer）

结构如下：

可以理解为：

复制代码

输入层负责接收数据

隐藏层负责提取特征

输出层负责产生结果

四、输入层（Input Layer）

输入层是神经网络的数据入口。

例如：

预测房价：

特征	数值
面积	120
楼层	15
房龄	5

那么输入层节点数：

复制代码

3个

对应：

复制代码

x = [120, 15, 5]

输入层本身：

复制代码

不参与计算

只负责传递数据

五、隐藏层（Hidden Layer）

隐藏层是神经网络最核心的部分。

作用：

复制代码

特征提取

模式学习

规律发现

例如：

识别猫和狗图片。

输入：

复制代码

像素数据

隐藏层可能自动学习：

复制代码

耳朵特征

眼睛特征

轮廓特征

毛发特征

最终组合成：

复制代码

猫

或者

狗

六、输出层（Output Layer）

输出层负责给出最终结果。

例如：

二分类问题：

复制代码

是否患病

输出：

复制代码

多分类问题：

复制代码

猫

狗

鸟

输出：

复制代码

[0.1,0.8,0.1]

表示：

复制代码

狗的概率最高

七、神经元的计算过程

一个神经元内部实际上执行：

复制代码

加权求和

公式：

复制代码

z = w1x1 + w2x2 + ... + wnxn + b

z=w_1x_1+w_2x_2+...+w_nx_n+b

其中：

复制代码

x

输入值

w

权重

b

偏置

例如：

python 复制代码

x1 = 2
x2 = 3

w1 = 0.5
w2 = 0.8

b = 1

z = w1*x1 + w2*x2 + b

print(z)

输出：

复制代码

4.4

八、权重（Weight）

权重决定：

复制代码

哪个特征更重要

例如：

房价预测：

复制代码

面积

楼层

装修

可能：

复制代码

面积权重最大

表示：

复制代码

面积对房价影响最明显

训练过程其实就是不断调整：

复制代码

Weight

的过程。

九、偏置（Bias）

偏置可以理解为：

复制代码

修正项

公式：

复制代码

y = wx + b

其中：

复制代码

b

就是偏置

作用：

复制代码

调整模型拟合能力

避免模型只能通过原点。

十、激活函数的作用

如果没有激活函数：

复制代码

无论多少层

最终仍然是线性模型

因此需要：

复制代码

Activation Function

引入非线性能力。

十一、常见激活函数

1、Sigmoid

公式：

复制代码

f(x)=1/(1+e^-x)

输出范围：

复制代码

0~1

适用于：

复制代码

概率输出

2、Tanh

公式：

复制代码

tanh(x)

tanh(x)

输出范围：

复制代码

-1~1

3、ReLU

当前最常用。

公式：

复制代码

f(x)=max(0,x)

f(x)=max(0,x)

特点：

复制代码

计算简单

收敛速度快

梯度消失问题较少

十二、前向传播（Forward Propagation）

前向传播是神经网络预测过程。

流程：

具体步骤：

复制代码

输入数据

↓

线性计算

↓

激活函数

↓

下一层

↓

输出结果

十三、损失函数（Loss Function）

预测后需要判断：

复制代码

预测是否正确

例如：

真实值：

复制代码

预测值：

复制代码

0.8

误差：

复制代码

0.2

常见损失函数：

复制代码

MSE

Cross Entropy

十四、反向传播（Back Propagation）

神经网络学习的核心。

步骤：

复制代码

计算误差

↓

计算梯度

↓

更新权重

↓

继续训练

更新公式：

复制代码

w = w - η × gradient

w=w-\eta\times gradient

其中：

复制代码

η

学习率

十五、神经网络训练流程

完整流程：

复制代码

初始化参数
      ↓
前向传播
      ↓
计算损失
      ↓
反向传播
      ↓
更新参数
      ↓
重复训练
      ↓
模型收敛

十六、使用 sklearn 创建神经网络

Sklearn提供：

复制代码

MLPClassifier

用于构建神经网络。

代码：

python 复制代码

from sklearn.neural_network import MLPClassifier

model = MLPClassifier(
    hidden_layer_sizes=(100,),
    max_iter=1000,
    random_state=42
)

model.fit(X_train, y_train)

参数说明：

复制代码

hidden_layer_sizes

隐藏层神经元数量

max_iter

最大训练次数

十七、鸢尾花数据集实战

python 复制代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()

X_train,X_test,y_train,y_test = train_test_split(
    iris.data,
    iris.target,
    test_size=0.2,
    random_state=42
)

model = MLPClassifier(
    hidden_layer_sizes=(32,16),
    max_iter=1000
)

model.fit(X_train,y_train)

pred = model.predict(X_test)

print(
    accuracy_score(
        y_test,
        pred
    )
)

输出：

复制代码

0.95+

说明模型具有较好的分类能力。

十八、深度学习中的神经网络演化

神经网络的发展路线：

复制代码

感知器
    ↓
多层感知器（MLP）
    ↓
卷积神经网络（CNN）
    ↓
循环神经网络（RNN）
    ↓
LSTM
    ↓
Transformer
    ↓
GPT

虽然结构越来越复杂，但核心仍然是：

复制代码

神经元

权重

激活函数

反向传播

十九、面试高频问题

神经网络由哪些部分组成？

复制代码

输入层

隐藏层

输出层

隐藏层作用是什么？

复制代码

提取特征

学习规律

为什么需要激活函数？

复制代码

引入非线性能力

当前最常用激活函数是什么？

复制代码

ReLU

神经网络如何学习？

复制代码

前向传播

↓

计算误差

↓

反向传播

↓

更新权重

二十、总结

神经网络本质上是由大量神经元组成的数学模型。

核心结构：

复制代码

输入层
    ↓
隐藏层
    ↓
输出层

训练过程：

复制代码

前向传播
    ↓
损失计算
    ↓
反向传播
    ↓
参数更新

从最早的感知器到今天的 GPT，大模型的底层逻辑始终没有改变：

通过神经元连接构建网络，通过反向传播不断优化参数，从海量数据中学习规律，最终完成智能预测与决策。这就是神经网络能够驱动现代人工智能发展的根本原因。