目录
[四、输入层(Input Layer)](#四、输入层(Input Layer))
[五、隐藏层(Hidden Layer)](#五、隐藏层(Hidden Layer))
[六、输出层(Output Layer)](#六、输出层(Output Layer))
[十二、前向传播(Forward Propagation)](#十二、前向传播(Forward Propagation))
[十三、损失函数(Loss Function)](#十三、损失函数(Loss Function))
[十四、反向传播(Back Propagation)](#十四、反向传播(Back Propagation))
[十六、使用 sklearn 创建神经网络](#十六、使用 sklearn 创建神经网络)
一、前言
在上一篇文章《掌握感知器的学习原理》中,我们学习了:
输入特征
↓
加权求和
↓
激活函数
↓
输出结果
感知器虽然简单,但却存在一个致命缺陷:
只能解决线性可分问题
例如:
AND问题
OR问题
能够解决。
但:
XOR问题
却无法处理。
于是研究人员提出了:
多层感知器(MLP)
Multi-Layer Perceptron
也就是现代神经网络的雏形。
从今天的大模型:
ChatGPT
DeepSeek
Claude
Gemini
到图像识别中的:
CNN
ResNet
YOLO
本质上都属于神经网络。
因此:
理解神经网络结构,是进入深度学习世界的重要一步。
本文将系统讲解:
神经网络是什么
神经网络组成结构
输入层
隐藏层
输出层
权重与偏置
激活函数
前向传播
反向传播
神经网络代码实现
二、什么是神经网络
神经网络(Neural Network)是一种模仿生物神经系统构建的机器学习模型。
简单来说:
多个感知器
组合在一起
形成神经网络
整体结构:

其核心目标:
自动学习数据中的规律
从而实现:
分类
预测
识别
生成
等任务。
三、神经网络的基本组成
一个标准神经网络通常包含:
输入层(Input Layer)
隐藏层(Hidden Layer)
输出层(Output Layer)
结构如下:

可以理解为:
输入层负责接收数据
隐藏层负责提取特征
输出层负责产生结果
四、输入层(Input Layer)
输入层是神经网络的数据入口。
例如:
预测房价:
| 特征 | 数值 |
|---|---|
| 面积 | 120 |
| 楼层 | 15 |
| 房龄 | 5 |
那么输入层节点数:
3个
对应:
x = [120, 15, 5]
输入层本身:
不参与计算
只负责传递数据
五、隐藏层(Hidden Layer)
隐藏层是神经网络最核心的部分。
作用:
特征提取
模式学习
规律发现
例如:
识别猫和狗图片。
输入:
像素数据
隐藏层可能自动学习:
耳朵特征
眼睛特征
轮廓特征
毛发特征
最终组合成:
猫
或者
狗
六、输出层(Output Layer)
输出层负责给出最终结果。
例如:
二分类问题:
是否患病
输出:
0
或
1
多分类问题:
猫
狗
鸟
输出:
[0.1,0.8,0.1]
表示:
狗的概率最高
七、神经元的计算过程
一个神经元内部实际上执行:
加权求和
公式:
z = w1x1 + w2x2 + ... + wnxn + b
z=w_1x_1+w_2x_2+...+w_nx_n+b
其中:
x
输入值
w
权重
b
偏置
例如:
python
x1 = 2
x2 = 3
w1 = 0.5
w2 = 0.8
b = 1
z = w1*x1 + w2*x2 + b
print(z)
输出:
4.4
八、权重(Weight)
权重决定:
哪个特征更重要
例如:
房价预测:
面积
楼层
装修
可能:
面积权重最大
表示:
面积对房价影响最明显
训练过程其实就是不断调整:
Weight
的过程。
九、偏置(Bias)
偏置可以理解为:
修正项
公式:
y = wx + b
其中:
b
就是偏置
作用:
调整模型拟合能力
避免模型只能通过原点。
十、激活函数的作用
如果没有激活函数:
无论多少层
最终仍然是线性模型
因此需要:
Activation Function
引入非线性能力。
十一、常见激活函数
1、Sigmoid
公式:
f(x)=1/(1+e^-x)
输出范围:
0~1
适用于:
概率输出
2、Tanh
公式:
tanh(x)
tanh(x)
输出范围:
-1~1
3、ReLU
当前最常用。
公式:
f(x)=max(0,x)
f(x)=max(0,x)
特点:
计算简单
收敛速度快
梯度消失问题较少
十二、前向传播(Forward Propagation)
前向传播是神经网络预测过程。
流程:

具体步骤:
输入数据
↓
线性计算
↓
激活函数
↓
下一层
↓
输出结果
十三、损失函数(Loss Function)
预测后需要判断:
预测是否正确
例如:
真实值:
1
预测值:
0.8
误差:
0.2
常见损失函数:
MSE
Cross Entropy
十四、反向传播(Back Propagation)
神经网络学习的核心。
步骤:
计算误差
↓
计算梯度
↓
更新权重
↓
继续训练
更新公式:
w = w - η × gradient
w=w-\eta\times gradient
其中:
η
学习率
十五、神经网络训练流程
完整流程:
初始化参数
↓
前向传播
↓
计算损失
↓
反向传播
↓
更新参数
↓
重复训练
↓
模型收敛
十六、使用 sklearn 创建神经网络
Sklearn提供:
MLPClassifier
用于构建神经网络。
代码:
python
from sklearn.neural_network import MLPClassifier
model = MLPClassifier(
hidden_layer_sizes=(100,),
max_iter=1000,
random_state=42
)
model.fit(X_train, y_train)
参数说明:
hidden_layer_sizes
隐藏层神经元数量
max_iter
最大训练次数
十七、鸢尾花数据集实战
python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
iris = load_iris()
X_train,X_test,y_train,y_test = train_test_split(
iris.data,
iris.target,
test_size=0.2,
random_state=42
)
model = MLPClassifier(
hidden_layer_sizes=(32,16),
max_iter=1000
)
model.fit(X_train,y_train)
pred = model.predict(X_test)
print(
accuracy_score(
y_test,
pred
)
)
输出:
0.95+
说明模型具有较好的分类能力。
十八、深度学习中的神经网络演化
神经网络的发展路线:
感知器
↓
多层感知器(MLP)
↓
卷积神经网络(CNN)
↓
循环神经网络(RNN)
↓
LSTM
↓
Transformer
↓
GPT
虽然结构越来越复杂,但核心仍然是:
神经元
权重
激活函数
反向传播
十九、面试高频问题
神经网络由哪些部分组成?
输入层
隐藏层
输出层
隐藏层作用是什么?
提取特征
学习规律
为什么需要激活函数?
引入非线性能力
当前最常用激活函数是什么?
ReLU
神经网络如何学习?
前向传播
↓
计算误差
↓
反向传播
↓
更新权重
二十、总结
神经网络本质上是由大量神经元组成的数学模型。
核心结构:
输入层
↓
隐藏层
↓
输出层
训练过程:
前向传播
↓
损失计算
↓
反向传播
↓
参数更新
从最早的感知器到今天的 GPT,大模型的底层逻辑始终没有改变:
通过神经元连接构建网络,通过反向传播不断优化参数,从海量数据中学习规律,最终完成智能预测与决策。这就是神经网络能够驱动现代人工智能发展的根本原因。