掌握神经网络的模型结构

目录

一、前言

二、什么是神经网络

三、神经网络的基本组成

[四、输入层(Input Layer)](#四、输入层(Input Layer))

[五、隐藏层(Hidden Layer)](#五、隐藏层(Hidden Layer))

[六、输出层(Output Layer)](#六、输出层(Output Layer))

七、神经元的计算过程

八、权重(Weight)

九、偏置(Bias)

十、激活函数的作用

十一、常见激活函数

1、Sigmoid

2、Tanh

3、ReLU

[十二、前向传播(Forward Propagation)](#十二、前向传播(Forward Propagation))

[十三、损失函数(Loss Function)](#十三、损失函数(Loss Function))

[十四、反向传播(Back Propagation)](#十四、反向传播(Back Propagation))

十五、神经网络训练流程

[十六、使用 sklearn 创建神经网络](#十六、使用 sklearn 创建神经网络)

十七、鸢尾花数据集实战

十八、深度学习中的神经网络演化

十九、面试高频问题

神经网络由哪些部分组成?

隐藏层作用是什么?

为什么需要激活函数?

当前最常用激活函数是什么?

神经网络如何学习?

二十、总结


一、前言

在上一篇文章《掌握感知器的学习原理》中,我们学习了:

复制代码
输入特征

↓

加权求和

↓

激活函数

↓

输出结果

感知器虽然简单,但却存在一个致命缺陷:

复制代码
只能解决线性可分问题

例如:

复制代码
AND问题

OR问题

能够解决。

但:

复制代码
XOR问题

却无法处理。

于是研究人员提出了:

复制代码
多层感知器(MLP)

Multi-Layer Perceptron

也就是现代神经网络的雏形。

从今天的大模型:

复制代码
ChatGPT

DeepSeek

Claude

Gemini

到图像识别中的:

复制代码
CNN

ResNet

YOLO

本质上都属于神经网络。

因此:

理解神经网络结构,是进入深度学习世界的重要一步。

本文将系统讲解:

复制代码
神经网络是什么

神经网络组成结构

输入层

隐藏层

输出层

权重与偏置

激活函数

前向传播

反向传播

神经网络代码实现

二、什么是神经网络

神经网络(Neural Network)是一种模仿生物神经系统构建的机器学习模型。

简单来说:

复制代码
多个感知器

组合在一起

形成神经网络

整体结构:

其核心目标:

复制代码
自动学习数据中的规律

从而实现:

复制代码
分类

预测

识别

生成

等任务。


三、神经网络的基本组成

一个标准神经网络通常包含:

复制代码
输入层(Input Layer)

隐藏层(Hidden Layer)

输出层(Output Layer)

结构如下:

可以理解为:

复制代码
输入层负责接收数据

隐藏层负责提取特征

输出层负责产生结果

四、输入层(Input Layer)

输入层是神经网络的数据入口。

例如:

预测房价:

特征 数值
面积 120
楼层 15
房龄 5

那么输入层节点数:

复制代码
3个

对应:

复制代码
x = [120, 15, 5]

输入层本身:

复制代码
不参与计算

只负责传递数据

五、隐藏层(Hidden Layer)

隐藏层是神经网络最核心的部分。

作用:

复制代码
特征提取

模式学习

规律发现

例如:

识别猫和狗图片。

输入:

复制代码
像素数据

隐藏层可能自动学习:

复制代码
耳朵特征

眼睛特征

轮廓特征

毛发特征

最终组合成:

复制代码
猫

或者

狗

六、输出层(Output Layer)

输出层负责给出最终结果。

例如:

二分类问题:

复制代码
是否患病

输出:

复制代码
0

或

1

多分类问题:

复制代码
猫

狗

鸟

输出:

复制代码
[0.1,0.8,0.1]

表示:

复制代码
狗的概率最高

七、神经元的计算过程

一个神经元内部实际上执行:

复制代码
加权求和

公式:

复制代码
z = w1x1 + w2x2 + ... + wnxn + b

z=w_1x_1+w_2x_2+...+w_nx_n+b


其中:

复制代码
x

输入值

w

权重

b

偏置

例如:

python 复制代码
x1 = 2
x2 = 3

w1 = 0.5
w2 = 0.8

b = 1

z = w1*x1 + w2*x2 + b

print(z)

输出:

复制代码
4.4

八、权重(Weight)

权重决定:

复制代码
哪个特征更重要

例如:

房价预测:

复制代码
面积

楼层

装修

可能:

复制代码
面积权重最大

表示:

复制代码
面积对房价影响最明显

训练过程其实就是不断调整:

复制代码
Weight

的过程。


九、偏置(Bias)

偏置可以理解为:

复制代码
修正项

公式:

复制代码
y = wx + b

其中:

复制代码
b

就是偏置

作用:

复制代码
调整模型拟合能力

避免模型只能通过原点。


十、激活函数的作用

如果没有激活函数:

复制代码
无论多少层

最终仍然是线性模型

因此需要:

复制代码
Activation Function

引入非线性能力。


十一、常见激活函数

1、Sigmoid

公式:

复制代码
f(x)=1/(1+e^-x)


输出范围:

复制代码
0~1

适用于:

复制代码
概率输出

2、Tanh

公式:

复制代码
tanh(x)

tanh(x)


输出范围:

复制代码
-1~1

3、ReLU

当前最常用。

公式:

复制代码
f(x)=max(0,x)

f(x)=max(0,x)


特点:

复制代码
计算简单

收敛速度快

梯度消失问题较少

十二、前向传播(Forward Propagation)

前向传播是神经网络预测过程。

流程:

具体步骤:

复制代码
输入数据

↓

线性计算

↓

激活函数

↓

下一层

↓

输出结果

十三、损失函数(Loss Function)

预测后需要判断:

复制代码
预测是否正确

例如:

真实值:

复制代码
1

预测值:

复制代码
0.8

误差:

复制代码
0.2

常见损失函数:

复制代码
MSE

Cross Entropy

十四、反向传播(Back Propagation)

神经网络学习的核心。

步骤:

复制代码
计算误差

↓

计算梯度

↓

更新权重

↓

继续训练

更新公式:

复制代码
w = w - η × gradient

w=w-\eta\times gradient


其中:

复制代码
η

学习率

十五、神经网络训练流程

完整流程:

复制代码
初始化参数
      ↓
前向传播
      ↓
计算损失
      ↓
反向传播
      ↓
更新参数
      ↓
重复训练
      ↓
模型收敛

十六、使用 sklearn 创建神经网络

Sklearn提供:

复制代码
MLPClassifier

用于构建神经网络。

代码:

python 复制代码
from sklearn.neural_network import MLPClassifier

model = MLPClassifier(
    hidden_layer_sizes=(100,),
    max_iter=1000,
    random_state=42
)

model.fit(X_train, y_train)

参数说明:

复制代码
hidden_layer_sizes

隐藏层神经元数量

max_iter

最大训练次数

十七、鸢尾花数据集实战

python 复制代码
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()

X_train,X_test,y_train,y_test = train_test_split(
    iris.data,
    iris.target,
    test_size=0.2,
    random_state=42
)

model = MLPClassifier(
    hidden_layer_sizes=(32,16),
    max_iter=1000
)

model.fit(X_train,y_train)

pred = model.predict(X_test)

print(
    accuracy_score(
        y_test,
        pred
    )
)

输出:

复制代码
0.95+

说明模型具有较好的分类能力。


十八、深度学习中的神经网络演化

神经网络的发展路线:

复制代码
感知器
    ↓
多层感知器(MLP)
    ↓
卷积神经网络(CNN)
    ↓
循环神经网络(RNN)
    ↓
LSTM
    ↓
Transformer
    ↓
GPT

虽然结构越来越复杂,但核心仍然是:

复制代码
神经元

权重

激活函数

反向传播

十九、面试高频问题

神经网络由哪些部分组成?

复制代码
输入层

隐藏层

输出层

隐藏层作用是什么?

复制代码
提取特征

学习规律

为什么需要激活函数?

复制代码
引入非线性能力

当前最常用激活函数是什么?

复制代码
ReLU

神经网络如何学习?

复制代码
前向传播

↓

计算误差

↓

反向传播

↓

更新权重

二十、总结

神经网络本质上是由大量神经元组成的数学模型。

核心结构:

复制代码
输入层
    ↓
隐藏层
    ↓
输出层

训练过程:

复制代码
前向传播
    ↓
损失计算
    ↓
反向传播
    ↓
参数更新

从最早的感知器到今天的 GPT,大模型的底层逻辑始终没有改变:

通过神经元连接构建网络,通过反向传播不断优化参数,从海量数据中学习规律,最终完成智能预测与决策。这就是神经网络能够驱动现代人工智能发展的根本原因。

相关推荐
十铭忘1 小时前
video_maker1.0踩坑全记录
人工智能
稷下元歌1 小时前
7天学会plc加机器视觉关于运动控制部份,配套视频在bib
开发语言·c++·git·vscode·python·docker·pip
深度学习lover1 小时前
<数据集>yolo安全手套佩戴识别<目标检测>
人工智能·yolo·目标检测·数据集·安全手套佩戴识别
奋斗的小方1 小时前
Java进阶篇1-1:异常
java·开发语言·python
抓蛙师1 小时前
【无标题】
人工智能
码云骑士1 小时前
AI 自动化测试
人工智能
愚公搬代码1 小时前
【愚公系列】《移动端AI应用开发》013-DeepSeek API开发与集成(深度集成与中间件架构)
人工智能·中间件·架构
段一凡-华北理工大学1 小时前
工业领域的Hadoop架构学习~系列文章17:Hadoop性能调优- 调度集群每一分性能
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
feiwuw1 小时前
Hermes Agent介绍
人工智能·hermes