掌握神经网络的模型结构

目录

一、前言

二、什么是神经网络

三、神经网络的基本组成

[四、输入层(Input Layer)](#四、输入层(Input Layer))

[五、隐藏层(Hidden Layer)](#五、隐藏层(Hidden Layer))

[六、输出层(Output Layer)](#六、输出层(Output Layer))

七、神经元的计算过程

八、权重(Weight)

九、偏置(Bias)

十、激活函数的作用

十一、常见激活函数

1、Sigmoid

2、Tanh

3、ReLU

[十二、前向传播(Forward Propagation)](#十二、前向传播(Forward Propagation))

[十三、损失函数(Loss Function)](#十三、损失函数(Loss Function))

[十四、反向传播(Back Propagation)](#十四、反向传播(Back Propagation))

十五、神经网络训练流程

[十六、使用 sklearn 创建神经网络](#十六、使用 sklearn 创建神经网络)

十七、鸢尾花数据集实战

十八、深度学习中的神经网络演化

十九、面试高频问题

神经网络由哪些部分组成?

隐藏层作用是什么?

为什么需要激活函数?

当前最常用激活函数是什么?

神经网络如何学习?

二十、总结


一、前言

在上一篇文章《掌握感知器的学习原理》中,我们学习了:

复制代码
输入特征

↓

加权求和

↓

激活函数

↓

输出结果

感知器虽然简单,但却存在一个致命缺陷:

复制代码
只能解决线性可分问题

例如:

复制代码
AND问题

OR问题

能够解决。

但:

复制代码
XOR问题

却无法处理。

于是研究人员提出了:

复制代码
多层感知器(MLP)

Multi-Layer Perceptron

也就是现代神经网络的雏形。

从今天的大模型:

复制代码
ChatGPT

DeepSeek

Claude

Gemini

到图像识别中的:

复制代码
CNN

ResNet

YOLO

本质上都属于神经网络。

因此:

理解神经网络结构,是进入深度学习世界的重要一步。

本文将系统讲解:

复制代码
神经网络是什么

神经网络组成结构

输入层

隐藏层

输出层

权重与偏置

激活函数

前向传播

反向传播

神经网络代码实现

二、什么是神经网络

神经网络(Neural Network)是一种模仿生物神经系统构建的机器学习模型。

简单来说:

复制代码
多个感知器

组合在一起

形成神经网络

整体结构:

其核心目标:

复制代码
自动学习数据中的规律

从而实现:

复制代码
分类

预测

识别

生成

等任务。


三、神经网络的基本组成

一个标准神经网络通常包含:

复制代码
输入层(Input Layer)

隐藏层(Hidden Layer)

输出层(Output Layer)

结构如下:

可以理解为:

复制代码
输入层负责接收数据

隐藏层负责提取特征

输出层负责产生结果

四、输入层(Input Layer)

输入层是神经网络的数据入口。

例如:

预测房价:

特征 数值
面积 120
楼层 15
房龄 5

那么输入层节点数:

复制代码
3个

对应:

复制代码
x = [120, 15, 5]

输入层本身:

复制代码
不参与计算

只负责传递数据

五、隐藏层(Hidden Layer)

隐藏层是神经网络最核心的部分。

作用:

复制代码
特征提取

模式学习

规律发现

例如:

识别猫和狗图片。

输入:

复制代码
像素数据

隐藏层可能自动学习:

复制代码
耳朵特征

眼睛特征

轮廓特征

毛发特征

最终组合成:

复制代码
猫

或者

狗

六、输出层(Output Layer)

输出层负责给出最终结果。

例如:

二分类问题:

复制代码
是否患病

输出:

复制代码
0

或

1

多分类问题:

复制代码
猫

狗

鸟

输出:

复制代码
[0.1,0.8,0.1]

表示:

复制代码
狗的概率最高

七、神经元的计算过程

一个神经元内部实际上执行:

复制代码
加权求和

公式:

复制代码
z = w1x1 + w2x2 + ... + wnxn + b

z=w_1x_1+w_2x_2+...+w_nx_n+b


其中:

复制代码
x

输入值

w

权重

b

偏置

例如:

python 复制代码
x1 = 2
x2 = 3

w1 = 0.5
w2 = 0.8

b = 1

z = w1*x1 + w2*x2 + b

print(z)

输出:

复制代码
4.4

八、权重(Weight)

权重决定:

复制代码
哪个特征更重要

例如:

房价预测:

复制代码
面积

楼层

装修

可能:

复制代码
面积权重最大

表示:

复制代码
面积对房价影响最明显

训练过程其实就是不断调整:

复制代码
Weight

的过程。


九、偏置(Bias)

偏置可以理解为:

复制代码
修正项

公式:

复制代码
y = wx + b

其中:

复制代码
b

就是偏置

作用:

复制代码
调整模型拟合能力

避免模型只能通过原点。


十、激活函数的作用

如果没有激活函数:

复制代码
无论多少层

最终仍然是线性模型

因此需要:

复制代码
Activation Function

引入非线性能力。


十一、常见激活函数

1、Sigmoid

公式:

复制代码
f(x)=1/(1+e^-x)


输出范围:

复制代码
0~1

适用于:

复制代码
概率输出

2、Tanh

公式:

复制代码
tanh(x)

tanh(x)


输出范围:

复制代码
-1~1

3、ReLU

当前最常用。

公式:

复制代码
f(x)=max(0,x)

f(x)=max(0,x)


特点:

复制代码
计算简单

收敛速度快

梯度消失问题较少

十二、前向传播(Forward Propagation)

前向传播是神经网络预测过程。

流程:

具体步骤:

复制代码
输入数据

↓

线性计算

↓

激活函数

↓

下一层

↓

输出结果

十三、损失函数(Loss Function)

预测后需要判断:

复制代码
预测是否正确

例如:

真实值:

复制代码
1

预测值:

复制代码
0.8

误差:

复制代码
0.2

常见损失函数:

复制代码
MSE

Cross Entropy

十四、反向传播(Back Propagation)

神经网络学习的核心。

步骤:

复制代码
计算误差

↓

计算梯度

↓

更新权重

↓

继续训练

更新公式:

复制代码
w = w - η × gradient

w=w-\eta\times gradient


其中:

复制代码
η

学习率

十五、神经网络训练流程

完整流程:

复制代码
初始化参数
      ↓
前向传播
      ↓
计算损失
      ↓
反向传播
      ↓
更新参数
      ↓
重复训练
      ↓
模型收敛

十六、使用 sklearn 创建神经网络

Sklearn提供:

复制代码
MLPClassifier

用于构建神经网络。

代码:

python 复制代码
from sklearn.neural_network import MLPClassifier

model = MLPClassifier(
    hidden_layer_sizes=(100,),
    max_iter=1000,
    random_state=42
)

model.fit(X_train, y_train)

参数说明:

复制代码
hidden_layer_sizes

隐藏层神经元数量

max_iter

最大训练次数

十七、鸢尾花数据集实战

python 复制代码
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()

X_train,X_test,y_train,y_test = train_test_split(
    iris.data,
    iris.target,
    test_size=0.2,
    random_state=42
)

model = MLPClassifier(
    hidden_layer_sizes=(32,16),
    max_iter=1000
)

model.fit(X_train,y_train)

pred = model.predict(X_test)

print(
    accuracy_score(
        y_test,
        pred
    )
)

输出:

复制代码
0.95+

说明模型具有较好的分类能力。


十八、深度学习中的神经网络演化

神经网络的发展路线:

复制代码
感知器
    ↓
多层感知器(MLP)
    ↓
卷积神经网络(CNN)
    ↓
循环神经网络(RNN)
    ↓
LSTM
    ↓
Transformer
    ↓
GPT

虽然结构越来越复杂,但核心仍然是:

复制代码
神经元

权重

激活函数

反向传播

十九、面试高频问题

神经网络由哪些部分组成?

复制代码
输入层

隐藏层

输出层

隐藏层作用是什么?

复制代码
提取特征

学习规律

为什么需要激活函数?

复制代码
引入非线性能力

当前最常用激活函数是什么?

复制代码
ReLU

神经网络如何学习?

复制代码
前向传播

↓

计算误差

↓

反向传播

↓

更新权重

二十、总结

神经网络本质上是由大量神经元组成的数学模型。

核心结构:

复制代码
输入层
    ↓
隐藏层
    ↓
输出层

训练过程:

复制代码
前向传播
    ↓
损失计算
    ↓
反向传播
    ↓
参数更新

从最早的感知器到今天的 GPT,大模型的底层逻辑始终没有改变:

通过神经元连接构建网络,通过反向传播不断优化参数,从海量数据中学习规律,最终完成智能预测与决策。这就是神经网络能够驱动现代人工智能发展的根本原因。

相关推荐
程序员cxuan5 小时前
虽迟但到!GPT-5.6 终于来了!
人工智能·后端·程序员
ZhengEnCi7 小时前
Q03-UI设计进阶技巧-让界面更高级的7个核心原则
人工智能
IT_陈寒7 小时前
React的这个渲染问题连官方文档都没说清楚
前端·人工智能·后端
金銀銅鐵8 小时前
[Python] 扩展欧几里得算法
python·数学·算法
Duckdblab8 小时前
DuckDB 性能调优终极指南:打造闪电般的分析体验
python
不加辣椒8 小时前
第12章 工具调用与 Agent 提示工程
人工智能
用户1693176172668 小时前
前端给AI消息做日期分组与时间线
人工智能
带派擂总8 小时前
Python全栈开发精华版最全合集(包含各种面试题) Day24_异常和错误
python
i晟8 小时前
Claude Code Harness 深度拆解:从你敲回车到模型回复,中间发生了什么
人工智能
用户2527362781410 小时前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能