205_深度学习的非线性魔法:多层感知机(MLP)与激活函数全解析

如果神经网络只有线性层(Linear),那么无论叠加多少层,最终结果仍然是一个线性变换。为了让网络变"聪明",我们引入了隐藏层和激活函数

1. 什么是多层感知机(MLP)?

多层感知机在输入层和输出层之间增加了一个或多个隐藏层(Hidden Layers)

  • 线性堆叠的失效 :若无激活函数,等价于一个新的线性层
  • 非线性的引入 :在每层线性计算后加入非线性激活函数 ,公式变为 。这使得模型可以学习坐标系中扭曲、复杂的边界。

2. 三大核心激活函数

激活函数必须是非线性的。文件中重点提到了以下三种:

① ReLU (修正线性单元)

  • 特点:目前最受欢迎。x > 0时导数为 1,x < 0时导数为 0。
  • 优点:计算简单,有效缓解梯度消失问题。
  • 代码nn.ReLU()

② Sigmoid

  • 特点 :将输入映射到 区间。
  • 缺点 :在输入很大或很小时,梯度接近 0,容易导致梯度消失

③ Tanh (双曲正切)

  • 特点 :将输入映射到区间,输出以 0 为中心。

3. 代码实战:简洁实现多层感知机

文件演示了如何在 Fashion-MNIST 任务中加入一个拥有 256 个隐藏单元的层。

Python

复制代码
import torch
from torch import nn
from d2l import torch as d2l

# 1. 搭建 MLP 网络
# Flatten: 展平图像
# Linear(784, 256): 隐藏层,256个神经元
# ReLU: 激活函数,引入非线性
# Linear(256, 10): 输出层
net = nn.Sequential(
    nn.Flatten(),
    nn.Linear(784, 256),
    nn.ReLU(),
    nn.Linear(256, 10)
)

# 2. 初始化参数
def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights)

# 3. 设置训练超参数
batch_size, lr, num_epochs = 256, 0.1, 10
loss = nn.CrossEntropyLoss()
trainer = torch.optim.SGD(net.parameters(), lr=lr)

# 4. 加载数据并训练
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

4. 关键超参数:隐藏单元个数

在代码中,我们将隐藏层设为 256

  • 为什么是 256? 这是一个超参数。隐藏单元越多,模型的表达能力越强,但也越容易过拟合(Overfitting)且计算量更大。
  • 设计准则:通常设置在输入维度(784)和输出维度(10)之间,且常用 2 的幂次方。

5. 总结:MLP 的三要素

  1. 隐藏层:提供模型深度。
  2. 激活函数:提供非线性动力。
  3. 超参数调整:通过调整层数和神经元个数来平衡模型的"欠拟合"与"过拟合"。

💡 学习小结

多层感知机是现代深度学习的基石。当你理解了非线性激活函数的重要性后,你也就理解了为什么深度学习能处理比传统算法复杂得多的任务。

相关推荐
程序员小远7 小时前
Python自动化测试框架及工具详解
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·接口测试
Litluecat7 小时前
2026年6月1日科技热点新闻
大数据·人工智能·科技·推荐·热点·新闻·每日
志栋智能8 小时前
AI驱动无代码:降低巡检超自动化的门槛
大数据·运维·网络·人工智能·自动化
qcx238 小时前
【系统学AI】25 论文导读 ①:两篇改变 AI 的开山之作——Attention Is All You Need & ReAct
前端·人工智能·react.js·transformer
Black蜡笔小新8 小时前
自动化AI算法训练服务器DLTM制造业AI质检工作站助力制造业实现AI智检
人工智能·算法·自动化
川冰ICE8 小时前
⑮ AI音乐与音频:工具详解与创作流程
人工智能·音视频
sleven fung8 小时前
MinerU与BabelDOC与KTransformers与OpenAI API库
开发语言·python·ai·langchain
米小虾8 小时前
2026 年多模态大模型全面爆发:从「看懂图」到「听懂世界」的技术跃迁
人工智能
米小虾8 小时前
AI Agent 进入协议时代:MCP、A2A、AG-UI 三大协议全景解析
人工智能·agent
蝎子莱莱爱打怪8 小时前
🚀 🚀🚀2026年5月GitHub月榜精选:17个项目中挑出10个推荐,实操4个!
人工智能·后端·ai编程