【深度学习笔记】2 浅层神经网络

浅层神经网络是指 隐藏层较少(通常为0-2层) 的神经网络,是深度学习发展早期的经典结构。与之相对的是"深层神经网络"(Deep Neural Network,DNN),后者通常包含多个隐藏层(如10层、100层甚至更多)。


1. 典型结构

浅层神经网络主要包括以下两种形式:

  1. 无隐藏层 :仅输入层直接连接输出层(本质是线性模型或广义线性模型)。

    • 例如:逻辑回归(Logistic Regression)、感知机(Perceptron)。
    • 数学形式:输出 = f(W·X + b),其中 f 是激活函数(如Sigmoid)。
  2. 单隐藏层:输入层 → 1个隐藏层 → 输出层。

    • 例如:单隐层前馈网络(Single Hidden Layer Feedforward Network)。

    • 数学形式:

      复制代码
      隐藏层输出 H = f1(W1·X + b1)  
      最终输出 Y = f2(W2·H + b2)
      • f1f2 为激活函数(如ReLU、Sigmoid)。

2. 核心特点

  • 表达能力有限
    浅层网络可以逼近任意连续函数(根据通用近似定理,Universal Approximation Theorem),但需要大量隐藏层神经元,且难以高效学习复杂特征。
  • 训练简单
    参数较少,计算量小,不易过拟合,适合小规模数据集。
  • 可解释性较强
    权重和特征的关系相对直接(深层网络的抽象特征难以解释)。

3. 与深层神经网络的对比

特性 浅层神经网络 深层神经网络
隐藏层数 0-2层 ≥3层(通常远多于3层)
特征抽象能力 只能学习简单特征 通过多层堆叠学习层次化特征
数据需求 小规模数据即可训练 需要大规模数据避免过拟合
计算复杂度 高(依赖GPU等硬件加速)
典型应用 线性可分问题、简单分类/回归 图像识别、自然语言处理等复杂任务

4. 经典浅层神经网络示例

(1) 感知机(Perceptron)
  • 结构:输入层 → 输出层(无隐藏层)。
  • 激活函数:阶跃函数(Step Function)。
  • 局限:只能解决线性可分问题(如AND、OR运算),无法处理XOR等非线性问题。
(2) 单隐层前馈网络
  • 结构:输入层 → 1个隐藏层(含多个神经元)→ 输出层。
  • 激活函数:Sigmoid、Tanh、ReLU等。
  • 能力:可拟合任意连续函数(但需要足够多的隐藏神经元)。

5. 为什么需要深层网络?

尽管浅层网络理论上是"万能近似器",但在实践中存在以下问题:

  • 效率低下
    学习复杂函数需要指数级增长的神经元数量(例如用浅层网络拟合图像特征会极其低效)。
  • 特征泛化差
    深层网络通过分层抽象(如边缘→纹理→物体部件→整体物体),能更高效地捕捉数据的层次化结构。

关键结论

浅层网络适合简单任务或计算资源受限的场景,而深层网络在复杂任务(如计算机视觉、自然语言处理)中表现更优。


6. 代码示例(单隐层网络)

以下是一个用PyTorch实现的单隐藏层神经网络(二分类任务):

python 复制代码
import torch
import torch.nn as nn

class ShallowNN(nn.Module):
    def __init__(self, input_size, hidden_size):
        super().__init__()
        self.layer1 = nn.Linear(input_size, hidden_size)  # 隐藏层
        self.output = nn.Linear(hidden_size, 1)           # 输出层
        self.activation = nn.ReLU()                       # 激活函数

    def forward(self, x):
        x = self.activation(self.layer1(x))  # 隐藏层计算
        x = torch.sigmoid(self.output(x))    # 输出层Sigmoid
        return x

# 示例:输入特征维度=10,隐藏层神经元=50
model = ShallowNN(input_size=10, hidden_size=50)

总结

  • 浅层神经网络:结构简单,隐藏层≤2层,适合解决线性或简单非线性问题。
  • 深层神经网络:通过多层非线性变换学习高级特征,适合复杂任务。
  • 选择依据:根据任务复杂度、数据量和计算资源权衡。
相关推荐
Lihua奏3 天前
从单核到多核:CPU为什么不能再只靠提频变快
深度学习
拾年2753 天前
大模型的"聪明"从哪来?聊聊 AI 数据集的那些事儿
人工智能·深度学习·机器学习
hboot4 天前
AI工程师第四课 - 深度学习入门
pytorch·python·神经网络
RainCity5 天前
Java Swing 自定义组件库分享(十二)
java·笔记·后端
饼干哥哥8 天前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
武子康10 天前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“
人工智能·深度学习·openai
武子康11 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai
LinXunFeng12 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
xiao5kou4chang6kai416 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
renhongxia116 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi