深度学习进阶(一)——从 LeNet 到 Transformer:卷积的荣光与注意力的崛起

一、前言:从图像识别到通用感知的时代转折

如果要给深度学习画一条时间轴,那么 2012 年的 AlexNet 无疑是分水岭。那一年,ImageNet 图像识别比赛中,AlexNet 以巨大优势击败传统算法,深度学习这个在学术角落里沉睡多年的概念,一夜之间成为主角。

但这场革命其实早在更久之前就埋下了种子。

在 1998 年,LeCun 提出了 LeNet-5 ------ 一个看起来平平无奇的小型卷积网络,却第一次真正实现了端到端的数字识别任务。那时没有 GPU,没有大规模数据,但思想已经在那里:让机器自己学到特征,而不是人去定义特征。

从 LeNet 到 Transformer,跨度 20 余年。期间我们见证了从"局部感受野"到"全局注意力"的思想变迁,也见证了深度学习从计算机视觉的一角,走向语言、语音、生成模型的全面胜利。

这篇文章,我们从头开始,不仅讲网络结构,更讲清楚每个模型背后的动机------

每一次架构的诞生,都是为了解决上一个架构的局限。


二、LeNet:卷积神经网络的原初形态

在 LeNet 出现之前,图像识别通常依赖手工特征:边缘检测、HOG、SIFT 等。这些特征固然有效,但通用性差,且无法捕捉复杂的模式。

LeNet 的关键思想,是让神经网络自动学习"空间层次结构":

低层感受边缘,高层感受形状,再高层理解语义。

LeNet-5 的架构如下(简化版):

复制代码
Input (32x32)
→ Conv1 (6@28x28)
→ AvgPool1 (6@14x14)
→ Conv2 (16@10x10)
→ AvgPool2 (16@5x5)
→ FC1 (120)
→ FC2 (84)
→ Output (10)

核心理念有三:

  1. 局部连接 :神经元不再与所有输入相连,只关注邻域像素。

    → 模拟人类视觉皮层的"感受野"概念。

  2. 权值共享:同一卷积核在图像不同位置滑动,意味着参数数量大幅减少。

  3. 下采样(Pooling):通过空间压缩,获得平移不变性。

伪代码如下:

复制代码
for each filter in conv_layer:
    for each patch in image:
        output[x][y] = sum(filter * patch)

在今天看来这稀松平常,但在上世纪 90 年代,这种"共享参数"的思想几乎颠覆了传统神经网络。

LeNet 的意义

让神经网络第一次真正"看见"了图像。


三、AlexNet:GPU、ReLU 与大规模数据的爆炸

LeNet 的思想是正确的,但在当时无法规模化:CPU太慢、数据太少、网络太深会梯度消失。

直到 2012 年,Hinton 的学生 Alex Krizhevsky 用 GPU 把这个问题彻底解决了。

AlexNet 的创新主要有四点:

  1. GPU 计算:两块 GTX 580 显卡,把训练时间从几周缩短到几天;

  2. ReLU 激活 :用 max(0, x) 代替 Sigmoid,有效解决梯度消失;

  3. Dropout:随机"丢弃"部分神经元,防止过拟合;

  4. 数据增强:旋转、翻转、裁剪,让网络见到更多"样本变化"。

结构大体如下:

复制代码
Input → Conv → ReLU → Pool → Conv → ReLU → Pool → FC → Dropout → FC → Softmax

训练效果直接把传统机器学习打成废墟------Top-5 错误率从 26% 降到 16%。

但更重要的是,AlexNet 证明了"深度"确实有意义

层数越多,网络的抽象能力越强。


四、VGG:用简单堆叠追求极致

AlexNet 虽强,但结构杂乱。2014 年的 VGG 提出了极其简单的思想:

"我们不搞花样,只用 3x3 卷积,一个接一个堆。"

VGG 的典型结构是:

复制代码
[Conv3-64, Conv3-64] → Pool → [Conv3-128, Conv3-128] → Pool → [Conv3-256, Conv3-256, Conv3-256] → Pool → FC

这种"纯净堆叠"的策略,让网络在 ImageNet 上性能进一步提升,也为后来的模块化结构奠定了基础。

伪代码:

复制代码
def vgg_block(in_channels, out_channels, num_convs):
    for i in range(num_convs):
        x = conv3x3(x)
        x = relu(x)
    x = max_pool(x)
    return x

VGG 的价值 在于:它把网络结构从"艺术"变成了"工程",

让后人有了标准化的构建方式。


五、ResNet:解决"深了反而更差"的悖论

随着层数继续增加,人们发现一个怪现象:

网络越深,反而训练误差更高。

不是过拟合,而是优化失败。梯度在层间传播时会逐渐衰减或放大,导致训练困难。

ResNet(2015)提出了突破性的方案:残差连接(Residual Connection)

核心思想:

不要让每一层都去学习"完整映射",只学习相对于输入的"残差":

y=F(x)+xy = F(x) + xy=F(x)+x

伪代码如下:

复制代码
def residual_block(x):
    out = conv_bn_relu(x)
    out = conv_bn(out)
    return relu(out + x)

这一条简单的"捷径"让 152 层的网络成功训练,并刷新所有指标。

更重要的是,ResNet 的结构让优化更可控,也启发了后来的 Transformer:

"让信息可以跨层流动,避免被阻断。"


六、Transformer:从局部卷积到全局建模

2017 年,Vaswani 等人提出 Transformer。

这不是对卷积的改进,而是一次范式转变。

卷积善于提取局部模式,但难以建模远距离依赖。Transformer 则完全放弃卷积,用**自注意力(Self-Attention)**机制实现全局建模。

核心思想:

每个位置都能根据内容,自主决定"关注谁"。

公式如下:

伪代码:

复制代码
for each token i:
    for each token j:
        score[i][j] = dot(Q[i], K[j]) / sqrt(dk)
    attention[i] = softmax(score[i]) @ V

相比卷积:

  • 没有固定感受野;

  • 可以动态关注全局;

  • 参数更少,泛化更强。

起初它服务于 NLP,但后来人们发现它对图像、语音、视频同样有效。

于是有了 ViT(Vision Transformer)------用注意力机制处理图像块(Patch)。


七、从 LeNet 到 Transformer:思想的递进

我们可以这样理解整个脉络:

时代 代表模型 关键思想 解决的问题
1998 LeNet 局部连接、权值共享 自动特征提取
2012 AlexNet 深层结构、GPU、ReLU 梯度消失与性能瓶颈
2014 VGG 模块化堆叠 架构规范化
2015 ResNet 残差学习 深层退化问题
2017 Transformer 全局注意力 长依赖与信息瓶颈

可以看到,这是一条非常自然的演化线:

每一步都在解决上一步的缺陷,而不是取代它。


八、现代趋势:轻量化、多模态与统一架构

随着模型越来越大,算力成本成为主要矛盾。

于是 MobileNet、EfficientNet 等"轻量化模型"出现,用深度可分离卷积、自动架构搜索(NAS)等手段降低复杂度。

另一方面,Transformer 在语言和视觉上的成功,也催生了"统一架构"理念:

无论是文字、图像、语音,都可以用相似的注意力机制建模。

现在的 GPT、Gemini、Claude、LLaVA 等多模态模型,

其实都是 Transformer 思想的延伸:输入变了,核心机制没变。


九、结语:从模仿到抽象,从局部到全局

深度学习的演进,不是一连串模型的更替,而是一种思维的递进。

从 LeNet 的局部感受野,到 Transformer 的全局注意力,

我们看到的,是人类在不断逼近"通用表示"的过程。

未来的模型可能会回归简洁,也可能更复杂;

但可以肯定的是------

每一代架构的成功,都源于工程理性与数学洞察的平衡。

相关推荐
机器之心3 小时前
蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌
人工智能·openai
许泽宇的技术分享3 小时前
百刀打造ChatGPT:nanochat极简LLM全栈实现深度解析
chatgpt·transformer·大语言模型·nanochat
用户5191495848453 小时前
深入探索Next.js中的SSRF漏洞挖掘
人工智能·aigc
一车小面包3 小时前
BERT 中文外卖评价情感分析项目
人工智能·深度学习·bert
数在表哥3 小时前
从数据沼泽到智能决策:数据驱动与AI融合的中台建设方法论与技术实践指南(一)
大数据·人工智能
诸葛箫声3 小时前
手写数据集的深度学习
人工智能·深度学习·机器学习
岁月宁静3 小时前
前端添加防删除水印技术实现:从需求拆解到功能封装
前端·vue.js·人工智能
Baihai_IDP3 小时前
驳“AI 泡沫论”:一场被误读的、正在进行中的产业结构性调整
人工智能·llm·aigc
学Linux的语莫3 小时前
机器学习-神经网络-深度学习
人工智能·神经网络·机器学习