DL_神经网络在MLP、CNN和RNN(LSTM)之后(至2025)的发展

神经网络发展演变列表如下,

名称 时间 优化项
生成对抗网络(GAN) 2014 机器不仅能"理解",还能"创造"
Transformer 2017 智能的本质是"动态关注",而非"顺序处理"
视觉Transformer(ViT) 2020 从单模态专用 → 多模态通用架构
多模态大模型 2020--至今 构建统一感知-认知系统
状态空间模型(State Space Models, SSM) 2023--至今 《Non-Causal Selective SSM for Image Restoration》(《中国图象图形学报》,2025) 可能成为Transformer的有力替代者
稀疏激活与混合专家(MoE, Mixture of Experts) DeepSeek-MoE (2024) 《Dynamic Sparsity and Adaptive Expert Allocation in Mixture-of-Experts Models》2025-10 从"暴力堆参"走向"智能路由"
神经符号系统(Neuro-Symbolic AI) AAAI 2025 Outstanding Paper Award(杰出论文奖)《Efficient Rectification of Neuro-Symbolic Reasoning Inconsistencies by Abductive Reflection》 仍处探索阶段,但被视为通向AGI的重要路径

具体细节如下展开所述:

1. 生成对抗网络(GAN, 2014)

复制代码
(虽略早于Transformer,但在LSTM之后才广泛发展)

核心思想:生成器 vs 判别器的对抗训练
能力:高质量图像生成、风格迁移、数据增强
代表:DCGAN、StyleGAN、CycleGAN

✅ 认知跃迁:机器不仅能"理解",还能"创造"。

2. Transformer(2017)

复制代码
核心创新:自注意力机制(Self-Attention)
解决的问题:
    RNN无法并行训练
    长距离依赖建模困难
特点:
    完全抛弃循环结构,实现全局上下文建模
    支持高度并行化,适合GPU/TPU加速
代表模型:BERT(双向理解)、GPT(自回归生成)

✅ 认知跃迁:智能的本质是"动态关注",而非"顺序处理"。

3. 视觉Transformer(ViT, 2020)

复制代码
将Transformer成功应用于图像领域
图像被切分为"图像块"(patches),类比文本token
打破CNN在视觉任务中的垄断地位

✅ 趋势体现:从单模态专用 → 多模态通用架构

4. 多模态大模型(2020--至今)

复制代码
目标:统一处理文本、图像、音频、视频等
代表架构:
    CLIP:对比学习对齐图文表示
    Flamingo / BLIP-2:跨模态条件生成
    Gemini / GPT-4V:原生多模态推理
核心思想:共享语义空间 + 跨模态注意力

✅ 通向AGI的关键一步:构建统一感知-认知系统

5. 状态空间模型(State Space Models, SSM)------新兴架构(2023--)

复制代码
代表模型:Mamba、RWKV、Striped Hyena
核心优势:
    线性复杂度 O(n),远优于Transformer的 O(n2)
    在长序列任务(如DNA建模、代码生成)中表现优异
    Mamba(2.8B参数)首次在语言任务上超越同规模Transformer
机制:将序列建模转化为连续状态演化问题

✅ 新范式崛起:可能成为Transformer的有力替代者

6. 稀疏激活与混合专家(MoE, Mixture of Experts)

复制代码
代表:Mixtral、GLaM、DeepSeek-MoE
思想:每次推理只激活部分"专家子网络"
优势:
    模型可达千亿参数,但计算成本可控
    提升模型容量与泛化能力

✅ 效率革命:从"暴力堆参"走向"智能路由"

7. 神经符号系统(Neuro-Symbolic AI)

复制代码
结合神经网络的感知能力 + 符号系统的逻辑推理
用于需要可解释性、因果推理、规划的任务
仍处探索阶段,但被视为通向AGI的重要路径

总结:LSTM之后的演进主线

维度 发展方向
结构 RNN → Transformer → 状态空间模型(Mamba)
能力 序列建模 → 全局理解 → 多模态生成 → 主动决策
效率 串行 → 并行 → 线性复杂度 → 稀疏激活
目标 专用模型 → 基础模型(Foundation Model) → 通用智能(AGI)

这场演进的本质是:

复制代码
"是人类不断将'自身智能的维度'编码进机器的过程。"

从LSTM的"记忆"开始,我们逐步赋予机器注意力、创造力、跨模态理解力、高效推理力------而这一切,仍在加速演进中。

相关推荐
2301_8002561115 小时前
【人工智能引论期末复习】 第6章 深度学习4 - RNN
人工智能·rnn·深度学习
翱翔的苍鹰17 小时前
神经网络中损失函数(Loss Function)介绍
人工智能·深度学习·神经网络
Coovally AI模型快速验证21 小时前
仅192万参数的目标检测模型,Micro-YOLO如何做到目标检测精度与效率兼得
人工智能·神经网络·yolo·目标检测·计算机视觉·目标跟踪·自然语言处理
yunhuibin1 天前
CNN基础学习
人工智能·python·深度学习·神经网络
楚来客1 天前
AI基础概念之九:神经网络单层感知机的基本原理
人工智能·神经网络·cnn
知乎的哥廷根数学学派1 天前
基于注意力机制的多尺度脉冲神经网络旋转机械故障诊断(西储大学轴承数据,Pytorch)
人工智能·pytorch·python·深度学习·神经网络·机器学习
知乎的哥廷根数学学派1 天前
基于多分辨率注意力脉冲神经网络的机械振动信号故障诊断算法(西储大学轴承数据,Pytorch)
人工智能·pytorch·深度学习·神经网络·算法·机器学习
JicasdC123asd1 天前
农田杂草识别与分类:基于Faster R-CNN的优化模型实践与性能分析
分类·r语言·cnn
2301_800256111 天前
【人工智能引论期末复习】第6章 深度学习3-CNN
人工智能·深度学习·cnn
HyperAI超神经1 天前
揭秘 AI 推理:OpenAI 稀疏模型让神经网络首次透明化;Calories Burnt Prediction:为健身模型注入精准能量数据
人工智能·深度学习·神经网络·机器学习·开源·ai编程