期中总结：从神经元到 GPT——AI 架构全景回顾（Version B）

期中总结：从神经元到 GPT------AI 架构全景回顾（Version B）

📚 《从零到一造大脑：AI架构入门之旅》专栏
专栏定位 ：面向中学生、大学生和 AI 初学者的科普专栏，用大白话和生活化比喻带你从零理解人工智能
本系列共 42 篇，分为八大模块：

📖 模块一【AI 基础概念】(3 篇)：AI/ML/DL 关系、学习方式、深度之谜

🧠 模块二【神经网络入门】(4 篇)：神经元、权重、激活函数、MLP

🏗️ 模块三【深度学习核心】(6 篇)：损失函数、梯度下降、反向传播、过拟合、Batch/Epoch/LR

🎯 模块四【注意力机制】(5 篇)：从 Attention 到 Transformer

🔬 模块五【NCT 与 CATS-NET 案例】(8 篇)：真实架构演进全记录

🔄 模块六【架构融合方法】(6 篇)：如何设计混合架构

⚙️ 模块七【参数调优实战】(6 篇)：学习率、正则化、超参数搜索

🚀 模块八【综合应用展望】(4 篇)：未来趋势与职业规划
本文是模块四第 6 篇（期中总结），带你回顾前四模块的核心知识。
👨‍💻 作者简介：NeuroConscious Research Team，一群热爱 AI 科普的研究者，专注于神经科学启发的 AI架构设计与可解释性研究。理念："再复杂的概念，也能用大白话讲清楚"。
💻 项目地址 ：https://github.com/wyg5208/nct.git

🌐 官网地址 ：https://neuroconscious.link

📝 作者 CSDN ：https://blog.csdn.net/yweng18

📦 NCT PyPI ：https://pypi.org/project/neuroconscious-transformer/

⭐ 欢迎 Star⭐、Fork🍴、贡献代码🤝

📌 本文核心比喻 ：盖一座"AI大厦"，从地基到封顶

⏱️ 阅读时间 ：约 25 分钟

🎯 学习目标：串联核心概念，建立 AI 架构全景图

📝 文章摘要

本文是专栏的期中总结，用"盖大楼"的比喻，系统回顾前 18 篇文章的核心知识。从神经元（砖块）到 Transformer（大厦结构），从损失函数（验收标准）到注意力机制（设计师的智慧），帮你搭建完整的 AI 架构认知框架。最后通过一个简化的 GPT 架构图，展示如何把"砖块"组合成"智能大厦"。

🎯 你需要先了解

阅读本文前，建议你：

✅ 已学过前 18 篇文章（至少浏览过）
✅ 了解神经网络的基本概念
✅ 对 AI 架构有好奇心

如果还没读前文，可以从第一篇开始补读。

📖 正文

一、AI 大厦的四层结构

🏗️ AI 大厦 = 四层结构

第一层：地基（模块一）

└→ 什么是 AI、ML、DL，它们之间的关系

第二层：砖块（模块二）

└→ 神经元、权重、激活函数、MLP

第三层：钢筋水泥（模块三）

└→ 损失函数、梯度下降、反向传播、优化技巧

第四层：设计图纸（模块四）

└→ 注意力机制、Transformer

第五层：完整大厦（本期预告）

└→ 模块五开始：真实架构 NCT

二、第一层地基：AI 基本概念回顾

2.1 三兄弟的关系

复制代码

┌────────────────────────────────────────────────────────────┐

│                    AI/ML/DL 关系图                          │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  ┌───────────────┐                                         │

│  │      AI       │  人工智能：让机器像人一样聪明             │

│  │  (Artificial  │                                         │

│  │  Intelligence)│                                         │

│  └───────┬───────┘                                         │

│          │ 包含                                             │

│          ↓                                                  │

│  ┌───────────────┐                                         │

│  │      ML       │  机器学习：让机器从数据中学习规律         │

│  │Machine Learning│                                        │

│  └───────┬───────┘                                         │

│          │ 包含                                             │

│          ↓                                                  │

│  ┌───────────────┐                                         │

│  │      DL       │  深度学习：用深层神经网络自动学习特征    │

│  │ Deep Learning │                                         │

│  └───────────────┘                                         │

│                                                             │

└────────────────────────────────────────────────────────────┘

2.2 三种学习方式

复制代码

┌────────────────────────────────────────────────────────────┐

│                     三种学习方式                            │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  📚 监督学习 = 有老师教                                     │

│     • 有标签的训练数据                                      │

│     • 例：考试题+标准答案                                   │

│     • 应用：图像分类、语音识别                              │

│                                                             │

│  🔍 无监督学习 = 自己探索                                   │

│     • 没有标签，让机器自己发现规律                           │

│     • 例：按兴趣自动分组                                     │

│     • 应用：聚类、降维                                      │

│                                                             │

│  🎮 强化学习 = 试错成长                                     │

│     • 做对了奖励，做错了惩罚                                 │

│     • 例：下棋、玩游戏                                       │

│     • 应用：游戏 AI、机器人控制                             │

│                                                             │

└────────────────────────────────────────────────────────────┘

三、第二层砖块：神经网络基础

3.1 神经元 = AI 的最小单位

复制代码

单个神经元的工作原理：



输入 x1 ──→ [w1] ──┐

                  │

输入 x2 ──→ [w2] ──→ ⊕ → [激活函数] → 输出 y

                  │           ↑

输入 x3 ──→ [w3] ──┘         │

                             │

                        偏置 b



公式：y = activation(w1*x1 + w2*x2 + w3*x3 + b)

记忆口诀：

复制代码

神经元，三步走：

加权求和加偏置，

激活函数来开门。

3.2 激活函数 = 神经元的开关

复制代码

┌────────────────────────────────────────────────────────────┐

│                    常见激活函数                             │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  🔌 ReLU（最常用）                                          │

│     • 公式：y = max(0, x)                                   │

│     • 特点：简单高效，防止梯度消失                          │

│     • 类比：电灯开关，开就是1，关就是0                       │

│                                                             │

│  📈 Sigmoid                                                │

│     • 公式：y = 1/(1+e^(-x))                                │

│     • 特点：输出0-1，概率解释                               │

│     • 类比：百分比，比如70%相信                              │

│                                                             │

│  🌊 Tanh                                                   │

│     • 公式：y = (e^x - e^(-x))/(e^x + e^(-x))               │

│     • 特点：输出-1到1，零居中                                │

│     • 类比：温度计，可正可负                                 │

│                                                             │

└────────────────────────────────────────────────────────────┘

3.3 多层感知机 = 砖块垒成墙

复制代码

MLP（多层感知机）结构：



输入层        隐藏层 1       隐藏层 2       输出层

│              │              │              │

○ ─────────→ ○ ─────────→ ○ ─────────→ ○

│              │              │              │

○ ─────────→ ○ ─────────→ ○ ─────────→ ○

│              │              │              │

○ ─────────→ ○ ─────────→ ○ ─────────→ ○

│              │              │              │



特点：

• 多层结构：输入 → 隐藏 → 输出

• 每层多个神经元：并行处理

• 全连接：每层都连到下一层

四、第三层钢筋水泥：训练核心

4.1 损失函数 = 验收标准

复制代码

损失函数 = 预测值和真实值的差距



┌────────────────────────────────────────────────────────────┐

│                     常见损失函数                           │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  🎯 MSE（均方误差）------ 回归任务                             │

│     • 公式：L = (预测值 - 真实值)²                          │

│     • 类比：射击打靶，离靶心越远分数越低                     │

│                                                             │

│  📊 Cross-Entropy ------ 分类任务                               │

│     • 公式：L = -Σ 真实概率 × log(预测概率)                 │

│     • 类比：考试选择题，选错得0分，选对得满分               │

│                                                             │

│  🏆 Hinge Loss ------ SVM                                      │

│     • 公式：L = max(0, 1 - y*预测)                          │

│     • 类比：拔河比赛，赢了得1分，输了得0分                  │

│                                                             │

└────────────────────────────────────────────────────────────┘

4.2 梯度下降 = 蒙眼下山

复制代码

梯度下降 = 找到最低点的过程



山峰 ⛰️

  ↑

  │    *

  │   * *

  │  *   * ← 当前所在

  │ *     *

  │*       *

  └──────────→ 水平方向



蒙眼人的策略：

1. 脚踩地面，感受坡度（计算梯度）

2. 向最陡的下坡方向迈一步（梯度下降）

3. 重复直到感觉不到下坡（到达最低点）



数学表达：

新位置 = 旧位置 - 学习率 × 梯度

关键公式：

复制代码

θ_new = θ_old - α * ∂L/∂θ



其中：

• θ = 参数（权重）

• α = 学习率（步长）

• ∂L/∂θ = 损失函数的梯度

4.3 反向传播 = 责任追溯

复制代码

反向传播 = 从输出倒推到输入，计算每个参数的责任



前向传播（做预测）：

输入 → [层1] → [层2] → [层3] → 输出



反向传播（算责任）：

输出 ← [层3责任] ← [层2责任] ← [层1责任] ← 输入



链式法则：

∂L/∂θ = ∂L/∂y × ∂y/∂z × ∂z/∂θ



类比：公司出了质量问题，要追溯责任：

CEO → 总监 → 经理 → 员工

4.4 过拟合 vs 欠拟合 = 背答案 vs 没学会

复制代码

┌────────────────────────────────────────────────────────────┐

│                    拟合状态三兄弟                           │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  📝 欠拟合 = 压根没学会                                      │

│     • 训练集、测试集表现都不好                               │

│     • 模型太简单，学得太少                                   │

│     • 解决方案：加深网络、增加特征                           │

│                                                             │

│  ✅ 正常拟合 = 学会了                                        │

│     • 训练集、测试集表现都不错                               │

│     • 模型复杂度适中                                        │

│                                                             │

│  📖 过拟合 = 背答案                                          │

│     • 训练集表现很好，测试集表现差                           │

│     • 模型太复杂，学得太死                                   │

│     • 解决方案：正则化、Dropout、数据增强                    │

│                                                             │

└────────────────────────────────────────────────────────────┘

4.5 Batch、Epoch、Learning Rate

复制代码

训练三要素 = 三把钥匙



🔑 Batch（批次大小）

   • 一次喂多少数据给模型

   • 小-batch：快但不稳

   • 大-batch：稳但慢

   • 类比：一口吃一个馒头 vs 一口吃半个馒头



🔑 Epoch（轮次）

   • 把所有数据都看一遍叫一个Epoch

   • 需要多个Epoch才能学会

   • 类比：考试前要复习好几轮



🔑 Learning Rate（学习率）

   • 决定每一步迈多大

   • 太大：跳过最低点（震荡）

   • 太小：爬行太慢

   • 类比：下山步子太大容易摔倒，太小又太慢



典型配置：

• Batch = 32

• Epoch = 10-100

• Learning Rate = 0.001

五、第四层设计图纸：注意力机制

5.1 从 RNN 到 Transformer 的演进

复制代码

架构演进时间线：



RNN 时代                          Transformer 时代

(1990s)                           (2017-至今)

│                                 │

├─ 序列处理                       ├─ 全局注意力

├─ 顺序计算                       ├─ 并行计算

├─ 长距离依赖困难                 ├─ 长距离直接相连

├─ 梯度消失                       ├─ 稳定训练

│                                 │

└─ 2017: Attention Is All You Need

         Transformer 诞生



关键里程碑：

• 2017：Transformer 论文发布

• 2018：BERT（Encoder）

• 2019：GPT-2（Decoder）

• 2020：GPT-3（1750亿参数）

• 2022：ChatGPT

• 2023-2024：GPT-4、多模态

5.2 注意力机制核心公式

复制代码

注意力 = 关注重点的能力



┌────────────────────────────────────────────────────────────┐

│                    Attention 计算流程                       │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  Step 1: 准备 Q、K、V                                       │

│     Q（Query）= 我要查询什么                                 │

│     K（Key）  = 我有什么关键词                               │

│     V（Value）= 关键词对应的内容                             │

│                                                             │

│  Step 2: 计算相似度                                         │

│     score = Q · K^T / √d                                    │

│     （点积后缩放，防止数值过大）                             │

│                                                             │

│  Step 3: 归一化                                             │

│     weight = softmax(score)                                │

│     （把所有分数变成0-1的概率分布）                          │

│                                                             │

│  Step 4: 加权求和                                           │

│     output = weight × V                                    │

│     （按重要性加权，得到最终结果）                            │

│                                                             │

└────────────────────────────────────────────────────────────┘



完整公式：

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

5.3 自注意力 = 词与词对话

复制代码

自注意力的核心：每个词都可以看所有词



输入句子："The cat sat on the mat"



可视化：

        The    cat    sat    on    the    mat

        ──────────────────────────────────────

   The   0.1   0.2    0.1   0.1   0.1    0.5  ← mat 最重要

   cat   0.1   0.1    0.2   0.1   0.1    0.5  ← 和 sat、mat 关联

   sat   0.1   0.4    0.1   0.2   0.1    0.2  ← cat 是主语

   on    0.1   0.1    0.1   0.1   0.2    0.5  ← mat 是地点

   the   0.2   0.1    0.1   0.1   0.1    0.5  ← mat 最重要

   mat   0.1   0.2    0.1   0.3   0.1    0.2  ← on 是介词



类比：开会讨论，每个人都要听所有人的意见

5.4 多头注意力 = 多个专家同时思考

复制代码

多头注意力 = 8个脑袋同时工作



每个头关注不同方面：



Head 1（语法）：The → cat（主语关系）

Head 2（语义）：cat → sat（主谓关系）

Head 3（语义）：sat → on（谓宾关系）

Head 4（语法）：on → mat（介宾关系）

Head 5（位置）：on → the（位置接近）

Head 6（位置）：the → mat（位置接近）

Head 7（长距离）：The → mat（首尾呼应）

Head 8（其他）：...



最后拼接：

[Head1输出 | Head2输出 | ... | Head8输出] → 线性变换 → 输出



类比：装修房子

• 木工负责地板

• 电工负责布线

• 水管工负责水管

• 最后组装成完整房子

5.5 Transformer 架构全景图

复制代码

完整 Transformer 架构：



                    输入

                      │

           ┌──────────┴──────────┐

           ↓                     ↓

    ┌──────────────┐      ┌──────────────┐

    │   Encoder    │      │   Decoder    │

    │   (编码器)    │ ───→ │   (解码器)    │

    └──────────────┘      └──────────────┘

           │                     │

           │         ┌───────────┘

           │         ↓

           │   ┌──────────────┐

           │   │   Output     │

           │   │   (输出)      │

           │   └──────────────┘

           │         │

           └─────────┘

                      │

                    输出



Encoder：理解输入（如 BERT）

• 多层 Self-Attention + FFN

• 双向理解上下文



Decoder：生成输出（如 GPT）

• Self-Attention + Cross-Attention

• 自回归生成下一个词

六、知识串联：迷你 GPT 实战

6.1 GPT 的核心组件

复制代码

GPT 架构简化版：



┌────────────────────────────────────────────────────────────┐

│                    Mini GPT 结构                           │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  输入："今天天气真"                                         │

│         │                                                  │

│         ↓                                                  │

│  ┌─────────────────┐                                       │

│  │  Token Embedding│ ← 词转向量                            │

│  │  + Position     │ ← 位置编码                            │

│  │  Encoding       │                                       │

│  └────────┬────────┘                                       │

│           ↓                                                │

│  ┌─────────────────────────────────────────┐              │

│  │          Transformer Decoder 层          │  ×N 层       │

│  │  ┌─────────────────────────────────────┐ │              │

│  │  │  Masked Self-Attention              │ │              │

│  │  │  (只能看前面的词)                     │ │              │

│  │  └─────────────────────────────────────┘ │              │

│  │                 ↓                         │              │

│  │  ┌─────────────────────────────────────┐ │              │

│  │  │  Feed Forward Network               │ │              │

│  │  │  (逐位前馈网络)                       │ │              │

│  │  └─────────────────────────────────────┘ │              │

│  └─────────────────────────────────────────┘              │

│           ↓                                                │

│  ┌─────────────────┐                                       │

│  │  Linear + Softmax│ ← 预测下一个词                       │

│  └────────┬────────┘                                       │

│           ↓                                                │

│  输出：预测下一个词是"好"                                    │

│                                                             │

└────────────────────────────────────────────────────────────┘

6.2 GPT 训练过程

复制代码

GPT 训练 = 预测下一个词



训练数据："今天天气真好"



训练方式：

Step 1: 输入"今天天气真" → 预测"好"

Step 2: 输入"今天天气真好" → 预测"<EOS>"

...



损失函数 = Cross-Entropy

• 目标：让"好"的概率最大化

• 自监督学习，不需要人工标注

6.3 为什么 GPT 这么强？

复制代码

GPT 强大的秘密：



┌────────────────────────────────────────────────────────────┐

│                    GPT 成功要素                             │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  1️⃣ 大量数据                                               │

│     • 互联网海量文本                                         │

│     • 学会语言规律                                          │

│                                                             │

│  2️⃣ 大量参数                                               │

│     • GPT-1: 1.1亿                                          │

│     • GPT-2: 15亿                                           │

│     • GPT-3: 1750亿                                          │

│     • 足够容量记忆复杂模式                                   │

│                                                             │

│  3️⃣ Transformer 架构                                       │

│     • 并行训练效率高                                        │

│     • 长距离依赖建模能力强                                   │

│                                                             │

│  4️⃣ 下一个词预测                                           │

│     • 自监督学习，充分利用无标签数据                          │

│     • 学会语言的一切规律                                      │

│                                                             │

│  5️⃣ 上下文学习                                             │

│     • 可以从少量示例中学习新任务                              │

│     • 不需要重新训练                                        │

│                                                             │

└────────────────────────────────────────────────────────────┘

七、前四模块知识地图

复制代码

┌─────────────────────────────────────────────────────────────────────────┐

│                        AI 架构知识地图                                    │

├─────────────────────────────────────────────────────────────────────────┤

│                                                                         │

│                        ┌───────────────┐                                  │

│                        │   模块一     │                                  │

│                        │  AI/ML/DL    │                                  │

│                        │   基础概念    │                                  │

│                        └───────┬───────┘                                  │

│                                ↓                                          │

│                        ┌───────────────┐                                  │

│                        │   模块二     │                                  │

│                        │  神经元/权重  │                                  │

│                        │   /激活函数   │                                  │

│                        └───────┬───────┘                                  │

│                                ↓                                          │

│                        ┌───────────────┐                                  │

│                        │   模块三     │                                  │

│                        │  损失/梯度/   │                                  │

│                        │   反向传播    │                                  │

│                        └───────┬───────┘                                  │

│                                ↓                                          │

│                        ┌───────────────┐                                  │

│                        │   模块四     │                                  │

│                        │  注意力/     │                                  │

│                        │  Transformer │                                  │

│                        └───────┬───────┘                                  │

│                                ↓                                          │

│                        ┌───────────────┐                                  │

│                        │   模块五     │                                  │

│                        │  NCT 真实架构 │  ← 下一模块                       │

│                        │   (预告)      │                                  │

│                        └───────────────┘                                  │

│                                                                         │

└─────────────────────────────────────────────────────────────────────────┘

八、常见问题解答

Q1：为什么要多层网络？一层不够吗？

答：一层网络表达能力有限。多层网络可以：

逐层抽象特征（边缘→形状→物体→概念）
用更少参数表达更复杂函数
类比：一栋楼比一块砖能做的事多

Q2：ReLU 负半轴为 0，会不会丢失信息？

答：不会。

负值通常代表"不重要的特征"
ReLU 让网络学会"忽略"这些
保留正值（重要特征）更有效

Q3：为什么 Transformer 替代了 RNN？

答：Transformer 有三大优势：

并行：所有位置同时计算
长依赖：直接相连，无信息衰减
稳定：梯度更稳定，训练更容易

Q4：GPT 和 BERT 有什么区别？

答：

复制代码

┌────────────────────────────────────────────────────────────┐

│                  GPT vs BERT                               │

├────────────────────────────────────────────────────────────┤

│                                                             │

│  GPT（生成式预训练）                                        │

│  • Decoder-only                                            │

│  • 单向注意力（只能看前面）                                   │

│  • 自回归生成                                               │

│  • 适合：文本生成、对话                                      │

│                                                             │

│  BERT（双向编码器表示）                                      │

│  • Encoder-only                                            │

│  • 双向注意力（看前后）                                       │

│  • 填空任务                                                 │

│  • 适合：文本分类、NER、问答                                 │

│                                                             │

└────────────────────────────────────────────────────────────┘

💡 一句话总结

🎯 核心结论

AI 大厦 = 砖块(神经元) + 水泥(训练) + 图纸(注意力)

从简单到复杂，从理论到实践，构建你的 AI 知识体系。

记忆口诀：

复制代码

AI 学习三兄弟，监督无监督强化。

神经元是砖块，激活函数来开门。

梯度下降找最低，反向传播算责任。

注意力机制最牛，Transformer 盖高楼。

✍️ 课后作业

连线题（每题 10 分）

将左边概念与右边解释连线：

复制代码

1. 神经元          A. 预测值和真实值的差距

2. 损失函数        B. 神经元的开关

3. 激活函数        C. AI 的最小单位

4. 梯度下降        D. 每个词看所有词

5. 自注意力        E. 蒙眼下山找最低点

答案：1-C, 2-A, 3-B, 4-E, 5-D

画图题（20 分）

用箭头和框图画出 Transformer 的基本结构，标注 Encoder 和 Decoder。

📝 下一篇预告

🚀 下一篇文章

题目：NCT 是什么------让 AI 拥有意识的尝试

我们会学到：

NCT 框架的设计理念
如何将神经科学融入 AI
NCT vs 普通 Transformer 的区别

📌 本文属《从零到一造大脑：AI架构入门之旅》专栏第四模块第六篇（期中总结）

作者：NeuroConscious Research Team

更新时间：2026 年 3 月

版本号：V1.0-B（图文并茂版）