推理引擎方向(二)《大模型原理与结构》

目录

人工神经网络基础

[1. 向量到向量(Vector to Vector)任务](#1. 向量到向量(Vector to Vector)任务)

[2. 序列到序列(Sequence to Sequence)任务](#2. 序列到序列(Sequence to Sequence)任务)

[3. 词性标注任务示例](#3. 词性标注任务示例)

上下文信息处理

[1. 滑动窗口方法](#1. 滑动窗口方法)

[2. 循环神经网络(RNN)](#2. 循环神经网络(RNN))

[3. 注意力机制(Attention Mechanism)](#3. 注意力机制(Attention Mechanism))

自注意力机制

[1. 自注意力层计算](#1. 自注意力层计算)

[2. 位置信息处理](#2. 位置信息处理)

[3. 多头注意力机制](#3. 多头注意力机制)

大模型结构详解

[1. Decoder 模块](#1. Decoder 模块)

[2. MLP 层结构](#2. MLP 层结构)

文本向量化处理

[1. 词表构建与分词方法](#1. 词表构建与分词方法)

[2. 向量表示方法](#2. 向量表示方法)


本节课正式开启大模型推理系统的核心内容讲解,作为六节系列课程的第二课,重点解析支撑现代大语言模型的 Transformer 架构与自注意力机制。

人工神经网络基础

1. 向量到向量(Vector to Vector)任务
  • • 输入输出均为向量,如手写数字识别。

  • • 局限:无法处理向量间关系,如序列任务。

2. 序列到序列(Sequence to Sequence)任务
  • • 输入输出为向量序列,如翻译、对话、文本生成。

  • • 特点:输入输出向量数量任意,且输入向量间相互影响。

3. 词性标注任务示例
  • • 输入文字,输出每个词的词性。

  • • 感知器无法处理上下文信息,引出上下文处理需求。

上下文信息处理

1. 滑动窗口方法
  • • 原理:将上下文绑定输入模型。

  • • 缺点:窗口大小固定,无法捕捉长距离上下文。

2. 循环神经网络(RNN)
  • • 原理:维护记忆模块,随输入序列更新。

  • • 缺点:长链条信息弱化,计算顺序性强,降低效率。

3. 注意力机制(Attention Mechanism)
  • • 上下文信息通过计算输入之间的相似度分数,并经 Softmax 归一化得到注意力权重分布

  • • 计算流程:query、key、value 向量映射,计算相关程度,Softmax 处理,得到注意力输出。

  • • 具体计算流程:它通过将输入的词向量(如"道")与学习到的权重矩阵相乘,分别映射为 Query(查询)、**Key(键)**和 Value(值) 三个向量,并通过计算 Query 与 Key 的点积(如图中的 )来衡量不同输入之间的相关性权重,从而实现模型对重要特征的聚焦。

  • • Softmax 的原理:它通过指数映射和归一化处理,将任意范围的激活值转换为总和为 1 的概率分布;

  • • 数值稳定版本 Safe Softmax:为了防止在计算过程中因输入值过大导致数值溢出,Safe Softmax 引入了减去向量最大值 () 的技巧,在保证数学等价性的前提下提升了算子在工程实现中的稳定性。

自注意力机制

1. 自注意力层计算
2. 位置信息处理
  • • 旋转位置编码(Rotary Position Embedding, RoPE):通过角度表示位置关系,保持计算稳定性。
  • • 主流算法:GPT-J 与 GPT-Neox,数学无本质区别,角度排布不同。
3. 多头注意力机制
  • • 原理:通过将 q、k、v 向量在特征维度上拆分为多个子空间(heads),并行建模不同子空间的注意力关系。

  • • 优势:并行计算,提高效率。

大模型结构详解

1. Decoder 模块
  • • 组成:自注意力层与 MLP 层首尾相连。

  • • 层归一化(RMSNorm)与残差结构:保证计算稳定,防止信息损失。

2. MLP 层结构
  • • 参数:hidden size 与 intermediate size,控制输入输出维度与中间层维度。

文本向量化处理

1. 词表构建与分词方法
  • • 词表构建:BPE 算法,高频组合优先成词。

  • • Tokenizer 作用:将文本转换为 toke-id 序列。

2. 向量表示方法
  • • One-hot 编码:简单但低效。

  • • 输入嵌入层(Input Embedding):神经网络映射 token-id 为连续向量,保留语义信息。

  • • 输出嵌入层(Output Embedding):将向量映射回词表长度概率分布,用于文本生成。

相关推荐
TG_yunshuguoji3 小时前
阿里云代理商:DeepSeek V4 vs GPT 系列 阿里云上的成本与性能新平衡
人工智能·阿里云·云计算·ai智能体·deepseek v4
AI技术增长3 小时前
Pytorch图像去噪实战(十三):DDIM加速扩散模型采样,让去噪从1000步降到50步
人工智能·pytorch·python
imbackneverdie4 小时前
AI生图可以自由修改了!
人工智能·ai·信息可视化·科研绘图·ai工具·科研工具·ai生图
DeepSCRM4 小时前
AI对话智能:重构跨境私域增长的技术架构与实践
人工智能
小糖学代码4 小时前
LLM系列:1.python入门:16.正则表达式与文本处理 (re)
人工智能·pytorch·python·深度学习·神经网络·正则表达式
xun-ming4 小时前
AI时代Java程序员自救手册
java·开发语言·人工智能
ShareCreators4 小时前
洞见 | 汽车
人工智能·汽车·blueberry
2501_927283584 小时前
荣联汇智立体仓库:为智慧工厂搭建高效“骨骼”与“中枢”
大数据·运维·人工智能·重构·自动化·制造
七夜zippoe4 小时前
OpenClaw 多模型配置与切换详解
人工智能·配置·模型·切换·openclaw
. . . . .4 小时前
Markdown 处理工具 - Remark
人工智能