AI-大语言模型LLM-Transformer架构6-输出层

目的

为避免一学就会、一用就废,这里做下笔记

说明

  1. 本文内容紧承前文-Transformer架构1-整体介绍Transformer架构5-残差连接与前馈网络,欲渐进,请循序
  2. 本文重点介绍Transformer架构中的最后一部分-输出层

一、输出层1-Linear

是什么

  1. Linear也是一种前馈神经网络,但相比Transformer内部的多层非线性神经网络(多层感知机),Linear没有隐藏层和激活函数,是一种简单的线性神经网络(单层感知机)

  2. Linear的作用: 将解码器的输出矩阵Z从语义空间映射到词表空间。这和编码器堆栈中Embedding的作用恰好相反

    • Embedding:词表数据 -> 向量数据
    • Linear:向量数据 -> 词表数据

为什么

为什么用这种简单的单层感知机?

要实现将解码器的输出矩阵Z从语义空间映射到词表空间 ,使用点积进行相似度计算: h ⋅ w i h · w_i h⋅wi 已足够。

对照理解,是不是Embedding也是一个单层感知机

是的,Embedding的数学本质

复制代码
# Embedding 操作:one-hot词向量 → 稠密的语义向量
# 输入:one-hot 向量 e_i = [0,...,1,...,0]
# 操作:v = E^T · e_i    (这里的E是嵌入层的参数矩阵)
# 输出:词向量 v = E[i] (第 i 行,v的形状和E相同)

Linear的数学本质

复制代码
# Linear 操作:稠密的语义向量 → one-hot词得分向量
# 输入:解码器输出的语义向量 x
# 操作:y = W · x + b
# 输出:one-hot词得分向量

二、输出层2-Softmax

什么是Softmax

  • Softmax是一种将实数向量转换为概率分布的函数,它是深度学习和机器学习中最重要的激活函数之一,常用于多分类。
  • Softmax层就是利用该函数,将Linear层输出的one-hot词得分向量转化为one-hot词概率向量。最后应用层将这个one-hot词概率向量转化成具体的词输出(取概率最大的那个词ID,然后映射成词)

Softmax的数学公式

基础版本(学习理解使用):

对于输入向量 z = [z₁, z₂, ..., zₙ],softmax 定义为:

Softmax ( z i ) = e z i ∑ j = 1 n e z j 对 i = 1 , 2 , . . . , n \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}} \quad \text{对 } i = 1, 2, ..., n Softmax(zi)=∑j=1nezjezi对 i=1,2,...,n

数值稳定版本 (实际使用):
Softmax ( z i ) = e z i − max ⁡ ( z ) ∑ j = 1 n e z j − max ⁡ ( z ) \text{Softmax}(z_i) = \frac{e^{z_i - \max(z)}}{\sum_{j=1}^{n} e^{z_j - \max(z)}} Softmax(zi)=∑j=1nezj−max(z)ezi−max(z)

输出特性:所有输出值 ∈ [0, 1],且总和为 1,形成概率分布。

为什么用Softmax函数

因为深度学习本质上是学习一个从输入到概率分布的映射,而 softmax 提供了一个可微的、数值稳定的、符合概率公理的方式来做这件事。

相关推荐
supericeice1 分钟前
大模型建筑隐患管理方案怎么做?创邻科技用知识图谱、图数据库和企业AI大脑打通隐患问答、整改与推荐
人工智能·科技·知识图谱
蕤葳-5 分钟前
非编程背景学习AI的方法
人工智能
北京耐用通信8 分钟前
不换设备、不重写程序:耐达讯自动化网关如何实现CC-Link IE转Modbus TCP的高效互通?
人工智能·科技·物联网·网络协议·自动化·信息与通信
计算机毕业设计指导8 分钟前
基于机器学习和深度学习的恶意WebURL检测系统实战详解
人工智能·深度学习·机器学习·网络安全
珂朵莉MM10 分钟前
第七届全球校园人工智能算法精英大赛-算法巅峰赛产业命题赛第3赛季优化题--多策略混合算法
人工智能·算法
GlobalInfo12 分钟前
2026-2032全球AI服务器连接器市场洞察:规模、竞争与趋势深度解析
人工智能
Elastic 中国社区官方博客16 分钟前
使用 Jina-VLM 小型多语言视觉语言模型来和图片对话
大数据·人工智能·elasticsearch·语言模型·自然语言处理·jina
罗西的思考16 分钟前
【OpenClaw】通过 Nanobot 源码学习架构---(6)Skills
人工智能·深度学习·算法
uzong16 分钟前
软件人员可以关注的 Skill,亲测确实不错,值得试一下
人工智能·后端
志栋智能18 分钟前
超自动化巡检:实现运维“事前预防”的关键拼图
大数据·运维·网络·人工智能·机器学习·自动化