大模型-第一章语言模型基础(二)

文章目录

    • [1.3 基于 Transformer 的语言模型](#1.3 基于 Transformer 的语言模型)

1.3 基于 Transformer 的语言模型

Transformer 是一类基于注意力机制(Attention)的模块化构建的神经网络结构。给定一个序列,Transformer 将一定数量的历史状态和当前状态同时输入,然后进行加权相加。对历史状态和当前状态进行"通盘考虑",然后对未来状态进行预测。基于 Transformer 的语言模型,以词序列作为输入,基于一定长度的上文和当前词来预测下一个词出现的概率。

python 复制代码
这两个模块组成了transformer 块,模型是由多个块组合而成的
python 复制代码
首先,为什么要提出transformer呢,他提出来又是为了解决生成语言模型遇到的哪些问题呢
之前是不是学了RNN,传统的神经网络(如 RNN 和 LSTM)通常需要逐步地处理数据(一个词一个词地处理)
越长越不准确是不是
Transformer 通过一种叫做 自注意力机制(Self-Attention) 的技术,能够同时关注输入序列中的所有位置,解决了这一问题,并且计算上更高效。

自注意力机制计算过程:

python 复制代码
注意力分数:表示该词与其他词的关系(即它们的相似度)

最开始的权重矩阵Wq Wk Wv都是随机初始化的,在训练过程中,Transformer 通过 前向传播 计算查询、键、值向量,并通过 反向传播 计算损失和梯度,更新这些权重矩阵。
python 复制代码
注意力机制是如何工作的:一个是计算注意力,然后是应用注意力,应用注意力就是他的多头注意力机制,让模型从不同角度理解词之间的关系,Transformer 使用多个"头"来并行计算注意力,每个头关注输入序列的不同部分。

通俗解释:
想象你在翻译一句话时,看到"我喜欢苹果"。你在翻译"苹果"这个词时,可能会特别注意到"喜欢"这个词,因为它描述了"苹果"的情感关联,而不是关注句子中的"我"。注意力机制帮助模型"专注"于输入序列中的关键部分。

简而言之,注意力机制让模型"关注"最相关的信息,忽略不重要的部分,从而提升模型对复杂任务的理解和处理能力。
示例:
假设输入句子为:"我喜欢吃苹果。" 如果我们要生成"吃"的翻译,注意力机制会帮助模型集中注意力在"喜欢"和"苹果"上,而不是"我"。
python 复制代码
多头注意力(Multi-Head Attention)机制中每个头(head)有不同的权重矩阵。
具体来说,多头注意力机制的核心思想是将注意力机制应用于多个子空间(不同的子空间代表不同的注意力头),从而能够捕捉输入数据的不同方面信息。每个注意力头都学习不同的查询(Query)、 键(Key)和值(Value) 的权重矩阵。



python 复制代码
全连接前馈网络

想象你有一份报告,你希望模型能够通过这份报告给出一个总结。报告的每个部分(比如每一段文字)可能包含不同的信息,而模型通过"全连接前馈网络"来处理这些信息,将它们组合起来生成最终的输出。每一层的神经元都连接到下一层的所有神经元,因此它能够对信息进行广泛的处理和整合。

接下来介绍transformer的解码编码结构

python 复制代码
Transformer 模型由 编码器(Encoder) 和 解码器(Decoder) 两大部分组成
分别用于输入序列的处理和输出序列的生成。每个编码器和解码器都由多个相同的层堆叠而成,通常是 6 层(但可以根据需要进行调整)。

例子:英文句子翻译成中文

输入句子(英文):

"I love reading books."

目标输出(中文):

"我 喜欢 读书"

那编码器有什么用呢

解码器有什么作用呢


python 复制代码
多层:
可以类比为人类学习语言或理解信息的过程。我们并不是一次就能完全理解一句话或一段话的所有含义,而是需要通过逐渐分析不同的层面(例如词汇、语法、语境等)来逐渐构建出完整的理解。多层编码器的设计就是模拟这种认知过程,逐层逐步提炼和抽象信息。
python 复制代码
解码器的那个编码器-解码器注意力机制不太理解
可以将其类比为一个人在翻译一个句子时的思维过程。假设你要把英文句子"I love reading books"翻译成中文。如果你想翻译"I"这个词,你会想到它在句子中的位置和它的作用。你会意识到"I"是主语,在中文中应该翻译为"我"。这个判断是基于你对整个句子的理解,而不仅仅是词汇本身。
同样的,在 Transformer 中,解码器生成每个目标词时,它不仅仅依赖于自己已经生成的部分,还会参考 编码器的输出(也就是源语言的句子)来决定最合适的词语。


再具体一点:


用数学就是


相关推荐
掘金安东尼21 小时前
被权重出卖的“脏数据”:GPT-oss 揭开的 OpenAI 中文训练真相
人工智能
Orange_sparkle21 小时前
关于dify中http节点下载文件时,文件名不为原始文件名问题解决
人工智能·http·chatgpt·dify
王哈哈^_^21 小时前
【完整源码+数据集】蓝莓数据集,yolo11蓝莓成熟度检测数据集 3023 张,蓝莓成熟度数据集,目标检测蓝莓识别算法系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·ai·视觉检测
盘古开天166621 小时前
通俗易懂:YOLO模型原理详解,从零开始理解目标检测
人工智能·yolo·目标检测
OpenBuild.xyz21 小时前
x402 生态系统:Web3 与 AI 融合的支付新基建
人工智能·web3
王哈哈^_^1 天前
【完整源码+数据集】高空作业数据集,yolo高空作业检测数据集 2076 张,人员高空作业数据集,目标检测高空作业识别系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·目标跟踪·视觉检测
猿小猴子1 天前
主流 AI IDE 之一的 Comate IDE 介绍
ide·人工智能·comate
可触的未来,发芽的智生1 天前
触摸未来2025-11-09:万有力,图论革命
javascript·人工智能·python·程序人生·自然语言处理
悟乙己1 天前
超越文本:利用大型语言模型进行时间序列预测(第1部分)
人工智能·语言模型·自然语言处理
ZEERO~1 天前
夏普比率和最大回撤公式推导及代码实现
大数据·人工智能·机器学习·金融