[LLM初步] Transformer 架构综述

画师:竹取工坊

大佬们好!我是Mem0rin!现在正在准备自学转码。

如果我的文章对你有帮助的话,欢迎关注我的主页Mem0rin,欢迎互三,一起进步!


文章目录

    • 前言
    • [一、什么是 Transformer ?](#一、什么是 Transformer ?)
      • [Transformer 架构](#Transformer 架构)
      • [Transformer 模型](#Transformer 模型)
    • [二、Transformer 的构成](#二、Transformer 的构成)
    • 三、一个简单的例子串起来看看

前言

这是我在 agent 方向的初步探索,希望能在后端学习的过程中走完 LLM 等agent 相关的技术栈,分享出来希望能有所帮助。

这篇博客主要是整体进行一个简单的表述,具体的自然文本处理,模型训练和 Transformer 架构的结构等会在后面具体展开。

一、什么是 Transformer ?

Transformer 架构

Transformer 架构是著名论文《Attention Is All You Need》提出的框架,最初用于翻译,后来被用于语言模型的自然语言处理上,诞生了一系列具有广泛影响力的模型,例如 GPT、BERT,并逐渐成为现在大模型的基础。

Transformer 模型

Transformer 模型是已经通过无监督学习完成大量的原始文本训练的语言模型,类似于 GPT。这样的模型对训练过后的数据具有统计学意义上的理解,但是对于"特定的"任务可能表现就不尽如人意,因此针对特定任务的处理还需要对模型进行微调。

流程大概为:预训练 得到语言模型,再通过微调迁移学习 成我们需要的模型。具体的内容会在后面的模型训练板块讲到。

二、Transformer 的构成

最初的 Transformer 架构由两部分组成:编码器和解码器。图示如下:

左边的部分为编码器,负责接收输入,通过自注意机制建立词和词之间的权重关联,用数字表示(计算其高级表示条目),传输给解码器。

右侧的部分为解码器,接收编码器的输出和用于预测生成的其他输入,预测的 output 可能会在之后重复使用(自回归)

这两个部分都基于 Transformer 的一个重要特性:注意力层,负责告诉模型在处理单词的时候对于不同单词的重视(或忽略)程度。

在编码器中体现为自注意机制,分析原文本词和词之间的关联。在解码器中期限为自注意力和交叉注意力的结合,一方面通过掩码注意力机制生成文本,(右上角)一方面通过编码器的输出判断输出的准确性(右下角)。具体的机制会在后面说明。

用一个翻译的例子说明:

三、一个简单的例子串起来看看

你是一个专业的翻译员(语言模型),经过大量的英语文本的学习(预学习)已经掌握了英语的相关知识,现在要求你去翻译美国文学作品,由于文学的写作方式,美国的风土人情等专业术语和表达还有所欠缺,因此你带着专业的英语知识学习了对应的知识点(微调,迁移学习),具备了翻译出信达雅的文学作品的能力。

在翻译一个作品时,你先精读了一遍原文本,对词和文章的联系有了整体的认知(编码层自注意力),之后着手进行翻译,一方面你一边翻译一边审查你前面翻译的文本,确定下面要写的翻译文本是通顺且符合语境的(解码层自注意力),另一方面,因为你已经对文章有了整体的认知,因此也可以判断这段文本是忠于原文的(解码层交叉注意力)。并且你会标注上一些不需要关注的单词(比如自己阅读的批注),避免对原文的翻译产生干扰(注意力掩码层)

相关推荐
2401_832298102 小时前
混合部署成为行业主流,OpenClaw构建云端+本地双架构,平衡算力与隐私
大数据·人工智能
解局易否结局2 小时前
用 Profiler 追踪 ops-transformer 算子:GE 融合与 Runtime 调度的实战调试
人工智能·深度学习·transformer
后端小肥肠2 小时前
一人公司如何用 WorkBuddy + Obsidian 搭一套长期记忆系统?
人工智能·aigc·agent
RFID舜识物联网2 小时前
破局“信息孤岛”:RFID耐高温标签重塑汽车喷漆车间可视化
大数据·人工智能·科技·物联网·安全·汽车
05大叔2 小时前
预训练模型演化,提示词工程
人工智能·深度学习·自然语言处理
BU摆烂会噶2 小时前
【LangGraph】House_Agent 实战(一):架构与环境配置
人工智能·vscode·python·架构·langchain·人机交互
小小测试开发2 小时前
OpenAI 模型攻克离散几何 80 年难题:Erdős 单位距离猜想被 AI 证明
人工智能·算法·机器学习
moonsims2 小时前
从“传感器融合”升级为“多机器人约束融合系统”-Factor Graph 多约束融合
人工智能·算法
tedcloud1232 小时前
agent-skills部署教程:打造工程化AI Agent系统
服务器·人工智能·系统架构·powerpoint·dreamweaver