1. Transformer的起源与核心架构
2017年,谷歌在论文《Attention Is All You Need》中首次提出Transformer架构,彻底改变了自然语言处理(NLP)领域。其核心创新包括:
• 自注意力机制(Self-Attention):动态计算词与词之间的关联权重,替代传统RNN的序列依赖。
• 并行计算:摆脱RNN的串行计算限制,大幅提升训练效率。
• 位置编码(Positional Encoding):通过数学方法注入序列顺序信息,解决无时序建模问题。
原始Transformer由两部分组成:
• 编码器(Encoder):将输入文本(如"I am Wang")转化为高维含义矩阵(Hidden Vector),包含语义信息但无语言特征。
• 解码器(Decoder):将含义矩阵逐步解码为目标语言(如"我是王"),通过自回归生成(逐词预测)。
2. 编码器(Encoder)工作原理
-
输入处理:
• 文本经过词嵌入(Word Embedding)和位置编码后,输入多层结构。
• 每层包含:
◦ 多头自注意力(Multi-Head Attention):并行计算不同维度的注意力权重。
◦ 前馈网络(Feed Forward Network):非线性变换增强表达能力。
◦ 残差连接(Residual Connection) + 层归一化(Layer Norm):缓解梯度消失。
-
输出:
• 经过N层相同结构(参数独立)的运算,生成最终的含义矩阵(如[0.1, -0.7, 1.5...])。
3. 解码器(Decoder)生成逻辑
-
输入依赖:
• 含义矩阵(来自Encoder):固定不变,提供源文本语义。
• 已生成文本(自回归输入):初始为<开始>标记,逐步拼接预测结果。
-
生成过程:
• 每一步解码器输出一个概率分布(如"我"10%、"你"4%...),选择最高概率的token。
• 重复直至生成<结束>标记。例如:
输入"<开始>" → 输出"我"
输入"<开始>我" → 输出"是"
输入"<开始>我是" → 输出"王"
-
关键设计:
• 掩码注意力(Masked Attention):防止解码器"偷看"未来信息。
• 温度(Temperature):控制输出随机性(高温增加多样性)。
• Top-K采样:仅从概率最高的K个token中选择。
4. 训练方法对比
监督学习 (适用于翻译等任务)
• 数据需求:需要成对的标注数据(例如:"I am Wang" 对应 "我是王")。
• 架构训练:需要联合训练完整的编码器(Encoder)和解码器(Decoder)。
• 典型任务:机器翻译、序列到序列转换。
自监督学习 (适用于GPT类大语言模型)
• 数据需求:仅需大量无标注的普通文本(以前文预测下文)。
• 架构训练:通常仅需训练解码器(Decoder)部分。
• 典型任务:语言模型预训练、文本生成。
5. 架构演进:从翻译模型到大语言模型
• Encoder-Decoder:原始翻译架构(如Google Translate)。
• Decoder-Only:删除Encoder,仅保留Decoder(如GPT、Gemini、Claude)。
• 优势:适合生成任务,通过自回归预测实现"文字接龙"。
• 训练数据:无需标注,任意文本可生成输入-输出对(自监督学习)。
• Encoder-Only:删除Decoder,专注文本理解(如BERT)。
• 应用:信息抽取、文本分类等需双向上下文的任务。
6. 关键参数与性能
参数量
• 定义:模型中的可学习系数总和,本质上是类似公式 y = ax + b 中的参数(a 和 b)。
• 示例:如GPT-4的参数规模达到约1.8万亿。
计算负载特性
• 编码器 (Encoder):计算模式为一次性并行处理整个输入序列,因此对于给定长度的输入,其计算量是固定的。
• 解码器 (Decoder):计算模式为自回归的逐词元(token)生成,耗时与输出长度直接成正比。这是当前大模型API服务中,按输出token收费通常高于按输入token收费的核心原因。
7. 哲学启示
• 人生上半场(Encoder):学习与积累,将世界编码为内在认知。
• 人生下半场(Decoder):输出与创造,将认知解码为行动与影响。
附:核心概念速查表
术语:自注意力
说明:动态计算词间关联,替代RNN的固定顺序依赖。
术语:位置编码
说明:通过正弦/余弦函数注入位置信息,解决Transformer的无序性。
术语:含义矩阵
说明:编码器输出的高维向量,蕴含语义但无语言特征。
术语:自回归生成
说明:逐词预测,每一步依赖前序输出(如GPT)。
术语:温度(Temperature)
说明:控制输出随机性:0=确定性,1=高创造性。
术语:Top-K采样
说明:仅从概率最高的K个候选词中选择,平衡质量与多样性。
AI #大模型 #Transformer #深度学习 #技术原理
(完整架构图解与训练细节可参考论文《Attention Is All You Need》)