大模型的奥秘：Token与Transformer简单理解

大模型是什么

大模型（Large Model）是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络 构建而成，拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能，能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用，包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征，具有更强大的泛化能力，可以对未见过的数据做出准确的预测。

大语言模型（large language model，LLM），也称大语言模型，是由具有大量参数（通常数十亿个权重或更多）的人工神经网络组成的一类语言模型，使用自监督学习或半监督学习对大量未标记文本进行训练。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。

GPT（Generative Pre-trained Transformer）：GPT 和 ChatGPT 都是基于 Transformer 架构的语言模型，但它们在设计和应用上存在区别：GPT 模型旨在生成自然语言文本并处理各种自然语言处理任务，如文本生成、翻译、摘要等。它通常在单向生成的情况下使用，即根据给定的文本生成连贯的输出。

ChatGPT：ChatGPT 则专注于对话和交互式对话。它经过特定的训练，以更好地处理多轮对话和上下文理解。ChatGPT 设计用于提供流畅、连贯和有趣的对话体验，以响应用户的输入并生成合适的回复。

当然，我们日常说的大模型，更多还是值得是大语言模型，Chatgpt, DeepSeek，Qwen等一开始也都是大语言模型，随着大模型技术不断的更新，成熟，越来越多的模型供应商，开始支持CV，OCR，ASR，SER等模型，形成多模态大模型。

本文还是主要讲述的是大语言模型相关概念和基本原理。

大模型原理

什么是token

我们在使用chatgpt，deepseek的时候，经常看到计费规则，基本是按照token来计费的，那什么是token？就是一个字符吗？

Token就是大模型处理文本的最小单位。token可以表示单词、单词的一部分，甚至只表示字符。

"今天天气很好，我打算出去打羽毛球"，拿这段话来说，大模型会通过分词器(Tokenizer)，可能会分成如下的token: "今天"，"天气"，"很"，"好"，"我"，"打算"，"出去"，"打"，"羽毛球"。这些token最后都转化为向量，映射到唯一的数值表示，LLM 使用向量数值输入，这种映射允许 LLM 将文本数据作为数字序列进行处理和操作，从而实现高效的计算和建模。

假设上面的文本是输入，大语言模型的输出token又是怎么实现的呢？假设大模型的输出是"是的，今天天气很好，你可以带上你的羽毛球去室外玩"。实际上，大模型的输出也是一个token，一个token的输出，最后组装起来，后一个token是上一个token的概率输出。例如先输出"是的"，后面紧跟着的预测token是"，"，且概率最大，或者高于阈值。

可以看deepseek的流式输出，实际上就是输出一个个token。

什么是transform

上面介绍了一下什么是token，那么大模型如何理解token呢？我们很容易想到的第一个方案就是让AI一个个token，顺序读，读了第一个token，记住它，传给大脑；再读第二个token，结合第一个字理解，再传下去。。。

但是这样有两个十分明显的缺点：

慢，需要一个接着一个读，同时结合上文，理解。
健忘，如果句子很长，读到最后几个字时，可能已经忘了开头讲什么了（比如"因为......所以......"的逻辑容易断）。

这是传统AI的方式，通过RNN，循环神经网络来进行处理。但显然，我们日常用的大模型，基本处理速度都比较快，所以大模型显然并没有采用RNN的方式实现，而是通过另外一种方式，Transform架构来实现。

Transform最大的优点就是快，它不是一个个读的，还是整体读，通过并行计算，瞬间把整段话的所有token同时记录到脑海里。当然，写还是串行的。

并行的读去token，势必会造成有的token读得快，有的token读得慢，出现乱序行为，但我们再使用过程中发现大模型并没有出现这样的问题，那transform如何解决的？

Transformer 的架构主要分为两部分：

编码器 (Encoder ) ------ 负责"读"和"理解"：它把人类的语言（文字）转化成计算机能懂的数字向量（特征）。同时也会记录每个token或者每个特征的位置编码，这样就能保证token的顺序性。
解码器 (Decoder ) ------ 负责"写"和"生成"：它拿到编码器给的理解结果，开始生成目标语言（比如把中文翻译成英文，或者回答你的问题）。虽说是生成，但也会计算出每次输出token的位置编码。

Transform还有个非常重要的机制，自注意力机制self-Attention。我们以"苹果掉在地上，它摔坏了。"这段话为例。当我们读到"它"的时候，我们人类知道"它"指的是"苹果"。但电脑怎么知道"它"是指"苹果"还是"地"？简单一点理解，Transformer 会让每一个token，都去和其余token进行相关性的算分，取权重最高的那一个token。当模型处理"它"这个字时，会发现"苹果"跟它的关联度（权重）很高，可能有 90 分。而"地"跟它的关联度只有 10 分。于是，模型在理解"它"的时候，会把注意力更多地放在"苹果"身上。

另外，需要说明的是，目前Chatgpt等主流大语言模型，主要采用的是纯Decoder模式。

参考文献

想要更加深入的理解transformer的同学，可以参考：