大语言模型工作原理笔记

大语言模型使用词向量来表示单词，每个词向量是由一串数字组成的列表，代表词空间中的一个点。
词空间中，含义相近的词位置更接近，例如"猫"的词向量会靠近"狗"、"小猫"等词向量。
词向量的好处 :
- 可以进行数值运算，例如"最大" - "大" + "小" = "最小"。
- 能够捕捉词语之间的微妙关系，例如"瑞士人"与"瑞士"的关系类似于"柬埔寨人"与"柬埔寨"的关系。
- 可以根据上下文用不同的向量来表示同一个词，解决多义词问题，例如"银行"可以指金融机构或河岸。

Transformer是一种神经网络结构，由多个层组成，每层都接收一系列词向量作为输入，并添加信息以更好地预测下一个词。
Transformer 的两个核心处理过程：
- 注意力机制: 词汇会观察周围，寻找具有相关背景并彼此共享信息的词，并通过查询和关键项链的匹配来传递信息。
- 潜会层: 每个词会思考之前注意力步骤中收集到的信息，并尝试预测下一个词。
注意力机制 :
- 可以将其视为单词之间的"撮合服务"，每个词会制作查询和关键项链来描述自己和寻找的词，并通过比较找到最佳匹配的词。
- 拥有注意力头，每个注意力头专注于不同的任务，例如匹配代词和名词、解析多义词等。
潜会层 :
- 可以访问注意力头提供的上下文信息，并通过模式匹配来预测下一个词。
- 早期层倾向于匹配特定单词，后期层则匹配更广泛类别的短语。
- 可以通过向量运算进行推理，例如将国家转化为首都。
注意力机制和潜会层的分工：注意力机制从提示中检索信息，而潜会层让语言模型记住未在提示中出现的信息。

大语言模型通过预测文本段落中的下一个词来学习，不需要人工标记数据。
训练过程：
1. 前向传播: 输入文本，检查模型预测的下一个词是否正确。
2. 反向传播: 根据预测结果调整模型的权重参数，使模型做出更好的预测。
训练需要大量的数据和计算资源，例如 GPT-3 在 5000 亿个单词的语料库上进行训练，需要运行数月才能完成。

大语言模型通过学习大量文本数据，能够以惊人的准确度预测下一个词，并展现出一定的推理能力。虽然其内部工作机制尚未被完全理解，但其强大的能力和潜力已不容忽视。