Transformer学习 - 技术栈

1.核心角色：Q,K,V到底在干什么？

在 Multi-Head Attention (MHA) 机制中，每一个词（比如"中医"）都会通过线性变换生成三个身份：

MHA是什么？

多头注意力机制，是Transformer架构的核心"大脑"。如果说注意力机制（Attention）是让模型学会"抓重点"，那么Multi-Head（多头）就是让模型同时从多个不同的维度去抓重点。

通俗类比：

想象你在一个技术交流会上（一句话里的所有词都在这）。

最后，你把自己听到的所有内容（加权后的V）整合起来，就得到了这个词在当前语境下的新含义。

2.结构组建：Transformer是如何跑起来的？

一个典型的Transformer结构可以看作是一个"特征加工流水线"：

输入层 (Input)： 文字变数字（初始 Embedding）+ 给每个字贴上位置标签（Positional Encoding）。
编码层 (Encoder)：
- 自注意力 (Self-Attention)： 通过 Q, K, V 让每个字看清自己在句子里的关系。
- 残差连接与归一化 (Add & Norm)： 防止模型层数太深导致信息丢失。
- 前馈网络 (Feed Forward)： 进一步对每个词的特征进行非线性变换。
解码层 (Decoder)： 逻辑类似，但多了一个"关注编码器输出"的过程，用于生成下一个词。

3.关键区分：Transformer Embedding vs. RAG Embedding

这是初学者最容易混淆的地方。虽然都叫"嵌入"，但它们的**"生存环境"**完全不同：

Transformer 的 Embedding 像是"词典里的解释"：它只是一个基础定义。进入 MHA（多头注意力）后，它会根据 QKV 变成"语境中的意思"。
RAG 的 Embedding 像是"图书馆的索引号"：当你问一个关于"舌诊"的问题时，RAG 会把你的问题转成一个 Embedding，然后去数据库里找那个"索引号"最接近的知识块，塞给模型。

Embedding是什么？

在人工智能和自然语言处理（NLP）领域，Embedding（嵌入） 是将离散的数据（如单词、句子、图像）转换为连续的、多维的向量（Vector/数值列表）的技术。

你可以把它理解为一种"翻译官"：它将人类的语言翻译成计算机能够理解、计算的数学语言。

计算机无法直接理解"苹果"或"红色"这些词，它只能处理数字。

传统做法（One-Hot Encoding）： 给每个词分配一个唯一的编号。这种方法的问题是：向量极其稀疏，且无法体现词与词之间的联系（比如，"猫"和"狗"在计算机眼中完全无关）。
Embedding 的优势： 它将物体映射到一个高维空间（Embedding Space） 。在这个空间里，语义相似的内容，其向量距离也会更近。

想象一个二维平面：

通过数学运算，甚至可以进行神奇的推理（这是经典的 Embedding 例子）：

{向量("国王")} - {向量("男人")} + {向量("女人")} 约等于{向量("王后")}

Embedding 通常是通过神经网络训练出来的（如 Word2Vec、GloVe，或现在的 Transformer 模型）。

既然你在开发基于 LangChain + ChromaDB 的 RAG（检索增强生成）系统，Embedding 是其中的灵魂：

知识库向量化： 当你把 TCM（中医）文档存入 ChromaDB 时，系统会通过 Embedding 模型将文档段落转化为向量。
语义检索： 当用户提问时，系统会先将"用户的问题"也转化成向量。然后，在 ChromaDB 中计算"问题向量"与"文档向量"的余弦相似度（Cosine Similarity）。
精准匹配： 系统不会死板地匹配关键词，而是匹配含义。即便用户问法不同，只要语义一致，系统就能检索到相关的中医文献。

以下是视频学习笔记：