AI核心知识73——大语言模型之Shared Vector Space（简洁且通俗易懂版）

共享的向量空间 (Shared Vector Space ) 是多模态大模型能够"看图说话"、"听音画图"或者"跨语言思考"的根本数学基础。

如果说 Embedding 是把一种数据（比如文字）变成了坐标；

那么共享的向量空间就是把文字、图片、声音都扔进同一个坐标系里，并且强制要求：意思相同的东西，不管它是什么形式，坐标必须靠在一起。

想象一个巨大的**"概念宇宙"** （这就是向量空间）。

以前（独立空间）：
- 文字模型有一个自己的宇宙。里面有"猫"字。
- 视觉模型有一个自己的宇宙。里面有"猫的照片"。
- 问题：这两个宇宙是不通的。计算机不知道"猫"这个字和"猫的照片"是同一回事。
现在（共享空间）：
- 我们强行把它们拉到同一个宇宙里。
- 我们定下一条死规矩：只要是代表"毛茸茸、会喵喵叫的动物"，无论是汉字"猫"、英文"Cat"、还是"一张猫的照片"，它们的坐标必须无限接近。
- 结果：在这个空间里，数据不再区分形式，只区分含义 (Semantics)。

建立这个空间的过程，通常被称为对齐 (Alignment) 。最著名的案例是 OpenAI 的 CLIP 模型。

它的训练方法简单而暴力：

经过亿万次的训练，模型终于悟了：原来图像的特征和文字的特征，是可以一一对应的。

一旦建立了共享向量空间，魔法就发生了：

共享的 向量空间 就是 AI 世界的**"巴别塔"** 。

它打破了语言、图像、声音之间的隔阂，把世间万物都统一成了数学坐标。

正因为有了这个共享空间，AI 才能看着你的照片写诗，听着你的声音画画。它是连接数字世界与物理世界的通用接口。