单塔和双塔的区别和共同点

lanmengyiyu2026-01-16 23:18

先说结论，当需要处理海量数据时，选双塔模型；当需要精细预测时选单塔模型。所以在 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列中，embedding模型需要处理海量数据，选用了双塔模型；Reranker模型需要对结果排序，数据量小，并且直接对精度产生影响，选用了单塔模型。

有一个比喻特别合适：

复制代码

想象一个相亲平台：

单塔模型：像是让两位嘉宾直接坐在一起深度交流，综合所有信息后，直接判断是否匹配。

双塔模型：像是让两位嘉宾先各自填写一份详细的个人资料，然后平台快速对比这两份资料，计算相似度来初步筛选。

特性	双塔模型 (Two-Tower Model)	单塔模型 (Single-Tower Model)
结构图示	用户特征 -> 用户塔 -> 用户向量物品特征 -> 物品塔 -> 物品向量（在向量空间计算相似度)	用户特征 + 物品特征 -> 混合深度模型 -> 直接输出预测结果
核心思想	"各自表达，事后交互"。两个输入分别通过独立的神经网络（双塔）被映射到同一个向量空间，生成各自的表征向量，再通过简单的相似度函数（如内积、余弦）进行交互和预测。	"先交互，再深加工"。将两个输入早期融合，拼接或交叉后送入一个统一的神经网络（单塔），让模型在深层网络中自动学习复杂的交互特征并进行预测。
典型场景	用户向量与物品向量的相似度得分（例如用于召回）。	复杂的预测分数（如点击率、匹配度）。

这个差异直接决定了它们的分工：

双塔模型：海量候选的快速筛选（召回阶段）

场景：从百万、千万甚至上亿的候选池中，快速筛选出几百个用户可能感兴趣的物品。

例子：打开抖音/淘宝，系统需要瞬间从全平台视频/商品中，找出你可能喜欢的几千个。这全靠双塔模型利用预计算的向量进行近似最近邻搜索高效完成。

单塔模型：精准预测的精细排序（排序阶段）

场景：对召回阶段筛选出的几百个候选，综合利用更丰富的用户上下文、交叉特征进行精细打分和排序。

例子：决定最终展示给你的前10条视频或商品的具体顺序。这时可以使用更复杂的单塔模型（如DeepFM、DIN等），充分挖掘特征交互，做出精准的点击率/转化率预测。