单塔和双塔的区别和共同点

先说结论,当需要处理海量数据时,选双塔模型;当需要精细预测时选单塔模型。所以在 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列中,embedding模型需要处理海量数据,选用了双塔模型;Reranker模型需要对结果排序,数据量小,并且直接对精度产生影响,选用了单塔模型。

有一个比喻特别合适:

复制代码
想象一个相亲平台:

单塔模型:像是让两位嘉宾直接坐在一起深度交流,综合所有信息后,直接判断是否匹配。

双塔模型:像是让两位嘉宾先各自填写一份详细的个人资料,然后平台快速对比这两份资料,计算相似度来初步筛选。
特性 双塔模型 (Two-Tower Model) 单塔模型 (Single-Tower Model)
结构图示 用户特征 -> 用户塔 -> 用户向量 物品特征 -> 物品塔 -> 物品向量 (在向量空间计算相似度) 用户特征 + 物品特征 -> 混合深度模型 -> 直接输出预测结果
核心思想 "各自表达,事后交互"。两个输入分别通过独立的神经网络(双塔)被映射到同一个向量空间,生成各自的表征向量,再通过简单的相似度函数(如内积、余弦)进行交互和预测。 "先交互,再深加工"。将两个输入早期融合,拼接或交叉后送入一个统一的神经网络(单塔),让模型在深层网络中自动学习复杂的交互特征并进行预测。
典型场景 用户向量与物品向量的相似度得分(例如用于召回)。 复杂的预测分数(如点击率、匹配度)。

这个差异直接决定了它们的分工:

双塔模型:海量候选的快速筛选(召回阶段)

场景:从百万、千万甚至上亿的候选池中,快速筛选出几百个用户可能感兴趣的物品。

例子:打开抖音/淘宝,系统需要瞬间从全平台视频/商品中,找出你可能喜欢的几千个。这全靠双塔模型利用预计算的向量进行近似最近邻搜索高效完成。

单塔模型:精准预测的精细排序(排序阶段)

场景:对召回阶段筛选出的几百个候选,综合利用更丰富的用户上下文、交叉特征进行精细打分和排序。

例子:决定最终展示给你的前10条视频或商品的具体顺序。这时可以使用更复杂的单塔模型(如DeepFM、DIN等),充分挖掘特征交互,做出精准的点击率/转化率预测。

相关推荐
数研小生4 小时前
用爬虫数据训练 ChatGPT 行业知识库:从数据采集到模型微调的实战指南
人工智能·爬虫·chatgpt
Guheyunyi4 小时前
什么是安全监测预警系统?应用场景有哪些?
大数据·运维·人工智能·安全·音视频
清 晨4 小时前
AI 代理购物把“流量”变成“答案”,而“可信交付”决定你能不能被选中
大数据·人工智能·跨境电商·跨境·营销策略
Funny_AI_LAB4 小时前
GLM-OCR发布:性能SOTA,超越PaddleOCR-VL-1.5?
人工智能·计算机视觉·语言模型·ocr
m0_603888714 小时前
Language Models Struggle to Use Representations Learned In-Context
人工智能·ai·语言模型·自然语言处理·论文速览
青春不朽5124 小时前
PyTorch 入门指南:深度学习的瑞士军刀
人工智能·pytorch·深度学习
区块链蓝海4 小时前
Ardor v2.6.0 正式发布:Nxt迁移完成,Ardor迈入多链协同新阶段
人工智能·区块链
403240734 小时前
【Jetson开发避坑】虚拟环境(Conda/Venv)调用系统底层OpenCV与TensorRT的终极指南
人工智能·opencv·conda
JMchen1234 小时前
AI编程范式转移:深度解析人机协同编码的实战进阶与未来架构
人工智能·经验分享·python·深度学习·架构·pycharm·ai编程
esmap4 小时前
OpenClaw与ESMAP AOA定位系统融合技术分析
前端·人工智能·计算机视觉·3d·ai·js