在构建 RAG(检索增强生成)系统时,Embedding 模型是决定检索质量的基石。BAAI 发布的 BGE-M3 因其支持多语言、长文本和多种检索模式,成为了目前的 SOTA(State of the Art)选择之一。
而使用 Ollama 部署 BGE-M3 是最轻量、最便捷的方式。但在实际调用中,许多开发者会对返回的数据格式、接口限制以及 BGE-M3 特有的"三种向量"模式产生疑惑。
本文将带您完成从接口连通性测试 到底层向量原理的深度解析。
一、 快速上手:测试 Ollama 部署的 BGE-M3
假设您的 Ollama 服务部署在内网服务器 10.248.17.50:11434,我们需要验证其 /api/embeddings 接口是否可用。
1. 命令行测试 (Curl)
这是最直接的验证方式。需要注意的是,Ollama 的 Embedding 接口与 Chat 接口不同,且在 Windows CMD 中运行时,JSON 数据需要进行特殊转义。
通用 Linux/Mac 终端命令:
Bash
curl http://127.0.0.1:11434/api/embeddings -d '{
"model": "bge-m3:latest",
"prompt": "测试文本"
}'
Windows CMD 命令(注意转义):
DOS
curl http://127.0.0.1/api/embeddings -d "{\"model\": \"bge-m3:latest\", \"prompt\": \"测试文本\"}"
成功标志:
如果返回包含 "embedding": [0.123, -0.456, ...] 的 JSON 数据,说明服务调用成功。
2. Python 脚本集成
在实际项目中,我们通常使用 Python 进行调用:
Python
import requests
url = "http://127.0.0.1:11434/api/embeddings"
payload = {
"model": "bge-m3:latest",
"prompt": "RAG系统中的向量检索"
}
try:
response = requests.post(url, json=payload)
if response.status_code == 200:
vector = response.json().get("embedding")
print(f"✅ 获取成功,向量维度: {len(vector)}") # BGE-M3 默认为 1024 维
else:
print(f"❌ 调用失败: {response.text}")
except Exception as e:
print(f"❌ 连接错误: {e}")
二、 核心疑问:返回的到底是什么向量?
BGE-M3 的全称蕴含了它的特性:M3 = Multi-Linguality(多语言), Multi-Functionality(多功能), Multi-Granularity(多粒度)。
它理论上支持生成三种类型的向量,但在 Ollama 的 API 中,情况有所不同。
1. Ollama 的限制
Ollama 的 /api/embeddings 接口目前仅支持返回 Dense Vector(稠密向量)。
即使 BGE-M3 模型本身支持稀疏检索和 ColBERT 模式,Ollama 为了遵循通用的 OpenAI API 格式规范,默认只输出那个长度为 1024 的浮点数数组。
2. BGE-M3 的三种向量全解析
为了更好地设计检索策略,我们需要理解 BGE-M3 能力的全貌:
| 向量类型 | 英文名称 | 原理 | 特点 | 适用场景 |
|---|---|---|---|---|
| 稠密向量 | Dense Vector | 将句子压缩成一个固定长度数组 | 抓大意。懂语义、懂同义词,模糊匹配能力强。 | 大规模初筛,通用语义检索。 |
| 稀疏向量 | Sparse Vector | 类似词袋模型,生成"词:权重"对 | 抓关键词。精确匹配,对专有名词、型号、缩写极敏感。 | 搜索特定型号、人名或代码。 |
| 多向量 | ColBERT (Multi-Vector) | 为每个 Token 生成一个向量 | 全都要。保留了句子结构和细微交互,精度最高,但体积巨大。 | 精细重排序 (Rerank)。 |
三、 架构建议:如何弥补单一向量的不足?
既然 Ollama 只能提供 Dense Vector,我们的 RAG 系统是否就不够强大了?
并不是。 Dense Vector 已经能解决 80% 的语义检索问题。但如果您对检索精度有极高要求(例如需要精确匹配产品型号),可以采用 "混合检索 + 重排序" 的策略。
推荐架构
-
初排(Retrieval): 使用 Ollama 生成的 Dense Vector 在向量数据库(如 Milvus/Chroma)中快速召回前 50-100 个文档。
-
重排(Reranking): 引入一个轻量级的 Reranker 模型 (如
bge-reranker-v2-m3)。-
Reranker 不是生成向量,而是直接给"问题-文档"对打分。
-
它能弥补 Dense Vector 丢失细节的缺点,实现类似 ColBERT 的高精度效果。
-
总结
-
测试: 使用
curl或 Python 确认 Ollama 端口连通性。 -
认知: 明确 Ollama 接口返回的是 1024 维的稠密向量。
-
进阶: 理解 BGE-M3 的三维能力,并在需要时通过引入 Reranker 模型来构建更强大的混合检索系统。