如何基于sentence_transformers构建向量计算工具

sentence_transformers是本地构建向量模型测试时经常会选用的工具。

这里基于网络资料，尝试基于sentence_transformers构建向量模型。

1 模型获取

1.1 镜像设置

由于直接访问hf受限，这里直接使用hf-mirror拉取模型。

示例代码设置如下

复制代码

import os
os.environ['HF_ENDPOINT'] = "https://hf-mirror.com"

1.2 模型获取

在配置hf镜像后，sentence_transformer可以通过hf获取模型，示例代码如下。

复制代码

from sentence_transformers import SentenceTransformer
emb_model = "maidalun1020/bce-embedding-base_v1"
embedder = SentenceTransformer(emb_model)

1.3 获取向量

进一步，可以测试获取向量。

示例代码如下

复制代码

content_list = ["记住我每周三下午有空接电话", "你好", "购买", "体验不好"]
embedding_array = [embedder.encode(content).tolist() for content in content_list]
print(len(embedding_array[0]))

输出位768，说明bce-embedding-base_v1向量模型输出768维的向量。

2 向量服务

单一向量模型，在实际代码中可能会面临兼容的问题。

在实际场景，一般都会把向量模型封装到类中，以统一方法名称向外提供服务。

2.1 封装示例

这样用户就不需要为各种向量模型，提供对应的调用代码了。

以下是一个封装示例。

复制代码

import numpy as np
from typing import List, Dict, Any, Optional
from sentence_transformers import SentenceTransformer


class EmbeddingService:
    """嵌入服务 - 使用 LiteLLM 调用真实 LLM 生成向量"""

    def __init__(self, model: str = "openai/text-embedding-3-small"):
        self.model = model
        self.embedder = SentenceTransformer(model)

    def generate(self, text: str) -> List[float]:
        """
        生成文本嵌入向量。
        实际部署时可替换为本地模型（如 sentence-transformers）
        """
        try:
            embedding = self.embedder.encode(text[:8000])
            return embedding
        except Exception as e:
            print(f"Embedding generation failed: {e}")
            # 降级：返回随机向量（仅用于演示，生产环境应使用本地模型）
            return np.random.randn(768)

emb_service = EmbeddingService(model="maidalun1020/bce-embedding-base_v1")
embedding = emb_service.generate("hello!").tolist()
print(len(embedding))

输出768，说明本地调用向量模型的输出维度是768。

2.2 向量应用

关于获取向量的应用，比如相似度计算，参考如下链接中的"2.1 sentence-transformers示例"。

https://blog.csdn.net/liliang199/article/details/149773775

reference

开源向量LLM - BGE (BAAI General Embedding)

https://blog.csdn.net/liliang199/article/details/149773775

hf的国内平替hf-mirror

https://blog.csdn.net/liliang199/article/details/149976911