15天学会AI应用开发（十）把文本嵌入模型换成国产模型

前面两篇文章在演示RAG功能时，做向量化的文本嵌入模型都用国外的all-MiniLM-L6-v2，该模型主要适用英文，对于中文总体也能用，但在细节上处理欠佳。本文就来介绍如何使用国产离线的文本嵌入模型替换国外模型，以及如何体现国产模型的比较优势。

一、all-MiniLM-L6-v2的缺点

虽然all-MiniLM-L6-v2的优点很多，比如下列几点：

1、体积极小：几十 MB，随便本地离线下载

2、速度超快：CPU 就能跑，不用显卡

3、通用好用：英文很强，中文也能用（日常 RAG 足够）

4、适配所有向量库：FAISS、Chroma、Milvus 全都兼容

但是all-MiniLM-L6-v2的缺点也很明显，就是它对中文的理解能力一般，有时会出现一些似是而非的错误。

比如之前的文章《15天学会AI应用开发（八）使用向量数据库实现RAG功能》，运行Python测试代码时，如果输入的问题是"RAG是什么"，输出日志结果如下：

markdown 复制代码

=== 本地智能 RAG 系统：问什么答什么 ===

请输入问题（q退出）：RAG是什么

 问题：RAG是什么
 答案：RAG让大模型能引用外部知识，避免胡说八道。
--------------------------------------------------

然而原始的知识库是这样的：

arduino 复制代码

    "什么是AI：人工智能（AI）是一门使机器模拟人类智能的技术。",
    "什么是RAG：RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。",
    "本地RAG消耗Token吗：本地RAG不调用云端API，不消耗Token，完全免费。",
    "FAISS是什么：FAISS是Facebook开源的向量检索库，用于本地高效检索。",
    "RAG的作用：RAG让大模型能引用外部知识，避免胡说八道。"

可见问题"RAG是什么"的正确答案是第二条知识"RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。"，但all-MiniLM-L6-v2返回的答案却是最后一条知识"RAG让大模型能引用外部知识，避免胡说八道。"，说明all-MiniLM-L6-v2对中文的支持不够精准。

对于专业中文的RAG来说，更好的办法是换成国产的文本嵌入模型，比如BGE-small、BGE-base、Qwen-Embedding等等。

二、下载中文嵌入模型BGE-small

BGE-small的模型页面为 modelscope.cn/models/BAAI... ，模型文件大小为192.25MB。

在下载离线大模型前，要先在命令行执行下面的pip安装命令：

复制代码

pip install modelscope

接着命令行通过cd命令进入Python工程的所在目录，再执行下面的模型下载命令：

css 复制代码

modelscope download --model BAAI/bge-small-zh-v1.5 --local_dir bge-small-zh-v1.5

上面下载命令的"--model"参数表示离线大模型为"BAAI/bge-small-zh-v1.5"，而"--local_dir"参数表示离线大模型的本地保存目录。

下载完毕，即可在Python工程的目录下方找到bge-small-zh-v1.5文件夹，里面保存的便是BGE-small的具体模型文件。

三、结合BGE-small与FAISS实现RAG

接下来演示如何使用BGE-small与FAISS实现RAG检索功能。在编写Python代码前，要先在命令行执行下面的pip安装命令：

复制代码

pip install faiss-cpu sentence-transformers

然后编写下面的Python检索测试代码，与之前教程的代码相比，仅仅把all-MiniLM-L6-v2改成了bge-small-zh-v1.5：

python 复制代码

from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

# ===================== 你的知识库（完全不变） =====================
knowledge = [
    "什么是AI：人工智能（AI）是一门使机器模拟人类智能的技术。",
    "什么是RAG：RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。",
    "本地RAG消耗Token吗：本地RAG不调用云端API，不消耗Token，完全免费。",
    "FAISS是什么：FAISS是Facebook开源的向量检索库，用于本地高效检索。",
    "RAG的作用：RAG让大模型能引用外部知识，避免胡说八道。"
]

# ===================== 加载你本地已有的模型（不变） =====================
embed_model = SentenceTransformer("./bge-small-zh-v1.5", device="cpu")

# 生成向量（把知识库向量化）
vectors = embed_model.encode(knowledge)

# 构建 FAISS 索引
index = faiss.IndexFlatL2(vectors.shape[1])
index.add(np.array(vectors).astype("float32"))

# ===================== RAG 检索（逻辑不变） =====================
def rag(question):
    print("\n 问题：" + question)
    # 把问题向量化
    q_vec = embed_model.encode([question])
    # 从 FAISS 检索对应的知识
    D, I = index.search(np.array(q_vec).astype("float32"), 1)
    best = knowledge[I[0][0]]
    answer = best.split("：")[-1]
    print(" 答案：" + answer)
    print("-" * 50)

# ===================== 运行 =====================
if __name__ == "__main__":
    print("=== 本地智能 RAG 系统：问什么答什么 ===")
    while True:
        q = input("\n请输入问题（q退出）：")
        if q.lower() == "q":
            break
        rag(q)

运行上面的Python代码，根据提示先输入问题"RAG是什么？"，再输入问题"RAG有哪些作用？"，输出日志结果如下：

markdown 复制代码

=== 本地智能 RAG 系统：问什么答什么 ===

请输入问题（q退出）：RAG是什么？

 问题：RAG是什么？
 答案：RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。
--------------------------------------------------

请输入问题（q退出）：RAG有哪些作用？

 问题：RAG有哪些作用？
 答案：RAG让大模型能引用外部知识，避免胡说八道。
--------------------------------------------------

可见在回答问题"RAG是什么？"的时候，BGE-small正确返回了第二条知识"RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。"。

在回答问题"RAG有哪些作用？"的时候，BGE-small也正确返回了最后一条知识"RAG让大模型能引用外部知识，避免胡说八道。"

由此说明，中文嵌入模型确实比国外的all-MiniLM-L6-v2拥有更准确的中文检索结果。

本系列的AI应用开发文章目录为《15天学会AI应用开发全目录（零基础小白，零Token消耗）》。