大模型RAG(二)向量化(embedding)

语义向量模型是什么?

语义向量模型(Embedding Model)被广泛应用于搜索、推荐、数据挖掘等重要领域,将自然形式的数据样本(如语言、代码、图片、音视频)转化为向量(即连续的数字序列),并用向量间的"距离"衡量数据样本之间的"相关性" 。

常见的Embedding模型

  1. BCEmbedding
    BCEmbedding (Bilingual and Crosslingual Embedding for RAG) 是由网易有道开发的双语和跨语种语义表征算法模型库,其中包含EmbeddingModel和RerankerModel两类基础模型。
  2. BGEEmbedding
    BGEEmbedding是一个通用向量模型由智源研究院开发,基于retroma 对模型进行预训练,再用对比学习在大规模成对数据上训练模型。
  3. M3E
    M3E(Moka Massive Mixed Embedding)使用场景主要是中文,少量英文的情况,建议使用 m3e 系列的模型。
  4. 针对场景微调embedding模型
    在外挂知识库的过程中,embedding模型的召回效果直接影响到大模型的回答效果,因此,在许多场景下,我们都需要微调embedding模型来提高我们的召回效果。

如何选取合适的Embedding模型

创建一个小型的内存向量数据库DocArrayInMemorySearch并在其中插入一些文本,这些文本包括:中文句子,英文句子,数字符号等,这里我们为了在后面检验大模型给出的答案是否是由于"幻觉"而产生的。所以会往向量数据库中插入一些违背常识的文本。

python 复制代码
from langchain.embeddings import HuggingFaceBgeEmbeddings
 
bge_embeddings = HuggingFaceBgeEmbeddings(model_name="BAAI/bge-large-zh-v1.5")

vectordb = DocArrayInMemorySearch.from_texts(
    ["青蛙是食草动物",
     "人是由恐龙进化而来的。",
     "熊猫喜欢吃天鹅肉。",
     "1+1=5",
     "2+2=8",
     "3+3=9",
    "Gemini Pro is a Large Language Model was made by GoogleDeepMind",
     "A Language model is trained by predicting the next token"
    ],
    embedding=bge_embeddings 
)
 
# #创建检索器
bge_retriever = vectordb.as_retriever(search_kwargs={"k": 1})

这里我们创建了一个内存向量数据库vectordb,并在里面创建了3句中文,3句数字符号,2句英文的文本。然后我们又创建了一个检索器bge_retriever,它可以根据问题从向量数据库中检索出与问题最相关的文档,这里我们设置了bge_retriever的参数search_kwargs={"k": 1},这表示beg_retriever每次只检索1条最相关的文档给用户。

实验过程中不断更换embedding模型,对比不同模型的检索效果,选取最合适的模型。

相关推荐
吴佳浩6 小时前
Python入门指南(七) - YOLO检测API进阶实战
人工智能·后端·python
tap.AI6 小时前
RAG系列(二)数据准备与向量索引
开发语言·人工智能
老蒋新思维7 小时前
知识IP的长期主义:当AI成为跨越增长曲线的“第二曲线引擎”|创客匠人
大数据·人工智能·tcp/ip·机器学习·创始人ip·创客匠人·知识变现
货拉拉技术7 小时前
出海技术挑战——Lalamove智能告警降噪
人工智能·后端·监控
wei20237 小时前
汽车智能体Agent:国务院“人工智能+”行动意见 对汽车智能体领域 革命性重塑
人工智能·汽车·agent·智能体
LinkTime_Cloud7 小时前
快手遭遇T0级“黑色闪电”:一场教科书式的“协同打击”,披上了AI“智能外衣”的攻击
人工智能
PPIO派欧云7 小时前
PPIO上线MiniMax-M2.1:聚焦多语言编程与真实世界复杂任务
人工智能
隔壁阿布都7 小时前
使用LangChain4j +Springboot 实现大模型与向量化数据库协同回答
人工智能·spring boot·后端
Coding茶水间8 小时前
基于深度学习的水面垃圾检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
乐迪信息8 小时前
乐迪信息:煤矿皮带区域安全管控:人员违规闯入智能识别
大数据·运维·人工智能·物联网·安全