大模型RAG(二)向量化(embedding)

语义向量模型是什么?

语义向量模型(Embedding Model)被广泛应用于搜索、推荐、数据挖掘等重要领域,将自然形式的数据样本(如语言、代码、图片、音视频)转化为向量(即连续的数字序列),并用向量间的"距离"衡量数据样本之间的"相关性" 。

常见的Embedding模型

  1. BCEmbedding
    BCEmbedding (Bilingual and Crosslingual Embedding for RAG) 是由网易有道开发的双语和跨语种语义表征算法模型库,其中包含EmbeddingModel和RerankerModel两类基础模型。
  2. BGEEmbedding
    BGEEmbedding是一个通用向量模型由智源研究院开发,基于retroma 对模型进行预训练,再用对比学习在大规模成对数据上训练模型。
  3. M3E
    M3E(Moka Massive Mixed Embedding)使用场景主要是中文,少量英文的情况,建议使用 m3e 系列的模型。
  4. 针对场景微调embedding模型
    在外挂知识库的过程中,embedding模型的召回效果直接影响到大模型的回答效果,因此,在许多场景下,我们都需要微调embedding模型来提高我们的召回效果。

如何选取合适的Embedding模型

创建一个小型的内存向量数据库DocArrayInMemorySearch并在其中插入一些文本,这些文本包括:中文句子,英文句子,数字符号等,这里我们为了在后面检验大模型给出的答案是否是由于"幻觉"而产生的。所以会往向量数据库中插入一些违背常识的文本。

python 复制代码
from langchain.embeddings import HuggingFaceBgeEmbeddings
 
bge_embeddings = HuggingFaceBgeEmbeddings(model_name="BAAI/bge-large-zh-v1.5")

vectordb = DocArrayInMemorySearch.from_texts(
    ["青蛙是食草动物",
     "人是由恐龙进化而来的。",
     "熊猫喜欢吃天鹅肉。",
     "1+1=5",
     "2+2=8",
     "3+3=9",
    "Gemini Pro is a Large Language Model was made by GoogleDeepMind",
     "A Language model is trained by predicting the next token"
    ],
    embedding=bge_embeddings 
)
 
# #创建检索器
bge_retriever = vectordb.as_retriever(search_kwargs={"k": 1})

这里我们创建了一个内存向量数据库vectordb,并在里面创建了3句中文,3句数字符号,2句英文的文本。然后我们又创建了一个检索器bge_retriever,它可以根据问题从向量数据库中检索出与问题最相关的文档,这里我们设置了bge_retriever的参数search_kwargs={"k": 1},这表示beg_retriever每次只检索1条最相关的文档给用户。

实验过程中不断更换embedding模型,对比不同模型的检索效果,选取最合适的模型。

相关推荐
埃菲尔铁塔_CV算法25 分钟前
人工智能图像算法:开启视觉新时代的钥匙
人工智能·算法
EasyCVR26 分钟前
EHOME视频平台EasyCVR视频融合平台使用OBS进行RTMP推流,WebRTC播放出现抖动、卡顿如何解决?
人工智能·算法·ffmpeg·音视频·webrtc·监控视频接入
打羽毛球吗️32 分钟前
机器学习中的两种主要思路:数据驱动与模型驱动
人工智能·机器学习
光芒再现dev35 分钟前
已解决,部署GPTSoVITS报错‘AsyncRequest‘ object has no attribute ‘_json_response_data‘
运维·python·gpt·语言模型·自然语言处理
好喜欢吃红柚子1 小时前
万字长文解读空间、通道注意力机制机制和超详细代码逐行分析(SE,CBAM,SGE,CA,ECA,TA)
人工智能·pytorch·python·计算机视觉·cnn
小馒头学python1 小时前
机器学习是什么?AIGC又是什么?机器学习与AIGC未来科技的双引擎
人工智能·python·机器学习
神奇夜光杯1 小时前
Python酷库之旅-第三方库Pandas(202)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
正义的彬彬侠1 小时前
《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析
人工智能·决策树·机器学习·集成学习·boosting·xgboost
Debroon1 小时前
RuleAlign 规则对齐框架:将医生的诊断规则形式化并注入模型,无需额外人工标注的自动对齐方法
人工智能
羊小猪~~1 小时前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习