集齐RAG三要素,SiliconCloud上线Reranker、Embedding模型BCE与BGE

(由SiliconCloud平台模型Flux.1生成)

为了方便开发者使用检索模型构建RAG(Retrieval Augmented Generation,检索增强生成),今天,SIliconCloud正式上线由网易有道开源的Embedding模型bce-embedding-base_v1和Reanker模型bce-reranker-base_v1,以及由智源研究院开源的Embedding模型bge-m3,与Reranker模型BAAI/bge-reranker-v2-m3。

此前,SIliconCloud还上线了智源研究院的两款Embedding模型BAAI/bge-large-zh-v1.5、BAAI/bge-large-en-v1.5。

目前,上述所有Embedding与Reranker模型可免费使用

Embedding API文档:

docs.siliconflow.cn/reference/c...

Reranker API文档:

docs.siliconflow.cn/reference/c...

与微调相比,RAG能够实现即时的知识更新而无需重新训练模型,且很大程度上缓解大模型的"幻觉"问题,这使得它成为当前最火热的大模型应用构建方案,包括AI搜索引擎、LLM问答服务,以及使用私有数据的智能对话应用。

要想构建一个基础性的检索增强生成(RAG)系统,背后的Embedding、Reranker、LLM模型是其关键组件,它们共同作用以此提高生成结果的质量和相关性。

其中,LLM提供了强大的语言生成能力,Embedding提供了高效的检索和语义理解,而Reranker模型则优化了检索结果的排序,提高了生成结果的相关性和多样性。目前,SiliconCloud为开发者构建RAG集齐了三大类型模型。

BCE与BGE模型评测表现及亮点

网易有道开源的BCEmbedding(Bilingual and Crosslingual Embedding,双语和跨语言嵌入)模型包括bce-embedding-base_v1和bce-reranker-base_v1,给RAG社区提供了一套强有力的检索基础算法模型。bce-embedding-base_v1和bce-reranker-base_v1组合的二阶段检索器可以实现一个模型覆盖中英双语、跨语种场景,一个模型可以覆盖众多RAG常见的落地应用场景,并具备优异的性能。

以下是多领域、双语和跨语种RAG评测结果,bce-embedding-base_v1和bce-reranker-base_v1的组合可以实现最好的检索效果(93.46/77.02),比其他开源闭源最好组合(bge-m3-large+bge-reranker-large, 89.94/70.17),hit rate提升3.53%,mrr提升6.85%。

智源研究院开源的Embedding模型bge-m3一站式支持多语言、长文本和多种检索方式。bge-m3集多语言(Multi-Linguality)、多粒度(Multi-Granularity)、多功能(Multi-Functionality)三大技术特征于一体,极大提升了语义向量模型在现实世界的可用性。

具体而言,bge-m3支持超过100种语言,具备领先的多语言、跨语言检索能力,全面且高质量地支撑"句子"、"段落"、"篇章"、"文档"等不同粒度的输入文本,最大输入长度为8192,并且一站式集成了稠密检索、稀疏检索、多向量检索三种检索功能,在多个评测基准中达到最优水平。

下图是此前bge-m3与mE5(Best Baseline)以及OpenAI发布的向量模型API的评测对比。整体来看,采用三种方式联合检索的BGE-M3(ALL)在三项评测中全面领先,而BGE-M3(Dense)稠密检索在多语言、跨语言检索中具有明显优势。

三个公开数据集上评测:多语言(Miracl)、跨语言(MKQA)、长文档搜索(NarrativeQA)(OpenAI-emb-3评测结果来自其官方博客,其余为智源团队自测)

Reranker模型BAAI/bge-reranker-v2-m3是智源研究院推出的检索排序模型,基于性能出色、参数量更小的bge-m3-0.5B(速度更快)。它支持更多语言,更长文本长度,并在英文检索基准MTEB、中文检索基准C-MTEB、多语言检索基准MIRACL、LLaMA-Index Evaluation等主流基准上取得了state-of-the-art的结果;借助分层自蒸馏策略进一步优化推理效率,适度的开销即可换取显著的性能收益;bge-v1.5、bge-M3以融入visual token的方式进一步新增"文本+图片"混合检索能力,同时保持优异的文本检索性能。

在Llama Index所提供的RAG评测基准中,他们使用bge reranker v2及多种baseline reranker对不同的embedding模型(bge v1.5 large, bge-m3, openai-te3, mxbai-embedding)的召回结果进行重排。如下表所示,bge reranker v2可以大幅提升各个embedding model在RAG场景下的精度。同时,bge reranker v2搭配bge-m3可以获得最佳的端到端检索质量。

**Token工厂SiliconCloud------**Llama-3.1(8B)、Qwen2(7B)等免费用

除了上述四个检索模型,SiliconCloud已上架包括SenseVoice-SmallLlama-3.1FLUX.1BAAI/bge-largeDeepSeek-V2-ChatDeepSeek-Coder-V2SD3 MediumQwen2GLM-4-9B-Chat、InstantID在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型。

其中,Llama-3.1(8B)、GLM4(9B)等多个大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现"Token 自由"。

作为集合顶尖大模型的一站式云服务平台,SiliconCloud为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。

SiliconCloud支持用户自由切换符合不同应用场景的模型,同时提供开箱即用的大模型推理加速服务,为生成式AI应用带来更高效的用户体验。

SiliconCloud,让超级产品开发者实现"Token自由"

**

邀请新用户体验SiliconCloud,狂送2000万Token/人

邀请越多,Token奖励越多:

siliconflow.cn/zh-cn/siliconcloud

(加入用户交流群请后台私信)**

相关推荐
小白狮ww10 分钟前
RStudio 教程:以抑郁量表测评数据分析为例
人工智能·算法·机器学习
沧海一粟青草喂马30 分钟前
抖音批量上传视频怎么弄?抖音矩阵账号管理的专业指南
大数据·人工智能·矩阵
demaichuandong33 分钟前
详细讲解锥齿轮丝杆升降机的加工制造工艺
人工智能·自动化·制造
理智的煎蛋1 小时前
CentOS/Ubuntu安装显卡驱动与GPU压力测试
大数据·人工智能·ubuntu·centos·gpu算力
知来者逆1 小时前
视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南
人工智能·语言模型·自然语言处理·音视频·视觉语言模型·qwen 2.5 vl
IT_陈寒1 小时前
Java性能优化:10个让你的Spring Boot应用提速300%的隐藏技巧
前端·人工智能·后端
Android出海1 小时前
Android 15重磅升级:16KB内存页机制详解与适配指南
android·人工智能·新媒体运营·产品运营·内容运营
cyyt1 小时前
深度学习周报(9.1~9.7)
人工智能·深度学习
聚客AI1 小时前
🌸万字解析:大规模语言模型(LLM)推理中的Prefill与Decode分离方案
人工智能·llm·掘金·日新计划
max5006001 小时前
图像处理:实现多图点重叠效果
开发语言·图像处理·人工智能·python·深度学习·音视频