集齐RAG三要素，SiliconCloud上线Reranker、Embedding模型BCE与BGE

（由SiliconCloud平台模型Flux.1生成）

为了方便开发者使用检索模型构建RAG（Retrieval Augmented Generation，检索增强生成），今天，SIliconCloud正式上线由网易有道开源的Embedding模型bce-embedding-base_v1和Reanker模型bce-reranker-base_v1，以及由智源研究院开源的Embedding模型bge-m3，与Reranker模型BAAI/bge-reranker-v2-m3。

此前，SIliconCloud还上线了智源研究院的两款Embedding模型BAAI/bge-large-zh-v1.5、BAAI/bge-large-en-v1.5。

目前，上述所有Embedding与Reranker模型可免费使用。

Embedding API文档：

docs.siliconflow.cn/reference/c...

Reranker API文档：

docs.siliconflow.cn/reference/c...

与微调相比，RAG能够实现即时的知识更新而无需重新训练模型，且很大程度上缓解大模型的"幻觉"问题，这使得它成为当前最火热的大模型应用构建方案，包括AI搜索引擎、LLM问答服务，以及使用私有数据的智能对话应用。

要想构建一个基础性的检索增强生成（RAG）系统，背后的Embedding、Reranker、LLM模型是其关键组件，它们共同作用以此提高生成结果的质量和相关性。

其中，LLM提供了强大的语言生成能力，Embedding提供了高效的检索和语义理解，而Reranker模型则优化了检索结果的排序，提高了生成结果的相关性和多样性。目前，SiliconCloud为开发者构建RAG集齐了三大类型模型。

BCE与BGE模型评测表现及亮点

网易有道开源的BCEmbedding（Bilingual and Crosslingual Embedding，双语和跨语言嵌入）模型包括bce-embedding-base_v1和bce-reranker-base_v1，给RAG社区提供了一套强有力的检索基础算法模型。bce-embedding-base_v1和bce-reranker-base_v1组合的二阶段检索器可以实现一个模型覆盖中英双语、跨语种场景，一个模型可以覆盖众多RAG常见的落地应用场景，并具备优异的性能。

以下是多领域、双语和跨语种RAG评测结果，bce-embedding-base_v1和bce-reranker-base_v1的组合可以实现最好的检索效果（93.46/77.02），比其他开源闭源最好组合（bge-m3-large+bge-reranker-large， 89.94/70.17），hit rate提升3.53%，mrr提升6.85%。

智源研究院开源的Embedding模型bge-m3一站式支持多语言、长文本和多种检索方式。bge-m3集多语言（Multi-Linguality）、多粒度（Multi-Granularity）、多功能（Multi-Functionality）三大技术特征于一体，极大提升了语义向量模型在现实世界的可用性。

具体而言，bge-m3支持超过100种语言，具备领先的多语言、跨语言检索能力，全面且高质量地支撑"句子"、"段落"、"篇章"、"文档"等不同粒度的输入文本，最大输入长度为8192，并且一站式集成了稠密检索、稀疏检索、多向量检索三种检索功能，在多个评测基准中达到最优水平。

下图是此前bge-m3与mE5（Best Baseline）以及OpenAI发布的向量模型API的评测对比。整体来看，采用三种方式联合检索的BGE-M3(ALL)在三项评测中全面领先，而BGE-M3(Dense)稠密检索在多语言、跨语言检索中具有明显优势。

三个公开数据集上评测：多语言(Miracl)、跨语言(MKQA)、长文档搜索(NarrativeQA)（OpenAI-emb-3评测结果来自其官方博客，其余为智源团队自测）

Reranker模型BAAI/bge-reranker-v2-m3是智源研究院推出的检索排序模型，基于性能出色、参数量更小的bge-m3-0.5B（速度更快）。它支持更多语言，更长文本长度，并在英文检索基准MTEB、中文检索基准C-MTEB、多语言检索基准MIRACL、LLaMA-Index Evaluation等主流基准上取得了state-of-the-art的结果；借助分层自蒸馏策略进一步优化推理效率，适度的开销即可换取显著的性能收益；bge-v1.5、bge-M3以融入visual token的方式进一步新增"文本+图片"混合检索能力，同时保持优异的文本检索性能。

在Llama Index所提供的RAG评测基准中，他们使用bge reranker v2及多种baseline reranker对不同的embedding模型(bge v1.5 large, bge-m3, openai-te3, mxbai-embedding)的召回结果进行重排。如下表所示，bge reranker v2可以大幅提升各个embedding model在RAG场景下的精度。同时，bge reranker v2搭配bge-m3可以获得最佳的端到端检索质量。

**Token工厂SiliconCloud------**Llama-3.1（8B）、Qwen2（7B）等免费用

除了上述四个检索模型，SiliconCloud已上架包括SenseVoice-Small 、Llama-3.1 、FLUX.1 、BAAI/bge-large 、DeepSeek-V2-Chat 、DeepSeek-Coder-V2 、SD3 Medium 、Qwen2 、GLM-4-9B-Chat、InstantID在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型。

其中，Llama-3.1（8B）、GLM4（9B）等多个大模型API免费使用，让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本，实现"Token 自由"。

作为集合顶尖大模型的一站式云服务平台，SiliconCloud为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。

SiliconCloud支持用户自由切换符合不同应用场景的模型，同时提供开箱即用的大模型推理加速服务，为生成式AI应用带来更高效的用户体验。

SiliconCloud，让超级产品开发者实现"Token自由"

邀请新用户体验SiliconCloud，狂送2000万Token/人

邀请越多，Token奖励越多：

siliconflow.cn/zh-cn/siliconcloud

（加入用户交流群请后台私信）**