FastGPT 源码:RRF、Rerank 相关代码

文章目录

    • [FastGPT 源码:RRF、Rerank 相关代码](#FastGPT 源码:RRF、Rerank 相关代码)
      • [1. RRF (Reciprocal Rank Fusion) 合并实现](#1. RRF (Reciprocal Rank Fusion) 合并实现)
      • [2. Rerank 二次排序实现](#2. Rerank 二次排序实现)
      • [3. 重排序的主要特点](#3. 重排序的主要特点)
      • [4. 整个搜索流程](#4. 整个搜索流程)
      • [5. 这种方式的优势](#5. 这种方式的优势)

FastGPT 源码:RRF、Rerank 相关代码

下边介绍 RRF 合并和 Rerank 二次排序的相关实现:

1. RRF (Reciprocal Rank Fusion) 合并实现

主要在 datasetSearchResultConcat 函数中实现(packages/global/core/dataset/search/utils.ts):

typescript 复制代码
// RRF公式实现
const score = 1 / (k + rank);  // k是一个常数(60),rank是搜索结果的排名

// 合并多个渠道的搜索结果
arr.forEach((item) => {
  const k = item.k;
  item.list.forEach((data, index) => {
    const rank = index + 1;
    const score = 1 / (k + rank);
    
    // 如果已存在相同ID的结果,合并score
    if (record) {
      map.set(data.id, {
        ...record,
        score: concatScore,
        rrfScore: record.rrfScore + score
      });
    } else {
      map.set(data.id, {
        ...data,
        rrfScore: score
      });
    }
  });
});

RRF 合并主要用在以下场景:

  • 合并向量检索和全文检索的结果
  • 合并多个查询的搜索结果
  • 合并重排序后的结果

2. Rerank 二次排序实现

重排序功能在 reRankRecall 函数中实现(packages/service/core/ai/rerank/index.ts):

typescript 复制代码
export function reRankRecall({
  query,
  documents
}: {
  query: string;
  documents: { id: string; text: string }[];
}) {
  // 调用重排序模型API
  return POST<PostReRankResponse>(
    model.requestUrl,
    {
      model: model.model,
      query,
      documents: documents.map((doc) => doc.text)
    }
  ).then((data) => {
    // 返回重排序后的结果和相关性分数
    return data?.results?.map((item) => ({
      id: documents[item.index].id,
      score: item.relevance_score  // 0-1之间的相关性分数
    }));
  });
}

3. 重排序的主要特点

  • 使用专门的重排序模型对搜索结果进行二次评分
  • 得到 0-1 之间的相关性分数,比向量相似度更精确
  • 可以根据重排分数进行过滤,提高精度
  • 重排结果会与其他搜索结果一起通过 RRF 合并

4. 整个搜索流程

  1. 同时进行向量检索和全文检索
  2. 对检索结果进行重排序评分
  3. 使用 RRF 合并三种结果(向量检索、全文检索、重排序)
  4. 根据相关度分数进行过滤
  5. 返回最终结果

5. 这种方式的优势

  • 综合多种检索方式的优势
  • 通过重排序提高精度
  • 使用 RRF 合理合并多个渠道的结果
相关推荐
GitCode官方5 小时前
智谱 GLM-5.1 正式开源并上线 AtomGit AI!
人工智能·开源
REDcker5 小时前
Jenkins 开源 CI/CD 平台概览与版本演进
ci/cd·开源·jenkins
世人万千丶6 小时前
Flutter 框架跨平台鸿蒙开发 - 宠物语言翻译器应用
学习·flutter·华为·开源·harmonyos·鸿蒙
OctShop大型商城源码6 小时前
连锁商城开源_OctShop大型商城系统_零售业数字化转型新引擎
开源·商城源码·连锁商城系统·大型多用户商城系统
Are_You_Okkk_6 小时前
AI原生与外挂的区别:开源知识库的优势及优化方向
大数据·人工智能·开源
提子拌饭1336 小时前
番茄时间管理:鸿蒙Flutter 实现的高效时间管理工具
android·flutter·华为·架构·开源·harmonyos·鸿蒙
提子拌饭1337 小时前
星芒便签:鸿蒙Flutter框架 实现的美观便签应用
flutter·华为·架构·开源·harmonyos·鸿蒙
@不误正业7 小时前
第04章-开源鸿蒙的架构概览
架构·开源·harmonyos
独特的螺狮粉7 小时前
开源鸿蒙跨平台Flutter开发:近视防控数字疗法:基于 Flutter 的眼动物理追踪与睫状肌动力学舒缓测绘架构
flutter·华为·架构·开源·harmonyos·鸿蒙
世人万千丶7 小时前
Flutter 框架跨平台鸿蒙开发 - 家庭健康档案云应用
学习·flutter·华为·开源·harmonyos·鸿蒙