FastGPT 源码:混合检索调用链路

文章目录

    • [FastGPT 源码:混合检索调用链路](#FastGPT 源码:混合检索调用链路)
      • [1. 入口函数](#1. 入口函数)
      • [2. 核心搜索函数](#2. 核心搜索函数)
      • [3. RRF合并函数](#3. RRF合并函数)
      • [4. Rerank重排序函数](#4. Rerank重排序函数)
      • [5. 完整流程](#5. 完整流程)

FastGPT 源码:混合检索调用链路

主要调用链路如下:

1. 入口函数

dispatchDatasetSearch(packages/service/core/workflow/dispatch/dataset/search.ts):

typescript 复制代码
export async function dispatchDatasetSearch(props: DatasetSearchProps) {
  // 1. 获取参数
  const {
    teamId,
    histories,
    module,
    params: {
      datasets,
      similarity,
      limit,
      usingReRank,
      searchMode,
      userChatInput
    }
  } = props;

  // 2. 问题优化/扩展
  const { concatQueries, rewriteQuery } = await datasetSearchQueryExtension({
    query: userChatInput,
    extensionModel,
    extensionBg,
    histories
  });

  // 3. 调用核心搜索函数
  const { searchRes } = await searchDatasetData({
    teamId,
    reRankQuery: rewriteQuery,
    queries: concatQueries,
    model: vectorModel.model,
    similarity,
    limit,
    datasetIds: datasets.map((item) => item.datasetId),
    searchMode,
    usingReRank
  });
}

2. 核心搜索函数

searchDatasetData(packages/service/core/dataset/search/controller.ts):

typescript 复制代码
export async function searchDatasetData({
  teamId,
  reRankQuery,
  queries,
  model,
  similarity,
  limit,
  searchMode,
  usingReRank,
  datasetIds
}) {
  // 1. 向量检索和全文检索
  const { embeddingRecallResults, fullTextRecallResults } = await multiQueryRecall({
    embeddingLimit,
    fullTextLimit
  });

  // 2. 第一次RRF合并(向量检索和全文检索结果)
  const concatRecallResults = embeddingRecallResults.concat(
    fullTextRecallResults.filter((item) => !set.has(item.id))
  );

  // 3. Rerank二次排序
  const reRankResults = await reRankSearchResult({
    query: reRankQuery,
    data: concatRecallResults 
  });

  // 4. 最终RRF合并(三种结果)
  const rrfConcatResults = datasetSearchResultConcat([
    { k: 60, list: embeddingRecallResults },
    { k: 60, list: fullTextRecallResults },
    { k: 58, list: reRankResults }
  ]);

  // 5. 结果过滤和处理
  const scoreFilter = filterResults(rrfConcatResults);
  return { searchRes: filterResultsByMaxTokens(scoreFilter, maxTokens) };
}

3. RRF合并函数

datasetSearchResultConcat(packages/global/core/dataset/search/utils.ts):

typescript 复制代码
export const datasetSearchResultConcat = (arr: { k: number; list: SearchDataResponseItemType[] }[]) => {
  // 1. 计算每个结果的RRF分数
  arr.forEach((item) => {
    const k = item.k;
    item.list.forEach((data, index) => {
      const rank = index + 1;
      const score = 1 / (k + rank);
      // 合并分数...
    });
  });

  // 2. 根据RRF分数排序
  return results.sort((a, b) => b.rrfScore - a.rrfScore);
}

4. Rerank重排序函数

reRankRecall(packages/service/core/ai/rerank/index.ts):

typescript 复制代码
export function reRankRecall({query, documents}) {
  // 调用重排序模型API
  return POST(model.requestUrl, {
    model: model.model,
    query,
    documents: documents.map((doc) => doc.text)
  }).then(data => {
    // 返回重排序结果和分数
    return data?.results?.map(item => ({
      id: documents[item.index].id,
      score: item.relevance_score
    }));
  });
}

5. 完整流程

  1. dispatchDatasetSearch 作为入口,接收搜索参数
  2. 调用 searchDatasetData 执行核心搜索逻辑
  3. searchDatasetData 中:
    • 先执行向量检索和全文检索
    • 合并这两种检索结果
    • 调用 reRankRecall 进行重排序
    • 最后通过 datasetSearchResultConcat 合并所有结果
  4. 返回最终过滤和处理后的搜索结果

这个调用链路完整实现了:

  • Embedding 和 BM25 检索
  • 结果合并后的 Rerank
  • 最终三路结果的 RRF 合并
相关推荐
选与握16 小时前
深度学习基本知识+tensorflow
人工智能
大千AI助手16 小时前
ROUGE-SU4:文本摘要评估的跳连智慧
人工智能·机器学习·nlp·rouge·文本摘要·大千ai助手·rouge-su4
草莓熊Lotso16 小时前
unordered_map/unordered_set 使用指南:差异、性能与场景选择
java·开发语言·c++·人工智能·经验分享·python·网络协议
stormsha17 小时前
裸眼3D原理浅析AI如何生成平面裸眼3D图像以科幻战士破框而出为例
人工智能·计算机视觉·平面·3d·ai
白茶三许19 小时前
【2025】Flutter 卡片组件封装与分页功能实现:实战指南
flutter·开源·openharmony
春日见20 小时前
丝滑快速拓展随机树 S-RRT(Smoothly RRT)算法核心原理与完整流程
人工智能·算法·机器学习·路径规划算法·s-rrt
陈文锦丫21 小时前
MixFormer: A Mixed CNN–Transformer Backbone
人工智能·cnn·transformer
小毅&Nora1 天前
【人工智能】【AI外呼】系统架构设计与实现详解
人工智能·系统架构·ai外呼
jianqiang.xue1 天前
别把 Scratch 当 “动画玩具”!图形化编程是算法思维的最佳启蒙
人工智能·算法·青少年编程·机器人·少儿编程
Coding茶水间1 天前
基于深度学习的安全帽检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉