Spring AI Retrieval Augmented Generation (RAG)

检索增强生成

检索增强生成(RAG)是一种有助于克服大语言模型在处理长文本、事实准确性和上下文感知方面局限性的技术。

Spring AI通过提供模块化架构来支持RAG,您可以使用该架构构建自定义的RAG流程,或使用Advisor API开箱即用的RAG流程。

在概念部分了解更多关于检索增强生成的信息。

Advisor

Spring AI使用Advisor API为常见的RAG流程提供开箱即用的支持。

要使用QuestionAnswerAdvisor或VectorStoreChatMemoryAdvisor,您需要在项目中添加spring-ai-vector-store-advisor依赖:

xml 复制代码
<dependency>
   <groupId>org.springframework.ai</groupId>
   <artifactId>spring-ai-vector-store-advisor</artifactId>
</dependency>

QuestionAnswerAdvisor

向量数据库存储了AI模型不知道的数据。当用户问题被发送到AI模型时,QuestionAnswerAdvisor会查询向量数据库,获取与用户问题相关的文档。

向量数据库的响应会被追加到用户文本中,为AI模型生成响应提供上下文。

假设您已经将数据加载到VectorStore中,您可以通过向ChatClient提供QuestionAnswerAdvisor实例来执行检索增强生成(RAG)。

java 复制代码
ChatResponse response = ChatClient.builder(chatModel)
        .build().prompt()
        .advisors(QuestionAnswerAdvisor.builder(vectorStore).build())
        .user(userText)
        .call()
        .chatResponse();

在此示例中,QuestionAnswerAdvisor将对向量数据库中的所有文档执行相似性搜索。要限制搜索的文档类型,SearchRequest接受一个类似SQL的过滤表达式,该表达式在所有VectorStore中都是可移植的。

这个过滤表达式可以在创建QuestionAnswerAdvisor时配置,因此将始终应用于所有ChatClient请求,或者可以在每个请求的运行时提供。

以下是创建QuestionAnswerAdvisor实例的方法,其中阈值为0.8,返回前6个结果。

java 复制代码
var qaAdvisor = QuestionAnswerAdvisor.builder(vectorStore)
        .searchRequest(SearchRequest.builder().similarityThreshold(0.8d).topK(6).build())
        .build();
动态过滤表达式

使用FILTER_EXPRESSION advisor上下文参数在运行时更新SearchRequest过滤表达式:

java 复制代码
ChatClient chatClient = ChatClient.builder(chatModel)
    .defaultAdvisors(QuestionAnswerAdvisor.builder(vectorStore)
        .searchRequest(SearchRequest.builder().build())
        .build())
    .build();

// 在运行时更新过滤表达式
String content = this.chatClient.prompt()
    .user("Please answer my question XYZ")
    .advisors(a -> a.param(QuestionAnswerAdvisor.FILTER_EXPRESSION, "type == 'Spring'"))
    .call()
    .content();

FILTER_EXPRESSION参数允许您根据提供的表达式动态过滤搜索结果。

自定义模板

QuestionAnswerAdvisor使用默认模板将检索到的文档与用户问题合并。您可以通过.promptTemplate()构建器方法提供自己的PromptTemplate对象来自定义此行为。

此处提供的PromptTemplate自定义了advisor如何将检索到的上下文与用户查询合并。这与在ChatClient本身上配置TemplateRenderer(使用.templateRenderer())不同,后者影响advisor运行之前初始用户/系统提示内容的渲染。有关客户端级模板渲染的更多详细信息,请参阅ChatClient提示模板。

自定义PromptTemplate可以使用任何TemplateRenderer实现(默认情况下,它使用基于StringTemplate引擎的StPromptTemplate)。重要要求是模板必须包含以下两个占位符:

  • 一个query占位符,用于接收用户问题。
  • 一个question_answer_context占位符,用于接收检索到的上下文。
java 复制代码
PromptTemplate customPromptTemplate = PromptTemplate.builder()
    .renderer(StTemplateRenderer.builder().startDelimiterToken('<').endDelimiterToken('>').build())
    .template("""
            <query>

            Context information is below.

			---------------------
			<question_answer_context>
			---------------------

			Given the context information and no prior knowledge, answer the query.

			Follow these rules:

			1. If the answer is not in the context, just say that you don't know.
			2. Avoid statements like "Based on the context..." or "The provided information...".
            """)
    .build();

    String question = "Where does the adventure of Anacletus and Birba take place?";

    QuestionAnswerAdvisor qaAdvisor = QuestionAnswerAdvisor.builder(vectorStore)
        .promptTemplate(customPromptTemplate)
        .build();

    String response = ChatClient.builder(chatModel).build()
        .prompt(question)
        .advisors(qaAdvisor)
        .call()
        .content();

QuestionAnswerAdvisor.Builder.userTextAdvise()方法已被弃用,推荐使用.promptTemplate()进行更灵活的自定义。

RetrievalAugmentationAdvisor

Spring AI包含一个RAG模块库,您可以使用它们构建自己的RAG流程。RetrievalAugmentationAdvisor是一个Advisor,基于模块化架构为最常见的RAG流程提供开箱即用的实现。

要使用RetrievalAugmentationAdvisor,您需要在项目中添加spring-ai-rag依赖:

xml 复制代码
<dependency>
   <groupId>org.springframework.ai</groupId>
   <artifactId>spring-ai-rag</artifactId>
</dependency>
顺序RAG流程
基础RAG
java 复制代码
Advisor retrievalAugmentationAdvisor = RetrievalAugmentationAdvisor.builder()
        .documentRetriever(VectorStoreDocumentRetriever.builder()
                .similarityThreshold(0.50)
                .vectorStore(vectorStore)
                .build())
        .build();

String answer = chatClient.prompt()
        .advisors(retrievalAugmentationAdvisor)
        .user(question)
        .call()
        .content();

默认情况下,RetrievalAugmentationAdvisor不允许检索到的上下文为空。当发生这种情况时,它会指示模型不要回答用户查询。您可以按如下方式允许空上下文。

java 复制代码
Advisor retrievalAugmentationAdvisor = RetrievalAugmentationAdvisor.builder()
        .documentRetriever(VectorStoreDocumentRetriever.builder()
                .similarityThreshold(0.50)
                .vectorStore(vectorStore)
                .build())
        .queryAugmenter(ContextualQueryAugmenter.builder()
                .allowEmptyContext(true)
                .build())
        .build();

String answer = chatClient.prompt()
        .advisors(retrievalAugmentationAdvisor)
        .user(question)
        .call()
        .content();

VectorStoreDocumentRetriever接受一个FilterExpression,用于根据元数据过滤搜索结果。您可以在实例化VectorStoreDocumentRetriever时提供一个,或在每个请求的运行时使用FILTER_EXPRESSION advisor上下文参数提供。

java 复制代码
Advisor retrievalAugmentationAdvisor = RetrievalAugmentationAdvisor.builder()
        .documentRetriever(VectorStoreDocumentRetriever.builder()
                .similarityThreshold(0.50)
                .vectorStore(vectorStore)
                .build())
        .build();

String answer = chatClient.prompt()
        .advisors(retrievalAugmentationAdvisor)
        .advisors(a -> a.param(VectorStoreDocumentRetriever.FILTER_EXPRESSION, "type == 'Spring'"))
        .user(question)
        .call()
        .content();

请参阅VectorStoreDocumentRetriever了解更多信息。

高级RAG
java 复制代码
Advisor retrievalAugmentationAdvisor = RetrievalAugmentationAdvisor.builder()
        .queryTransformers(RewriteQueryTransformer.builder()
                .chatClientBuilder(chatClientBuilder.build().mutate())
                .build())
        .documentRetriever(VectorStoreDocumentRetriever.builder()
                .similarityThreshold(0.50)
                .vectorStore(vectorStore)
                .build())
        .build();

String answer = chatClient.prompt()
        .advisors(retrievalAugmentationAdvisor)
        .user(question)
        .call()
        .content();

您还可以使用DocumentPostProcessor API在将检索到的文档传递给模型之前对其进行后处理。例如,您可以使用此类接口根据文档与查询的相关性进行重新排序,删除不相关或冗余的文档,或压缩每个文档的内容以减少噪声和冗余。

模块

Spring AI实现了模块化RAG架构,其灵感来自论文《模块化RAG:将RAG系统转变为类似乐高的可重构框架》中详述的模块化概念。

检索前

检索前模块负责处理用户查询,以获得最佳的检索结果。

查询转换

用于转换输入查询的组件,使其更有效地用于检索任务,解决查询格式不佳、术语模糊、词汇复杂或不支持的语言等挑战。

使用QueryTransformer时,建议将ChatClient.Builder配置为较低的温度(例如0.0),以确保更确定性和准确的结果,提高检索质量。大多数聊天模型的默认温度通常对于最佳的查询转换来说过高,导致检索效果降低。

CompressionQueryTransformer

CompressionQueryTransformer使用大语言模型将对话历史和后续查询压缩成一个独立查询,该查询捕捉对话的要点。

当对话历史较长且后续查询与对话上下文相关时,此转换器非常有用。

java 复制代码
Query query = Query.builder()
        .text("And what is its second largest city?")
        .history(new UserMessage("What is the capital of Denmark?"),
                new AssistantMessage("Copenhagen is the capital of Denmark."))
        .build();

QueryTransformer queryTransformer = CompressionQueryTransformer.builder()
        .chatClientBuilder(chatClientBuilder)
        .build();

Query transformedQuery = queryTransformer.transform(query);

此组件使用的提示可以通过构建器中的promptTemplate()方法进行自定义。

RewriteQueryTransformer

RewriteQueryTransformer使用大语言模型重写用户查询,以便在查询目标系统(如向量存储或网络搜索引擎)时提供更好的结果。

当用户查询冗长、模糊或包含可能影响搜索结果质量的不相关信息时,此转换器非常有用。

java 复制代码
Query query = new Query("I'm studying machine learning. What is an LLM?");

QueryTransformer queryTransformer = RewriteQueryTransformer.builder()
        .chatClientBuilder(chatClientBuilder)
        .build();

Query transformedQuery = queryTransformer.transform(query);

此组件使用的提示可以通过构建器中的promptTemplate()方法进行自定义。

TranslationQueryTransformer

TranslationQueryTransformer使用大语言模型将查询翻译为目标语言,该语言由用于生成文档嵌入的嵌入模型支持。如果查询已经是目标语言,则保持不变。如果查询的语言未知,也保持不变。

当嵌入模型在特定语言上训练而用户查询使用不同语言时,此转换器非常有用。

java 复制代码
Query query = new Query("Hvad er Danmarks hovedstad?");

QueryTransformer queryTransformer = TranslationQueryTransformer.builder()
        .chatClientBuilder(chatClientBuilder)
        .targetLanguage("english")
        .build();

Query transformedQuery = queryTransformer.transform(query);

此组件使用的提示可以通过构建器中的promptTemplate()方法进行自定义。

查询扩展

用于将输入查询扩展为查询列表的组件,通过提供替代查询表述或通过将复杂问题分解为更简单的子查询来解决查询格式不佳等挑战。

MultiQueryExpander

MultiQueryExpander使用大语言模型将查询扩展为多个语义多样的变体,以捕获不同的视角,有助于检索额外的上下文信息并增加找到相关结果的机会。

java 复制代码
MultiQueryExpander queryExpander = MultiQueryExpander.builder()
    .chatClientBuilder(chatClientBuilder)
    .numberOfQueries(3)
    .build();
List<Query> queries = queryExpander.expand(new Query("How to run a Spring Boot app?"));

默认情况下,MultiQueryExpander在扩展查询列表中包含原始查询。您可以通过构建器中的includeOriginal方法禁用此行为。

java 复制代码
MultiQueryExpander queryExpander = MultiQueryExpander.builder()
    .chatClientBuilder(chatClientBuilder)
    .includeOriginal(false)
    .build();

此组件使用的提示可以通过构建器中的promptTemplate()方法进行自定义。

检索

检索模块负责查询数据系统(如向量存储)并检索最相关的文档。

文档搜索

负责从底层数据源(如搜索引擎、向量存储、数据库或知识图谱)检索文档的组件。

VectorStoreDocumentRetriever

VectorStoreDocumentRetriever从向量存储中检索与输入查询语义相似的文档。它支持基于元数据的过滤、相似性阈值和top-k结果。

java 复制代码
DocumentRetriever retriever = VectorStoreDocumentRetriever.builder()
    .vectorStore(vectorStore)
    .similarityThreshold(0.73)
    .topK(5)
    .filterExpression(new FilterExpressionBuilder()
        .eq("genre", "fairytale")
        .build())
    .build();
List<Document> documents = retriever.retrieve(new Query("What is the main character of the story?"));

过滤表达式可以是静态的或动态的。对于动态过滤表达式,您可以传入一个Supplier。

java 复制代码
DocumentRetriever retriever = VectorStoreDocumentRetriever.builder()
    .vectorStore(vectorStore)
    .filterExpression(() -> new FilterExpressionBuilder()
        .eq("tenant", TenantContextHolder.getTenantIdentifier())
        .build())
    .build();
List<Document> documents = retriever.retrieve(new Query("What are the KPIs for the next semester?"));

您还可以通过Query API提供请求特定的过滤表达式,使用FILTER_EXPRESSION参数。如果同时提供了请求特定和检索器特定的过滤表达式,则请求特定的过滤表达式优先。

java 复制代码
Query query = Query.builder()
    .text("Who is Anacletus?")
    .context(Map.of(VectorStoreDocumentRetriever.FILTER_EXPRESSION, "location == 'Whispering Woods'"))
    .build();
List<Document> retrievedDocuments = documentRetriever.retrieve(query);
文档连接

用于将基于多个查询和从多个数据源检索到的文档组合成单个文档集合的组件。在连接过程中,它还可以处理重复文档和互惠排名策略。

ConcatenationDocumentJoiner

ConcatenationDocumentJoiner通过将基于多个查询和从多个数据源检索到的文档连接成单个集合来组合它们。在重复文档的情况下,保留第一次出现的文档。每个文档的分数保持不变。

java 复制代码
Map<Query, List<List<Document>>> documentsForQuery = ...
DocumentJoiner documentJoiner = new ConcatenationDocumentJoiner();
List<Document> documents = documentJoiner.join(documentsForQuery);

检索后

检索后模块负责处理检索到的文档,以获得最佳的生成结果。

文档后处理

用于根据查询后处理检索到的文档的组件,解决诸如中间丢失、模型的上下文长度限制以及减少检索信息中的噪声和冗余等挑战。

例如,它可以根据文档与查询的相关性对文档进行排名,删除不相关或冗余的文档,或压缩每个文档的内容以减少噪声和冗余。

生成

生成模块负责根据用户查询和检索到的文档生成最终响应。

查询增强

用于使用额外数据增强输入查询的组件,有助于为大语言模型提供回答用户查询所需的上下文。

ContextualQueryAugmenter

ContextualQueryAugmenter使用所提供的文档内容中的上下文数据来增强用户查询。

java 复制代码
QueryAugmenter queryAugmenter = ContextualQueryAugmenter.builder().build();

默认情况下,ContextualQueryAugmenter不允许检索到的上下文为空。当发生这种情况时,它会指示模型不要回答用户查询。

您可以启用allowEmptyContext选项,允许模型即使在检索到的上下文为空时也能生成响应。

java 复制代码
QueryAugmenter queryAugmenter = ContextualQueryAugmenter.builder()
        .allowEmptyContext(true)
        .build();

此组件使用的提示可以通过构建器中的promptTemplate()和emptyContextPromptTemplate()方法进行自定义。