Spring AI RAG生产方案：Java对接Gemma 4构建企业知识库

文章目录

- 前言
- [一、为什么选Gemma 4？因为它真的"小而猛"](#一、为什么选Gemma 4？因为它真的"小而猛")
- [二、Spring AI：让Java程序员告别"Python envy"](#二、Spring AI：让Java程序员告别"Python envy")
- 三、架构设计：知识库的"三段式套路"
- 四、实战代码：30分钟搭建本地知识库
- 五、生产环境的"避坑指南"
- - [1. 分块策略别偷懒](#1. 分块策略别偷懒)
  - [2. 混合检索（Hybrid Search）](#2. 混合检索（Hybrid Search）)
  - [3. 模型选择的艺术](#3. 模型选择的艺术)
  - [4. 监控与Fallback](#4. 监控与Fallback)
- [六、总结：Java AI的黄金时代真的来了](#六、总结：Java AI的黄金时代真的来了)

无意间发现了一个巨牛巨牛巨牛的人工智能教程，非常通俗易懂，对AI感兴趣的朋友强烈推荐去看看，传送门https://blog.csdn.net/HHX_01

前言

面试官：说说你做过最牛的AI项目？

你：我们用Python调了OpenAI的API...

面试官：出去右拐，不送。

你：等等！我还用Java接入了谷歌最新开源的Gemma 4，本地部署企业知识库，数据不出内网，支持256K长文档理解！

面试官：请坐，谈谈细节。

兄弟们，2026年最炸裂的开源大模型是什么？不是Llama 4，也不是DeepSeek V4，而是Google刚在4月2日深夜扔出来的Gemma 4。这玩意儿有多狠？31B参数的模型在Arena AI排行榜上干到了全球第3，直接把比它大20倍的巨头们按在地上摩擦。

更离谱的是，Google这次直接把裤子脱了------Apache 2.0完全开源，你可以随便商用、随便修改，连attribution都只需要保留个许可证文件。对比某些公司"开源但不让商用"的骚操作，这波人品直接拉满。

今天咱们就聊聊，怎么用Spring AI把这头野兽驯化成企业知识库的看门狗，让你的Java系统也能玩转RAG（检索增强生成）。

一、为什么选Gemma 4？因为它真的"小而猛"

还记得去年咱们被显存支配的恐惧吗？想跑个70B的模型，得去借网贷买A100。Gemma 4这次带来的26B A4B MoE版本，简直是Java程序员的福音------总共26B参数，但每次推理只激活4B，这意味着什么？H100单卡就能跑，消费级显卡也能战！

而且Gemma 4全家桶覆盖全场景：

E2B/E4B：手机都能跑的端侧模型，128K上下文，支持文本+图像+音频+视频
26B A4B：MoE架构，26B总参数/4B激活，256K上下文，适合企业级部署
31B Dense：纯Dense架构，性能怪兽，Arena AI排名第3，力压群雄

最关键的是，Gemma 4原生支持Function Calling和Agentic workflows。说人话就是：这模型不只是聊天，它能调用你的Java方法、查询数据库、甚至帮你订外卖（如果你接了API）。这对于企业知识库来说太重要了------AI不仅要能读文档，还要能查订单状态、调系统接口。

二、Spring AI：让Java程序员告别"Python envy"

以前咱们Java程序员看Pythoner玩LangChain，那叫一个眼红。现在好了，Spring AI在2025年5月正式发布1.0 GA版本，完全生产就绪。它的设计哲学很Spring------约定优于配置，抽象统一接口。

你想从OpenAI切换到本地Gemma 4？改几行配置就行，代码不用动。这就是Spring AI的杀伤力：ChatClient、VectorStore、EmbeddingClient一套抽象打天下。

而且Spring AI对RAG的支持已经相当成熟：

内置Chat Memory（聊天记忆，防止AI金鱼脑）
支持多种Vector Store（PgVector、Redis、Neo4j、Milvus等）
提供Advisor API用于拦截和增强模型交互

三、架构设计：知识库的"三段式套路"

企业级RAG说白了就三步走，跟泡茶的流程差不多：

投茶（文档向量化）

把PDF、Word、Markdown扔给Embedding模型，切成块（chunk），转成向量（embedding），塞进Vector Store。这一步是离线的，可以半夜跑定时任务。
冲泡（相似度检索）

用户提问时，先把问题转成向量，去Vector Store里找最相关的Top K个文档片段。就像你问"公司年假几天"，系统去知识库里找《员工手册》的相关段落。
品茶（增强生成）

把检索到的文档片段塞进Prompt的context里，告诉Gemma 4："根据以下内容回答，不要瞎编"。这样AI就有了"公司专属知识"，不会满嘴跑火车。

四、实战代码：30分钟搭建本地知识库

环境准备

你需要：

Java 21（别用8了，求你了）
Spring Boot 3.4+
Ollama（本地模型托管神器）
Docker（跑PgVector向量库）

安装Ollama，然后拉取Gemma 4

bash 复制代码

ollama pull gemma4:4b  # 先用4B版本试手，26B等你显卡到位再玩

启动PgVector（PostgreSQL的向量扩展）

bash 复制代码

docker run -d --name pgvector -p 5432:5432 -e POSTGRES_PASSWORD=secret pgvector/pgvector:pg16

Maven依赖

org.springframework.ai

spring-ai-b

1.0

pom

复制代码

org.springframework.aispring-ai-ollama-spring-boot-starter

spring-ai-pgvector-store-spring-boot-starter

org.springframework.

spring-ai-tika-document-reader

复制代码

### 配置文件
```yaml
spring:
  ai:
    ollama:
      base-url: http://localhost:11434
      chat:
        model: gemma4:4b  # 对接Gemma 4
        options:
          temperature: 0.3  # 企业知识库要准确，别太贵随机
      embedding:
        model: nomic-embed-text  # 先用这个做小实验，生产建议用Gemma 4的embedding
    vectorstore:
      pgvector:
        index-type: hnsw  # 高效相似度搜索算法
        distance-type: cosine_distance

  datasource:
    url: jdbc:postgresql://localhost:5432/postgres
    username: postgres
    password: secret

核心代码：知识库服务

java 复制代码

@Service
public class KnowledgeBaseService {
    private final ChatClient chatClient;
    private final VectorStore vectorStore;
    private final DocumentReader documentReader;

    public KnowledgeBaseService(ChatClient.Builder chatClientBuilder, 
                                VectorStore vectorStore,
                                TikDocumentReader documentReader) {
        this.chatClient = chatClientBuilder
            .defaultSystem("你是企业智能助手，严格基于提供的上下文回答。如果上下文不包含答案，回复'根据现有资料无法回答'。")
            .build();
        this.vectorStore = vectorStore;
        this.documentReader = documentReader;
    }

    /**
     * 文档入库（RAG的"投茶"阶段）
     */
    @Transactional
    public void ingestDocument(Resource fileResource) {
        // 1. 读取文档，Tika自动识别PDF/Word/Excel
        documents = documentReader.read(fileResource);
        
        // 2. 智能分块，别傻乎乎固定长度切
        TokenTextSplitter splitter = new TokenTextSplitter(
            500,   // 每块500 tokens
            100,   // 重叠100 tokens，防止断章取义
            50,    // 最小块大小
            2000,  // 最大块大小上限
            true   // 保留格式
        );
        chunks = splitter.split(documents);
        
        // 3. 添加元数据，方便后续过滤
        chunks.forEach(chunk -> {
            chunk.getMetadata().put("source", fileResource.getFilename());
            chunk.getMetadata().put("uploadTime", LocalDateTime.now().toString());
            chunk.getMetadata().put("type", "internal_doc");
        });
        
        // 4. 批量写入向量库，Spring AI自动做embedding
        vectorStore.write(chunks);
    }

    /**
     * 问答接口（RAG的"冲泡+品茶"阶段）
     */
    public String ask(String question) {
        // 1. 检索相关文档，要求相似度分数>0.7，防止召回垃圾信息
        SearchRequest searchRequest = SearchRequest.builder()
            .query(question)
            .topK(5)  // 召回Top 5
            .similarityThreshold(0.7)
            .filterExpression("type == 'internal_doc'")  // 只查内部文档
            .build relevantDocs = vectorStore.similaritySearch(searchRequest);
        
        // 2. 拼上下文，注意token长度控制
        String context = relevantDocs.stream()
            .map(doc -> String.format("[来源: %s]\n%s", 
                doc.getMetadata().get("source"), 
                doc.getText()))
            .collect(Collectors.joining("\n\n"));
            
        // 3. 构造Prompt，明确约束AI
        PromptTemplate promptTemplate = new PromptTemplate("""
            请基于以下参考文档回答问题。如果参考文档不包含答案，必须回复"根据现有资料无法回答"。
            
            参考文档：
            {context}
            
            用户问题：{question}
            
            回答要求：
            1. 回答必须基于参考文档，严禁编造
            2. 如涉及数据，请标注数据来源
            3. 保持简洁，控制在300字以内
            """);
            
        Prompt prompt = promptTemplate.create(Map.of(
            "context", context,
            "question", question
        ));
        
        // 4. 调用Gemma 4生成回答
        return chatClient.prompt(prompt).call().content();
    }
}

Controller层（REST接口）

java 复制代码

@RestController
@RequestMapping("/api/knowledge")
public class KnowledgeController {
    @Autowired
    private KnowledgeBaseService knowledgeBaseService;

    // 上传文档构建知识库
    @PostMapping("/upload")
    upload(@RequestParam("file") MultipartFile file) throws IOException {
        Resource resource = new InputStreamResource(file.getInputStream());
        knowledgeBaseService.ingestDocument(resource);
        return ResponseEntity.ok("文档已入库，正在建立向量索引...");
    }

    // 问答接口
    @PostMapping("/ask")
    public ask(@RequestBody QuestionRequest request) {
        String answer = knowledgeBaseService.ask(request.getQuestion());
        return ResponseEntity.ok(answer);
    }
}

public record QuestionRequest(String question) {}

五、生产环境的"避坑指南"

1. 分块策略别偷懒

很多Demo代码用固定长度切分（比如每500字符切一刀），这在生产环境是灾难。你会发现表格被拦腰斩断，代码块断了上下文，AI回答得支离破碎。

正确姿势：语义分块。Spring AI的TokenTextSplitter只是基础版，生产建议用更智能的，比如按段落、按标题、按代码块边界切。对于PDF，先用Apache Tika提取结构，保留标题层级。

2. 混合检索（Hybrid Search）

纯向量检索有个毛病：如果用户问的是"2025年Q3财报"，向量可能召回一堆关于"财报"的文档，但漏掉具体的"2025年Q3"那个文件。这时候要加上关键词检索（BM25）做混合搜索。

PgVector从0.7.0版本开始支持混合检索，Spring AI也提供了相应API。配置起来很简单：

java 复制代码

SearchRequest hybridRequest = SearchRequest.builder()
    .query(question)
    .topK(10)
    .filterExpression("keywords MATCH " + question)  // 伪代码示意
    .build();

3. 模型选择的艺术

E4B（4B参数）：适合跑在笔记本上做POC，或者边缘设备（比如工厂质检平板）。128K上下文能吞下一整部员工手册。
26B A4B：生产环境主力，单张H100能跑，256K上下文适合分析长论文、法律合同。MoE架构意味着并发能力更强。
31B Dense：不差钱且追求极致性能时上这个。注意这货需要19GB显存，部署成本翻倍。

4. 监控与Fallback

AI服务必须加监控！建议实现三级降级策略：

java 复制代码

public String safeAsk(String question) {
    try {
        // 第一级：严格RAG，相似度阈值0.8
        return strictRagAsk(question, 0.8);
    } catch (Exception e) {
        log.warn("严格RAG失败，降级到宽松模式", e);
        try {
            // 第二级：放宽阈值到0.6
            return strictRagAsk(question, 0.6);
        } catch (Exception e2) {
            log.error("RAG完全失败，切换到通用回答", e2);
            // 第三级：不检索，直接用Gemma 4的一般知识回答，但加免责声明
            return generalKnowledgeAsk(question) + "\n\n⚠️ 警告：此回答未基于企业知识库，可能存在不准确信息。";
        }
    }
}

六、总结：Java AI的黄金时代真的来了

以前总有人说"Java不适合做AI"，现在Spring AI + Gemma 4的组合拳直接打脸。这套方案的优势太明显了：

数据安全：模型跑在内网，文档不出防火墙，满足金融、医疗、政务的合规要求。
成本可控：不用每次都调OpenAI API，本地跑Gemma 4，推理成本≈电费。
技术栈统一：前后端都用Java，不用养Python团队，排查问题不用跨语言调试。
企业级特性：Spring生态的监控、事务、安全全家桶直接复用。

当然，也有局限。Gemma 4虽然强，但跟GPT-4 Turbo比还是有差距，特别是需要复杂推理的场景。建议做混合架构：简单问答走本地Gemma 4，复杂任务路由到云端大模型。

2026年，Java程序员玩AI的门槛已经降到地板价。还等什么？今晚就把Ollama装上，明天给老板演示一个"基于Gemma 4的智能客服"，升职加薪拿捏了。

无意间发现了一个巨牛巨牛巨牛的人工智能教程，非常通俗易懂，对AI感兴趣的朋友强烈推荐去看看，传送门https://blog.csdn.net/HHX_01