告别Python！Java本地部署Gemma 4：Maven一键集成

文章目录

- 一、Java程序员的"AI自卑症"该治好了
- [二、Gemma 4：Google给Java程序员的"投名状"](#二、Gemma 4：Google给Java程序员的"投名状")
- [三、技术选型：为什么不选Spring AI？](#三、技术选型：为什么不选Spring AI？)
- 四、环境准备：Ollama是你的"模型快递站"
- - [1. 安装Ollama](#1. 安装Ollama)
  - [2. 拉取Gemma 4模型](#2. 拉取Gemma 4模型)
  - [3. 验证Ollama服务](#3. 验证Ollama服务)
- 五、Maven配置：三行依赖走天下
- 六、代码实战：比写Controller还简单
- - [1. 配置文件](#1. 配置文件)
  - [2. 定义AI服务接口](#2. 定义AI服务接口)
  - [3. Controller层调用](#3. Controller层调用)
- 七、进阶玩法：RAG让你的AI懂你的代码库
- [八、性能调优：让Gemma 4在你的笔记本上飞起来](#八、性能调优：让Gemma 4在你的笔记本上飞起来)
- - [1. Ollama侧优化](#1. Ollama侧优化)
  - [2. Java侧优化](#2. Java侧优化)
- 九、避坑指南：血泪教训总结
- 十、写在最后：Java+AI的未来已来

无意间发现了一个巨牛巨牛巨牛的人工智能教程，非常通俗易懂，对AI感兴趣的朋友强烈推荐去看看，传送门https://blog.csdn.net/HHX_01

一、Java程序员的"AI自卑症"该治好了

说实话，作为一名在Java堆里摸爬滚打了十几年的老码农，每次看到Python程序员在AI领域呼风唤雨，我心里都堵得慌。那种感觉，就像你开着一辆满载乘客的宇通大巴，看着隔壁小电驴在晚高峰的车流里灵活穿梭------你明知道你的车更安全、更稳定、更适合企业级应用，但人家就是快啊！

"AI开发必须用Python"，这句话就像程序界的"月经贴"，每个月都要被拿出来刷一波存在感。HR招AI工程师，JD上清一色的"Python精通"；GitHub上的SOTA模型，README第一行就是pip install xxx；就连公司里的算法小哥，看我们的眼神都带着一种"你们Javaer就是搬砖的"悲悯。

但是，朋友们，风水轮流转，2026年的春天，Java程序员终于等来了一场漂亮的翻身仗。Google刚刚甩出了Gemma 4这个王炸，而LangChain4j和Spring AI的成熟，让我们用Java本地跑大模型不再是"痴人说梦"。今天这篇文章，我就要手把手教你，如何用Maven几行配置，让你的Java应用像调用Spring Bean一样丝滑地调用本地Gemma 4模型。

二、Gemma 4：Google给Java程序员的"投名状"

在开始写代码之前，咱们得先搞清楚Gemma 4是个啥玩意儿。简单来说，这是Google DeepMind刚刚开源（对，是Apache 2.0完全开源，不是以前那种半遮半掩的Gemma License）的一系列大模型，从2B到31B四个版本，主打的就是"小而强"。

最骚的是那个26B的MoE（Mixture of Experts）版本，号称能以4B的激活参数，干翻20倍体积的对手。这就像是你们公司那个平时看起来平平无奇的老员工，关键时刻一出手，发现人家是隐藏的大神------而且吃的盒饭（显存）还比别人少。

对于Java开发者来说，Gemma 4最友好的地方在于：

Apache 2.0许可证：你可以随便商用，不用担心律师函警告
本地/边缘部署：2B和4B版本能在手机上跑，26B/31B在笔记本GPU上也能流畅运行
Ollama官方支持：这意味着我们可以通过LangChain4j直接调用，无需自己折腾模型加载

三、技术选型：为什么不选Spring AI？

说到这里，可能有Spring死忠粉要跳出来了："Spring AI不是更好的选择吗？毕竟亲儿子啊！"

兄弟，我且问你：你用过Spring AI 1.0之前的版本吗？那感觉就像是骑着一辆刹车失灵的自行车下坡------刺激，但随时可能出事。虽然Spring AI在快速迭代，但在本地模型部署这块，LangChain4j（简称LC4j）目前确实是更成熟的选择。

LC4j的优势在于：

模型支持丰富：从OpenAI、Anthropic到Ollama、LocalAI，甚至Docker Model Runner，统统支持
社区活跃：GitHub上star数蹭蹭涨，文档比Spring AI齐全多了
与Spring Boot集成完美：有专门的starter，写法和Spring AI几乎一样

最关键的是，LC4j对Ollama的支持是无缝的。而Ollama，是目前本地跑Gemma 4最省心的方案，没有之一。

四、环境准备：Ollama是你的"模型快递站"

在开始写Java代码之前，我们需要先搞定Ollama。你可以把它理解成一个"模型快递站"------它负责从Hugging Face等地方把Gemma 4模型下载下来，然后在本地启动一个HTTP服务（默认端口11434），等着Java程序来取件。

1. 安装Ollama

Mac/Linux

bash 复制代码

curl -fsSL https://ollama.com/install.sh | sh

Windows去官网下载安装包，下一步下一步就行。

2. 拉取Gemma 4模型

这里我建议先拿4B版本试水，毕竟大多数人的笔记本显存也就8GB-16GB：

bash 复制代码

ollama pull gemma4:4b

如果你想试试那个"以小博大"的MoE版本：

bash 复制代码

ollama pull gemma4:26b

注意：第一次pull的时候，你可以去泡杯咖啡，打把王者，或者跟产品经理吵一架------模型文件几个GB，下载需要时间。

3. 验证Ollama服务

bash 复制代码

ollama run gemma4:4b

如果看到交互式命令行，说明服务启动了。输入"你好"，如果Gemma 4用中文回应你，那就万事大吉。按Ctrl+D退出。

五、Maven配置：三行依赖走天下

好了，重头戏来了。打开你的Spring Boot项目（什么？你没有？赶紧去spring.io/init创建一个，Java 17+），在pom.xml里加入以下依赖：

xml 复制代码

    dev.langchain4j
    langchain4j-spring-boot-starter
    1.4.0

看到了吗？就两个依赖，版本号对齐就行。没有Python里conda env create -f environment.yml的繁琐，没有CUDA版本匹配的抓狂，没有torch和tensorflow的"爱恨情仇"。Maven的传递依赖会自动帮你搞定一切，这就是Java生态的魅力------约定大于配置，稳定压倒一切。

六、代码实战：比写Controller还简单

1. 配置文件

在application.properties里加上：

properties 复制代码

langchain4j.ollama.chat-model.base-url=http://localhost:11434
langchain4j.ollama.chat-model.model-name=gemma4:4b
langchain4j.ollama.chat-model.temperature=0.7
langchain4j.ollama.chat-model.timeout=PT120S

这里有个小坑要注意：Gemma 4在本地跑，第一次生成可能会慢一点（冷启动），所以timeout建议设长一点，120秒比较保险。不然你可能会看到SocketTimeoutException，然后怀疑人生。

2. 定义AI服务接口

这是LC4j最骚的操作------你只需要定义一个接口，剩下的它帮你搞定：

java 复制代码

import dev.langchain4j.service.SystemMessage;
import dev.langchain4j.service.spring.AiService;

@AiService
public interface JavaCodeAssistant {

    @SystemMessage("你是一位资深的Java架构师，拥有15年企业级开发经验。回答问题时请给出具体的代码示例，并解释最佳实践。")
    String ask(String question);

}

看到没？@SystemMessage就像是给AI设定的"人设剧本"，而@AiService会让Spring自动帮你生成实现类。这种声明式编程，是不是比Spring Data JPA还要爽？

3. Controller层调用

java 复制代码

@RestController
@RequestMapping("/api/ai")
public class AIController {

    @Autowired
    private JavaCodeAssistant assistant;

    @GetMapping("/ask")
    public ResponseEntity ask(@RequestParam String question) {
        String answer = assistant.ask(question);
        return ResponseEntity.ok(answer);
    }

}

启动应用，浏览器访问：

复制代码

http://localhost:8080/api/ai/ask?question=如何用Java 21的虚拟线程优化高并发场景？

然后你就会看到Gemma 4给你洋洋洒洒写上一大段，从ExecutorService到StructuredTaskScope，再到具体的代码示例。这时候，你可以截图发给你的Python算法同事，配上一句："看，老子用Java也能跑大模型，还是本地的！"

七、进阶玩法：RAG让你的AI懂你的代码库

如果你只是想让AI陪你聊天，那上面的代码已经够用了。但如果你想让它读懂你的祖传代码，帮你改bug、写注释，那就得上RAG（检索增强生成）了。

RAG的原理，就像是给AI配了一个"外接大脑"------先把你的代码库切成碎片，存进向量数据库，问问题的时候先检索相关的代码片段，再喂给模型。LC4j内置了内存向量存储，测试起来特别方便：

java 复制代码

import dev.langchain4j.data.document.parser.TextDocumentParser;
import dev.langchain4j.store.embedding.inmemory.InMemoryEmbeddingStore;
import dev.langchain4j.rag.content.retriever.EmbeddingStoreContentRetriever;
import dev.langchain4j.data.document.Document;
import dev.langchain4j.data.document.loader.FileSystemDocumentLoader;
import static dev.langchain4j.data.document.splitter.DocumentSplitters.recursive;

// 加载你的代码文件
List documents = FileSystemDocumentLoader.loadDocuments("/path/to/your/src", new TextDocumentParser());

// 创建内存向量库（生产环境换成Chroma或Milvus）
InMemoryEmbeddingStore embeddingStore = new InMemoryEmbeddingStore<>();

// 分割并入库
EmbeddingStoreIngestor ingestor = EmbeddingStoreIngestor.builder()
    .documentSplitter(recursive(500, 0))
    .embeddingStore(embeddingStore)
    .build();
ingestor.ingest(documents);

// 在Assistant里加上ContentRetriever
@Bean
JavaCodeAssistant createAssistant(ChatLanguageModel model) {
    return AiServices.builder(JavaCodeAssistant.class)
        .chatLanguageModel(model)
        .contentRetriever(EmbeddingStoreContentRetriever.from(embeddingStore))
        .build();
}

现在，你可以问："我们项目里的UserService类是干嘛的？"，AI会先检索到UserService.java的内容，再结合Gemma 4的推理能力给你解释。这种感觉，就像是给新员工配了一个24小时在线、永不疲倦、而且不收加班费的技术导师。

八、性能调优：让Gemma 4在你的笔记本上飞起来

本地跑大模型，最怕的就是"一核有难，八核围观"------CPU爆满，风扇狂转，隔壁工位以为你在挖矿。

1. Ollama侧优化

使用量化版本（如果Ollama提供了Q4_K_M版本）

bash 复制代码

ollama pull gemma4:4b-q4_0

设置环境变量，限制并发数

bash 复制代码

export OLLAMA_NUM_PARALLEL=1
export OLLAMA_MAX_LOADED_MODELS=1

2. Java侧优化

java 复制代码

@Bean
ChatLanguageModel chatLanguageModel() {
    return OllamaChatModel.builder()
        .baseUrl("http://localhost:11434")
        .modelName("gemma4:4b")
        .timeout(Duration.ofSeconds(120))
        .build();
}

如果你有多张显卡（土豪请带我），Ollama会自动分配，Java端不需要做任何修改。这就是抽象层的魅力------复杂留给自己，简单留给用户。

九、避坑指南：血泪教训总结

中文乱码问题：如果Gemma 4返回乱码，在Ollama启动时加上OLLAMA_ORIGINS=*环境变量，或者升级Ollama到最新版。
内存溢出：4B模型需要至少8GB内存，26B建议32GB+。如果你只有16GB内存，强行跑26B，可能会触发系统的OOM Killer，然后你的Spring Boot应用就"蒸发"了。
上下文长度：Gemma 4支持128K-256K上下文，但Ollama默认可能没开这么大。如果需要处理长文档，在Modelfile里调整num_ctx参数。
首次加载慢：第一次调用会有模型加载时间（可能10-30秒），建议应用启动后做一个"预热调用"：

java 复制代码

@EventListener(ApplicationReadyEvent.class)
public void warmUp() {
    // 启动时预热，避免用户第一次访问等待
    assistant.ask("你好");
}

十、写在最后：Java+AI的未来已来

写到这里，我相信很多Java程序员已经摩拳擦掌了。我们不用再羡慕Python的"花活"，不用再为了跑个模型去啃半年Python语法，更不用在生产环境搞什么"Java调Python脚本"的魔幻架构。

Gemma 4 + LangChain4j + Ollama这个组合拳，给了我们完全在Java生态内闭环的AI解决方案。数据安全（本地运行，不上云）、成本控制（零API调用费用）、响应速度（内网HTTP调用，毫秒级延迟），这三张王牌，足以说服任何一位技术领导。

而且，随着Spring AI 1.0的正式发布，以及Google ADK for Java对LangChain4j的官方集成，Java在AI领域的生态会越来越完善。可以预见，2026年下半年，"Java AI开发"将不再是一个小众话题，而是企业级应用的主流选择。

所以，别再纠结"要不要转Python搞AI"了。Java程序员们，拿起你的Maven，配置好你的pom.xml，让Gemma 4在你的Spring Boot应用里跑起来吧。毕竟，能驾驭企业级复杂业务逻辑的程序员，没理由搞不定AI。

最后，如果你按照本文成功跑通了项目，欢迎在评论区晒出你的application.properties（记得脱敏）。有任何报错，也欢迎提问------毕竟，咱们Java社区最不缺的就是热心解答问题的老伙计。

无意间发现了一个巨牛巨牛巨牛的人工智能教程，非常通俗易懂，对AI感兴趣的朋友强烈推荐去看看，传送门https://blog.csdn.net/HHX_01