一、部署方式选择
| 部署方式 | 上手难度 | 核心特点 | 适用场景 |
|---|---|---|---|
| Ollama | ⭐ | 命令极简,自动适配环境,自带 API 接口 | 新手日常本地调用、快速测试 |
| LM Studio | ⭐ | 图形化操作,无需敲代码,兼容 OpenAI 接口 | 不想使用命令行、纯可视化使用 |
| Text Generation WebUI | ⭐⭐⭐ | 功能齐全,支持模型微调、多种量化格式 | 深度调试模型、个性化参数配置 |
| vLLM | ⭐⭐⭐⭐ | 推理速度快,高并发性能强 | 搭建对外服务、生产环境部署 |
大家可以按需自我选择,我的推荐是本地自己玩使用ollama,在企业使用最好用vLLM
二、ollama下载(windows电脑为例)
如果官网能下载就用官网,不能就镜像地址,懂得都懂
- 官网地址:ollama.com/download
- 镜像地址:cnb.cool/hex/ollama/...
注意:后续下载模型一般都好几个G,可以在setting中设置模型下载地址
三、免费开源大模型选择
| 模型名称 | 推荐版本 | 中文友好 | 商用权限 | Ollama 下载命令 | 最低显存 | 推荐显存 | 最低内存 | 推荐内存 | 硬件适配选型 |
|---|---|---|---|---|---|---|---|---|---|
| 通义千问 Qwen | Qwen2:7b/14b | ★★★★★ | 免费可商用 | ollama run qwen2:7b ollama run qwen2:14b | 6G 10G | 8-16G 16G+ | 16G 32G | 32G 64G | 16G 内存选 7b,32G 及以上内存选 14b |
| 智谱 ChatGLM | chatglm3:6b | ★★★★★ | 免费可商用 | ollama run chatglm3:6b | 5G | 6-8G | 16G | 32G | 常规家用内存均可流畅运行 |
| Llama3 | llama3:8b | ★★★☆☆ | 个人免费商用受限 | ollama run llama3:8b | 6G | 8-16G | 16G | 32G | 16G 标准内存适配日常使用 |
| DeepSeek | deepseek:7b | ★★★★☆ | 个人免费商用受限 | ollama run deepseek:7b | 6G | 8-16G | 16G | 32G | 代码推理场景,16G 内存够用 |
| Mixtral | mixtral:8x7b | ★★★☆☆ | 免费可商用 | ollama run mixtral | 10G | 16G+ | 32G | 64G | 大内存机型专属,长文本处理优选 |
| Gemma | gemma2:9b | ★★★☆☆ | 个人免费商用受限 | ollama run gemma2:9b | 8G | 12-16G | 16G | 32G | 主流内存配置均可稳定运行 |
| Phi-3 | phi3:mini | ★★★☆☆ | 免费可商用 | ollama run phi3:mini | 3G | 4-6G | 8G | 16G | 低配小内存笔记本首选 |
我是16G内存,下载的是Qwen2:7b,直接在powershell上运行ollama run qwen2:7b
四、使用

选中模型直接对话即可,就可以使用了!!!

五、项目集成(Spring AI框架为例)
- pom依赖
xml
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<!-- Spring AI Ollama 依赖 -->
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-starter-model-ollama</artifactId>
<version>1.0.0</version>
</dependency>
</dependencies>
- yaml配置
yaml
spring:
application:
name: spring-ai-demo
ai:
ollama:
base-url: http://localhost:11434
chat:
model: qwen2:7b
- 测试运行
java
package com.example.springaidemo.controller;
import org.springframework.ai.chat.client.ChatClient;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;
@RestController
public class AiController {
private final ChatClient chatClient;
// 自动注入 Ollama
public AiController(ChatClient.Builder chatClientBuilder) {
this.chatClient = chatClientBuilder.build();
}
// 测试接口
@GetMapping("/ai")
public String ask(String question) {
return chatClient.prompt()
.user(question)
.call()
.content();
}
}
