如何在本地部署大模型-ollama_(保姆级教程)

一、部署方式选择

部署方式 上手难度 核心特点 适用场景
Ollama 命令极简,自动适配环境,自带 API 接口 新手日常本地调用、快速测试
LM Studio 图形化操作,无需敲代码,兼容 OpenAI 接口 不想使用命令行、纯可视化使用
Text Generation WebUI ⭐⭐⭐ 功能齐全,支持模型微调、多种量化格式 深度调试模型、个性化参数配置
vLLM ⭐⭐⭐⭐ 推理速度快,高并发性能强 搭建对外服务、生产环境部署

大家可以按需自我选择,我的推荐是本地自己玩使用ollama,在企业使用最好用vLLM

二、ollama下载(windows电脑为例)

如果官网能下载就用官网,不能就镜像地址,懂得都懂

  1. 官网地址:ollama.com/download
  2. 镜像地址:cnb.cool/hex/ollama/...

注意:后续下载模型一般都好几个G,可以在setting中设置模型下载地址

三、免费开源大模型选择

模型名称 推荐版本 中文友好 商用权限 Ollama 下载命令 最低显存 推荐显存 最低内存 推荐内存 硬件适配选型
通义千问 Qwen Qwen2:7b/14b ★★★★★ 免费可商用 ollama run qwen2:7b ollama run qwen2:14b 6G 10G 8-16G 16G+ 16G 32G 32G 64G 16G 内存选 7b,32G 及以上内存选 14b
智谱 ChatGLM chatglm3:6b ★★★★★ 免费可商用 ollama run chatglm3:6b 5G 6-8G 16G 32G 常规家用内存均可流畅运行
Llama3 llama3:8b ★★★☆☆ 个人免费商用受限 ollama run llama3:8b 6G 8-16G 16G 32G 16G 标准内存适配日常使用
DeepSeek deepseek:7b ★★★★☆ 个人免费商用受限 ollama run deepseek:7b 6G 8-16G 16G 32G 代码推理场景,16G 内存够用
Mixtral mixtral:8x7b ★★★☆☆ 免费可商用 ollama run mixtral 10G 16G+ 32G 64G 大内存机型专属,长文本处理优选
Gemma gemma2:9b ★★★☆☆ 个人免费商用受限 ollama run gemma2:9b 8G 12-16G 16G 32G 主流内存配置均可稳定运行
Phi-3 phi3:mini ★★★☆☆ 免费可商用 ollama run phi3:mini 3G 4-6G 8G 16G 低配小内存笔记本首选

我是16G内存,下载的是Qwen2:7b,直接在powershell上运行ollama run qwen2:7b

四、使用

选中模型直接对话即可,就可以使用了!!!

地址验证:http://localhost:11434/

五、项目集成(Spring AI框架为例)

  1. pom依赖
xml 复制代码
<dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!-- Spring AI Ollama 依赖 -->
        <dependency>
            <groupId>org.springframework.ai</groupId>
            <artifactId>spring-ai-starter-model-ollama</artifactId>
            <version>1.0.0</version>
        </dependency>
    </dependencies>
  1. yaml配置
yaml 复制代码
spring:
  application:
    name: spring-ai-demo
  ai:
   ollama:
     base-url: http://localhost:11434
     chat:
       model: qwen2:7b
  1. 测试运行
java 复制代码
package com.example.springaidemo.controller;

import org.springframework.ai.chat.client.ChatClient;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;

@RestController
public class AiController {

    private final ChatClient chatClient;

    // 自动注入 Ollama
    public AiController(ChatClient.Builder chatClientBuilder) {
        this.chatClient = chatClientBuilder.build();
    }

    // 测试接口
    @GetMapping("/ai")
    public String ask(String question) {
        return chatClient.prompt()
                .user(question)
                .call()
                .content();
    }
}

六、云端部署(TODO)

相关推荐
码农阿强7 小时前
Omni-Flash引擎及组件库技术解析与中转站接入实践
人工智能·ai·aigc·ai编程·ai写作·gpu算力
白日梦想家L_7 小时前
Claude Code 的 Hooks、Slash Command 与自动化
ai·ai编程
前端爆冲8 小时前
基于SSE实现AI聊天场景的流式输出
前端·ai编程
Bigger8 小时前
mini-cc 技术栈:跟着 Claude Code 先选 TypeScript + React + Ink
前端·ai编程·claude
CHEN5_028 小时前
Agent开发基础概念
agent·ai编程
invicinble8 小时前
spring事务相关信息量的沉淀
java·后端·spring
麦哲思科技任甲林8 小时前
写个缺陷修复的skill,提高AI的缺陷修复效率
ai编程·缺陷修复
No8g攻城狮8 小时前
【AI工具】Sub2API简介 – 开源 AI API 中转网关平台,支持多账户管理
人工智能·ai·开源·ai编程
aqi008 小时前
15天学会AI应用开发(一)搭建AI大模型应用开发环境
人工智能·python·大模型·ai编程·ai应用