⁤⁤⁤‍‬⁣‌‍⁤‬‬⁤⁢⁣‍⁤⁢⁤‍⁢‬⁡⁡⁡‌⁣⁣⁡告别高额API！手把手教你在本地免费跑AI大模型，详细操作指南！

最近想要开发一些AI应用，不想要要使用线上的API调用，收费不说，有时候还不稳定。

就想着本地安装一个大模型运行试一试。

这篇文章手把手带你一起安装本地大模型，以及不同配置电脑应该如何选择大模型。

平台Ollama，模型qwen3:8b

当然本地运行大模型也有一定的局限性，对电脑性能，有一定要求。对于参数很大的模型，运行起来有些困难，不过好在都有少参数版本的模型，可以尝鲜。

一、什么是ollama?

ollama是一个本地运行大模型的工具，上面有基本所有市面上的开源大模型。让你快速下载，并可以本地运行。

ollama.com/

下载

官网下载安装就可以了。ollama.com/download

安装好之后，第一次需要点击图标运行。

之后需要授权，授权之后，就启动了。

运行时，状态栏会有一个羊驼图标。（如果没有重启一下电脑）

也可以命令行输入ollama。

如果有日志，就安装成功了。

二、模型怎么选择？

有两个点：

看模型是否支持你需要的功能，例如工具调用、深度思考、图像生成、向量化等。
看你的电脑配置能够运行什么级别的模型。
相同的模型，参数大小对性能的要求也不一样，参数越少，要求越低。

本地运行大模型，特别需要看电脑的配置，特别是内存（RAM）大小。

我的是 16GB 内存的 M4 MacBook Pro

选择模型的原则是：

8B (80亿) 参数左右 是性能和效果比较平衡的中间点。
14B (140亿) 参数 是 16GB 内存可以流畅运行的上限。
小于 8B 的模型会非常快，占用资源少。
大于 30B 的模型基本不适合在 16GB 内存的设备上本地运行。

你如你不会选，可以把你的电脑配置发给AI，问一下怎么选就可以了。

例如：

bash 复制代码

我的电脑是mac bookpro M4芯片，14G内存。需要在本地运行ollama模型，需要支持工具调用、深度思考，有哪些模型可选。

三、安装大模型

因为我要支持工具调用，选择的是qwen3:8B

如果你想拉取其他版本（例如 30B，对内存要求更高），可以指定为 ollama run qwen3:30b

模型大约有 4.1 GB 左右，运行之后，就会开始下载。

bash 复制代码

ollama run qwen3:8b

所有可用模型在这：ollama.com/search

四、调用大模型

Ollama 有2种运行方式，命令行和 API 服务。

1. 命令行运行

执行ollama run qwen3:8b

2. 通过api接口调用

通过浏览器访问下面的网址，可以查看当前运行模型的信息：

http://localhost:11434/api/tags

下面是几个api调用的案例

bash 复制代码

# --- 案例1 ---
# 这个例子会请求 qwen3:8b 模型，返回内容。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "你好呀",
  "stream": false
}'

# --- 参数控制 ---
# 你可以控制生成文本的更多参数，例如温度 (temperature)、最大 token 数 (max_tokens)、
# top_p等。用于调整模型的生成行为。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "你好",
  "stream": false,
  "options": {
    "temperature": 0.7,
    "num_predict": 50, 
    "top_p": 0.9
  }
}'

3. 通过python代码调用

python 复制代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
极简的Ollama调用Qwen3:8B模型演示
需要先安装ollama库: pip install ollama
需要先拉取模型: ollama pull qwen3:8b
"""

import ollama

def chat():
    """流式输出演示"""
    try:
        print("\n=== 流式输出演示 ===")
        print("Qwen3:8B 流式回复:")
        
        # 启用流式输出
        stream = ollama.chat(
            model='qwen3:8b',
            messages=[
                {
                    'role': 'user',
                    'content': '请写一首关于春天的短诗。'
                }
            ],
            stream=True
        )
        
        # 逐步打印回复
        for chunk in stream:
            print(chunk['message']['content'], end='', flush=True)
        print()  # 换行
        
    except Exception as e:
        print(f"流式输出错误: {e}")

if __name__ == "__main__":
    print("=== Ollama Qwen3:8B 演示 ===")
    
    # 基础对话演示
    chat
    
    print("\n演示结束!")

五、ollama常用命令

ollama run <model_name>：运行一个模型并进入对话模式。如果模型不存在，会自动下载。
ollama pull <model_name>：下载指定模型到本地。
ollama list 或 ollama ls：列出本地已下载的所有模型。
ollama rm <model_name>：从本地删除指定模型。
ollama create <model_name> -f <Modelfile> ：通过 Modelfile 创建或自定义模型。
ollama serve：在后台启动 Ollama API 服务（macOS 和 Windows 通常自动运行）。
ollama push <model_name> <registry_url>：将本地模型推送到 Ollama 注册表。
ollama cp <source_model> <destination_model>：复制一个模型为新的名称。
ollama show <model_name> <field>：显示模型的详细信息（如 Modelfile 内容、参数等）。
ollama help：查看所有命令及其用法帮助。

参考资料：

ollama应该使用哪种本地模型进行工具调用？(www.docker.com/blog/local-...)
ollama.com/search

⁤⁤⁤‍‬⁣﻿‌‍⁤‬‬⁤⁢﻿﻿⁣‍⁤⁢⁤‍⁢‬⁡⁡⁡﻿‌⁣⁣⁡﻿告别高额API！手把手教你在本地免费跑AI大模型，详细操作指南！

一、什么是ollama?

下载

二、模型怎么选择？

三、安装大模型

四、调用大模型

1. 命令行运行

2. 通过api接口调用

3. 通过python代码调用

五、ollama常用命令

参考资料：

⁤⁤⁤‍‬⁣‌‍⁤‬‬⁤⁢⁣‍⁤⁢⁤‍⁢‬⁡⁡⁡‌⁣⁣⁡告别高额API！手把手教你在本地免费跑AI大模型，详细操作指南！