⁤⁤⁤‍‬⁣‌‍⁤‬‬⁤⁢⁣‍⁤⁢⁤‍⁢‬⁡⁡⁡‌⁣⁣⁡告别高额API!手把手教你在本地免费跑AI大模型,详细操作指南!

最近想要开发一些AI应用,不想要要使用线上的API调用,收费不说,有时候还不稳定。

就想着本地安装一个大模型运行试一试。

这篇文章手把手带你一起安装本地大模型,以及不同配置电脑应该如何选择大模型。

平台Ollama,模型qwen3:8b

当然本地运行大模型也有一定的局限性,对电脑性能,有一定要求。对于参数很大的模型,运行起来有些困难,不过好在都有少参数版本的模型,可以尝鲜。

一、什么是ollama?

ollama是一个本地运行大模型的工具,上面有基本所有市面上的开源大模型。让你快速下载,并可以本地运行。

ollama.com/

下载

官网下载安装就可以了。ollama.com/download

安装好之后,第一次需要点击图标运行。

之后需要授权,授权之后,就启动了。

运行时,状态栏会有一个羊驼图标。(如果没有重启一下电脑)

也可以命令行输入ollama。

如果有日志,就安装成功了。

二、模型怎么选择?

有两个点:

  • 看模型是否支持你需要的功能,例如工具调用、深度思考、图像生成、向量化等。

  • 看你的电脑配置能够运行什么级别的模型。

  • 相同的模型,参数大小对性能的要求也不一样,参数越少,要求越低。

本地运行大模型,特别需要看电脑的配置,特别是内存(RAM)大小

我的是 16GB 内存的 M4 MacBook Pro

选择模型的原则是:

  • 8B (80亿) 参数左右 是性能和效果比较平衡的中间点。

  • 14B (140亿) 参数 是 16GB 内存可以流畅运行的上限。

  • 小于 8B 的模型会非常快,占用资源少。

  • 大于 30B 的模型基本不适合在 16GB 内存的设备上本地运行。

你如你不会选,可以把你的电脑配置发给AI,问一下怎么选就可以了。

例如:

bash 复制代码
我的电脑是mac bookpro M4芯片,14G内存。需要在本地运行ollama模型,需要支持工具调用、深度思考,有哪些模型可选。

三、安装大模型

因为我要支持工具调用,选择的是qwen3:8B

如果你想拉取其他版本(例如 30B,对内存要求更高),可以指定为 ollama run qwen3:30b

模型大约有 4.1 GB 左右,运行之后,就会开始下载。

bash 复制代码
ollama run qwen3:8b

所有可用模型在这:ollama.com/search

四、调用大模型

Ollama 有2种运行方式,命令行和 API 服务。

1. 命令行运行

执行ollama run qwen3:8b

2. 通过api接口调用

通过浏览器访问下面的网址,可以查看当前运行模型的信息:

http://localhost:11434/api/tags

下面是几个api调用的案例

bash 复制代码
# --- 案例1 ---
# 这个例子会请求 qwen3:8b 模型,返回内容。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "你好呀",
  "stream": false
}'

# --- 参数控制 ---
# 你可以控制生成文本的更多参数,例如温度 (temperature)、最大 token 数 (max_tokens)、
# top_p等。用于调整模型的生成行为。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "你好",
  "stream": false,
  "options": {
    "temperature": 0.7,
    "num_predict": 50, 
    "top_p": 0.9
  }
}'

3. 通过python代码调用

python 复制代码
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
极简的Ollama调用Qwen3:8B模型演示
需要先安装ollama库: pip install ollama
需要先拉取模型: ollama pull qwen3:8b
"""

import ollama

def chat():
    """流式输出演示"""
    try:
        print("\n=== 流式输出演示 ===")
        print("Qwen3:8B 流式回复:")
        
        # 启用流式输出
        stream = ollama.chat(
            model='qwen3:8b',
            messages=[
                {
                    'role': 'user',
                    'content': '请写一首关于春天的短诗。'
                }
            ],
            stream=True
        )
        
        # 逐步打印回复
        for chunk in stream:
            print(chunk['message']['content'], end='', flush=True)
        print()  # 换行
        
    except Exception as e:
        print(f"流式输出错误: {e}")

if __name__ == "__main__":
    print("=== Ollama Qwen3:8B 演示 ===")
    
    # 基础对话演示
    chat
    
    print("\n演示结束!")

五、ollama常用命令

  • ollama run <model_name>:运行一个模型并进入对话模式。如果模型不存在,会自动下载。

  • ollama pull <model_name>:下载指定模型到本地。

  • ollama listollama ls:列出本地已下载的所有模型。

  • ollama rm <model_name>:从本地删除指定模型。

  • ollama create <model_name> -f <Modelfile> :通过 Modelfile 创建或自定义模型。

  • ollama serve:在后台启动 Ollama API 服务(macOS 和 Windows 通常自动运行)。

  • ollama push <model_name> <registry_url>:将本地模型推送到 Ollama 注册表。

  • ollama cp <source_model> <destination_model>:复制一个模型为新的名称。

  • ollama show <model_name> <field>:显示模型的详细信息(如 Modelfile 内容、参数等)。

  • ollama help:查看所有命令及其用法帮助。

参考资料:

相关推荐
90后的晨仔13 分钟前
🚀 Vue 声明式渲染:让 HTML 跟着数据走(超详解)
前端·vue.js
CAD老兵19 分钟前
package.json 中 dependencies 的版本号:它真的是版本号吗?
前端·javascript
汤姆大聪明23 分钟前
Spring Cloud Gateway 服务网关
java·服务器·前端
OEC小胖胖1 小时前
架构篇(一):告别MVC/MVP,为何“组件化”是现代前端的唯一答案?
前端·架构·mvc
alien爱吃蛋挞1 小时前
【JavaEE】Spring Web MVC(上)
前端·spring·java-ee
拾光拾趣录1 小时前
一个 ID 溢出引发的线上资损
前端·javascript
液态不合群1 小时前
JavaScript 编年史:探索前端界巨变的幕后推手
开发语言·前端·javascript
拾光拾趣录2 小时前
一个链接,两种命运
前端