⁤⁤⁤‍‬⁣‌‍⁤‬‬⁤⁢⁣‍⁤⁢⁤‍⁢‬⁡⁡⁡‌⁣⁣⁡告别高额API!手把手教你在本地免费跑AI大模型,详细操作指南!

最近想要开发一些AI应用,不想要要使用线上的API调用,收费不说,有时候还不稳定。

就想着本地安装一个大模型运行试一试。

这篇文章手把手带你一起安装本地大模型,以及不同配置电脑应该如何选择大模型。

平台Ollama,模型qwen3:8b

当然本地运行大模型也有一定的局限性,对电脑性能,有一定要求。对于参数很大的模型,运行起来有些困难,不过好在都有少参数版本的模型,可以尝鲜。

一、什么是ollama?

ollama是一个本地运行大模型的工具,上面有基本所有市面上的开源大模型。让你快速下载,并可以本地运行。

ollama.com/

下载

官网下载安装就可以了。ollama.com/download

安装好之后,第一次需要点击图标运行。

之后需要授权,授权之后,就启动了。

运行时,状态栏会有一个羊驼图标。(如果没有重启一下电脑)

也可以命令行输入ollama。

如果有日志,就安装成功了。

二、模型怎么选择?

有两个点:

  • 看模型是否支持你需要的功能,例如工具调用、深度思考、图像生成、向量化等。

  • 看你的电脑配置能够运行什么级别的模型。

  • 相同的模型,参数大小对性能的要求也不一样,参数越少,要求越低。

本地运行大模型,特别需要看电脑的配置,特别是内存(RAM)大小

我的是 16GB 内存的 M4 MacBook Pro

选择模型的原则是:

  • 8B (80亿) 参数左右 是性能和效果比较平衡的中间点。

  • 14B (140亿) 参数 是 16GB 内存可以流畅运行的上限。

  • 小于 8B 的模型会非常快,占用资源少。

  • 大于 30B 的模型基本不适合在 16GB 内存的设备上本地运行。

你如你不会选,可以把你的电脑配置发给AI,问一下怎么选就可以了。

例如:

bash 复制代码
我的电脑是mac bookpro M4芯片,14G内存。需要在本地运行ollama模型,需要支持工具调用、深度思考,有哪些模型可选。

三、安装大模型

因为我要支持工具调用,选择的是qwen3:8B

如果你想拉取其他版本(例如 30B,对内存要求更高),可以指定为 ollama run qwen3:30b

模型大约有 4.1 GB 左右,运行之后,就会开始下载。

bash 复制代码
ollama run qwen3:8b

所有可用模型在这:ollama.com/search

四、调用大模型

Ollama 有2种运行方式,命令行和 API 服务。

1. 命令行运行

执行ollama run qwen3:8b

2. 通过api接口调用

通过浏览器访问下面的网址,可以查看当前运行模型的信息:

http://localhost:11434/api/tags

下面是几个api调用的案例

bash 复制代码
# --- 案例1 ---
# 这个例子会请求 qwen3:8b 模型,返回内容。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "你好呀",
  "stream": false
}'

# --- 参数控制 ---
# 你可以控制生成文本的更多参数,例如温度 (temperature)、最大 token 数 (max_tokens)、
# top_p等。用于调整模型的生成行为。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "你好",
  "stream": false,
  "options": {
    "temperature": 0.7,
    "num_predict": 50, 
    "top_p": 0.9
  }
}'

3. 通过python代码调用

python 复制代码
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
极简的Ollama调用Qwen3:8B模型演示
需要先安装ollama库: pip install ollama
需要先拉取模型: ollama pull qwen3:8b
"""

import ollama

def chat():
    """流式输出演示"""
    try:
        print("\n=== 流式输出演示 ===")
        print("Qwen3:8B 流式回复:")
        
        # 启用流式输出
        stream = ollama.chat(
            model='qwen3:8b',
            messages=[
                {
                    'role': 'user',
                    'content': '请写一首关于春天的短诗。'
                }
            ],
            stream=True
        )
        
        # 逐步打印回复
        for chunk in stream:
            print(chunk['message']['content'], end='', flush=True)
        print()  # 换行
        
    except Exception as e:
        print(f"流式输出错误: {e}")

if __name__ == "__main__":
    print("=== Ollama Qwen3:8B 演示 ===")
    
    # 基础对话演示
    chat
    
    print("\n演示结束!")

五、ollama常用命令

  • ollama run <model_name>:运行一个模型并进入对话模式。如果模型不存在,会自动下载。

  • ollama pull <model_name>:下载指定模型到本地。

  • ollama listollama ls:列出本地已下载的所有模型。

  • ollama rm <model_name>:从本地删除指定模型。

  • ollama create <model_name> -f <Modelfile> :通过 Modelfile 创建或自定义模型。

  • ollama serve:在后台启动 Ollama API 服务(macOS 和 Windows 通常自动运行)。

  • ollama push <model_name> <registry_url>:将本地模型推送到 Ollama 注册表。

  • ollama cp <source_model> <destination_model>:复制一个模型为新的名称。

  • ollama show <model_name> <field>:显示模型的详细信息(如 Modelfile 内容、参数等)。

  • ollama help:查看所有命令及其用法帮助。

参考资料:

相关推荐
不会敲代码15 小时前
手写 Mini React:从 JSX 到虚拟 DOM 再到 render,搞懂 React 底层原理
前端·javascript·react.js
kyriewen6 小时前
你的代码仓库变成“毛线团”了?Monorepo 用 Turborepo 拆成“乐高积木”
前端·javascript·面试
身如柳絮随风扬6 小时前
你知道什么是 Ajax 吗?—— 从入门到原理,一篇彻底搞懂
前端·ajax·okhttp
Goboy6 小时前
「我的第一次移动端 AI 办公」TRAE SOLO 三端联动, 通勤路上就把活干了,这设计,老罗看了都想当场退役
人工智能·ai编程·trae
旷世奇才李先生7 小时前
Vue3\+TypeScript 2026实战——企业级前端项目架构搭建与性能优化全指南
前端·架构·typescript
Beginner x_u7 小时前
前端八股整理(工程化 02)|CommonJS/ESM、Webpack Loader/Plugin 与Vite 对比
前端·webpack·node.js·plugin·loader
05候补工程师7 小时前
[实战复盘] 拒绝 AI 屎山!我从设计模式中学到的“调教”AI 新范式
人工智能·python·设计模式·ai·ai编程
openKaka_7 小时前
createRoot 到底创建了什么:FiberRootNode 和 HostRootFiber 的初始化过程
前端·javascript·react.js
习明然8 小时前
UniApp开发体验感受总结
前端·uni-app