⁤⁤⁤‍‬⁣‌‍⁤‬‬⁤⁢⁣‍⁤⁢⁤‍⁢‬⁡⁡⁡‌⁣⁣⁡告别高额API!手把手教你在本地免费跑AI大模型,详细操作指南!

最近想要开发一些AI应用,不想要要使用线上的API调用,收费不说,有时候还不稳定。

就想着本地安装一个大模型运行试一试。

这篇文章手把手带你一起安装本地大模型,以及不同配置电脑应该如何选择大模型。

平台Ollama,模型qwen3:8b

当然本地运行大模型也有一定的局限性,对电脑性能,有一定要求。对于参数很大的模型,运行起来有些困难,不过好在都有少参数版本的模型,可以尝鲜。

一、什么是ollama?

ollama是一个本地运行大模型的工具,上面有基本所有市面上的开源大模型。让你快速下载,并可以本地运行。

ollama.com/

下载

官网下载安装就可以了。ollama.com/download

安装好之后,第一次需要点击图标运行。

之后需要授权,授权之后,就启动了。

运行时,状态栏会有一个羊驼图标。(如果没有重启一下电脑)

也可以命令行输入ollama。

如果有日志,就安装成功了。

二、模型怎么选择?

有两个点:

  • 看模型是否支持你需要的功能,例如工具调用、深度思考、图像生成、向量化等。

  • 看你的电脑配置能够运行什么级别的模型。

  • 相同的模型,参数大小对性能的要求也不一样,参数越少,要求越低。

本地运行大模型,特别需要看电脑的配置,特别是内存(RAM)大小

我的是 16GB 内存的 M4 MacBook Pro

选择模型的原则是:

  • 8B (80亿) 参数左右 是性能和效果比较平衡的中间点。

  • 14B (140亿) 参数 是 16GB 内存可以流畅运行的上限。

  • 小于 8B 的模型会非常快,占用资源少。

  • 大于 30B 的模型基本不适合在 16GB 内存的设备上本地运行。

你如你不会选,可以把你的电脑配置发给AI,问一下怎么选就可以了。

例如:

bash 复制代码
我的电脑是mac bookpro M4芯片,14G内存。需要在本地运行ollama模型,需要支持工具调用、深度思考,有哪些模型可选。

三、安装大模型

因为我要支持工具调用,选择的是qwen3:8B

如果你想拉取其他版本(例如 30B,对内存要求更高),可以指定为 ollama run qwen3:30b

模型大约有 4.1 GB 左右,运行之后,就会开始下载。

bash 复制代码
ollama run qwen3:8b

所有可用模型在这:ollama.com/search

四、调用大模型

Ollama 有2种运行方式,命令行和 API 服务。

1. 命令行运行

执行ollama run qwen3:8b

2. 通过api接口调用

通过浏览器访问下面的网址,可以查看当前运行模型的信息:

http://localhost:11434/api/tags

下面是几个api调用的案例

bash 复制代码
# --- 案例1 ---
# 这个例子会请求 qwen3:8b 模型,返回内容。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "你好呀",
  "stream": false
}'

# --- 参数控制 ---
# 你可以控制生成文本的更多参数,例如温度 (temperature)、最大 token 数 (max_tokens)、
# top_p等。用于调整模型的生成行为。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "你好",
  "stream": false,
  "options": {
    "temperature": 0.7,
    "num_predict": 50, 
    "top_p": 0.9
  }
}'

3. 通过python代码调用

python 复制代码
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
极简的Ollama调用Qwen3:8B模型演示
需要先安装ollama库: pip install ollama
需要先拉取模型: ollama pull qwen3:8b
"""

import ollama

def chat():
    """流式输出演示"""
    try:
        print("\n=== 流式输出演示 ===")
        print("Qwen3:8B 流式回复:")
        
        # 启用流式输出
        stream = ollama.chat(
            model='qwen3:8b',
            messages=[
                {
                    'role': 'user',
                    'content': '请写一首关于春天的短诗。'
                }
            ],
            stream=True
        )
        
        # 逐步打印回复
        for chunk in stream:
            print(chunk['message']['content'], end='', flush=True)
        print()  # 换行
        
    except Exception as e:
        print(f"流式输出错误: {e}")

if __name__ == "__main__":
    print("=== Ollama Qwen3:8B 演示 ===")
    
    # 基础对话演示
    chat
    
    print("\n演示结束!")

五、ollama常用命令

  • ollama run <model_name>:运行一个模型并进入对话模式。如果模型不存在,会自动下载。

  • ollama pull <model_name>:下载指定模型到本地。

  • ollama listollama ls:列出本地已下载的所有模型。

  • ollama rm <model_name>:从本地删除指定模型。

  • ollama create <model_name> -f <Modelfile> :通过 Modelfile 创建或自定义模型。

  • ollama serve:在后台启动 Ollama API 服务(macOS 和 Windows 通常自动运行)。

  • ollama push <model_name> <registry_url>:将本地模型推送到 Ollama 注册表。

  • ollama cp <source_model> <destination_model>:复制一个模型为新的名称。

  • ollama show <model_name> <field>:显示模型的详细信息(如 Modelfile 内容、参数等)。

  • ollama help:查看所有命令及其用法帮助。

参考资料:

相关推荐
Yvonne爱编码1 分钟前
简述ajax、node.js、webpack、git
前端·git·ajax·webpack·node.js·visual studio
周小码2 分钟前
CesiumJS详解:打造专业级Web 3D地球仪与地图的JavaScript库
前端·javascript·3d
哆啦A梦15886 分钟前
Element-Plus
前端·vue.js·ts
IT_陈寒12 分钟前
🔥3分钟掌握JavaScript性能优化:从V8引擎原理到5个实战提速技巧
前端·人工智能·后端
前端小巷子34 分钟前
JS 打造丝滑手风琴
前端·javascript·面试
Mintopia1 小时前
多模态 AIGC 在 Web 内容创作中的技术融合实践:把“创作引擎”装进浏览器
前端·javascript·aigc
鹏多多.1 小时前
flutter-使用fluttertoast制作丰富的高颜值toast
android·前端·flutter·ios
Mintopia1 小时前
Next.js 的 Web Vitals 监测与 Lighthouse 分析:从底层到实战的快乐科学
前端·javascript·next.js
302AI1 小时前
Claude 断供中国之际,Kimi-K2-0905 低调上线:时势造英雄
人工智能·llm·ai编程
charlie1145141911 小时前
前端三件套简单学习:HTML篇1
开发语言·前端·学习·html