本地模型怎么玩？把 .GGUF 丢进 LM Studio 跑起来

本篇分享、介绍的是：

👉 把模型转成 GGUF → 丢进 LM Studio → 直接聊天 or 当 API 用

一、先搞清楚：为什么一定是 GGUF

如果你用过 llama.cpp 或本地推理工具，大概率已经见过这个格式。

GGUF 本质上就是：

专门为本地推理优化的模型格式
支持量化（大幅降低显存 / 内存占用）
LM Studio、Ollama、llama.cpp 都能吃

也就是说：👉 想在本地跑模型，GGUF 基本就是通行证

二、把微调的模型导出成 GGUF

如果是用 Unsloth 微调的，直接一行代码搞定：

ini 复制代码

model.save_pretrained_gguf(
    "my_model_gguf",
    tokenizer,
    quantization_method="q4_k_m"
)

常见几个选择你可以这么理解：

q4_k_m：默认推荐，体积小、速度快，本地跑最舒服
q8_0：质量更好，体积也更大
f16：接近原始精度，但又大又慢

一般来说，直接用 q4_k_m 就够了。如果还想分享模型，也可以直接推到 Hugging Face：

ini 复制代码

model.push_to_hub_gguf(
    "hf_username/my_model_gguf",
    tokenizer,
    quantization_method="q4_k_m"
)

三、把 GGUF 丢进 LM Studio

这里有三种方式，但最稳的是 CLI。

方式1：一行命令导入（就这句）

arduino 复制代码

lms import /path/to/model.gguf

如果你不想移动原文件：

css 复制代码

lms import /path/to/model.gguf --copy

导入完成后，打开 LM Studio：👉 "我的模型"里就能看到它了

方式2：手动放文件（容易踩坑）

路径要对：

javascript 复制代码

~/.lmstudio/models/publisher/model/model.gguf

就是要注意版本：

但这个方式很容易结构写错，优先用 lms import。

四、直接在 LM Studio 里跑起来

打开 LM Studio → Chat 页面：

打开模型加载器
选择你的模型
调整参数（可选）
- GPU offload
- context length
开始聊天

到这里，其实已经能用了。

五、进阶玩法：把模型当本地 API

这一步才是很多人真正想要的。

LM Studio 可以直接变成一个 OpenAI 兼容接口。

打开：👉 Developer（开发者）面板 → 启动本地服务

默认地址：

bash 复制代码

http://localhost:1234/v1

1、先测一下模型有没有起来

bash 复制代码

curl http://localhost:1234/v1/models

2、用 Python 调用（直接当 OpenAI 用）

ini 复制代码

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio",
)

resp = client.chat.completions.create(
    model="your-model-id",
    messages=[
        {"role": "user", "content": "来一句测试"}
    ],
    temperature=0.7,
)

print(resp.choices[0].message.content)

3、CURL 也能直接打

arduino 复制代码

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "your-model-id",
    "messages": [
      {"role": "user", "content": "Say this is a test!"}
    ]
  }'

六、几个最常见的坑

这部分很关键，基本 80% 的问题都在这里。

1、输出乱码 / 一直重复

核心原因：提示模板不匹配

解决方式：

打开模型设置 ⚙️
手动设置 Prompt Template
或在聊天侧边栏强制启用模板

2、模型导入了但看不到

优先用：

arduino 复制代码

lms import

不要手动乱放路径。

3、跑不动 / 很卡

可以这样调：

换更小量化（Q4）
减小 context length
调整 GPU offload

七、一整套流程，本质

其实你可以把它抽象成一个标准链路：

复制代码

微调模型
   ↓
导出 GGUF
   ↓
本地加载（LM Studio）
   ↓
对话 or API 服务

这条链路一旦打通，你手里的模型就不再是"文件"，而是一个可以被调用、被集成、被产品化的能力。

很多人卡在"模型很强"，真正拉开差距的是：

👉 谁能把模型变成接口，再变成产品，再塞进流程里跑起来

LM Studio 这一层，其实就是把模型接入现实世界的第一步。

以上就是本次分享。我是安东尼（github: TUARAN），持续关注大模型应用、AI工程化与自动化系统。欢迎一起交流 OpenClaw、Agent、数字员工 等实践，也欢迎共创 《前端周刊》 、加入 博主联盟 。加我或进群，一起做点有意思的 AI 项目。

本地模型怎么玩？把 .GGUF 丢 进 LM Studio 跑起来

一、先搞清楚：为什么一定是 GGUF

二、把微调的模型导出成 GGUF

三、把 GGUF 丢进 LM Studio

方式1：一行命令导入（就这句）

方式2：手动放文件（容易踩坑）

四、直接在 LM Studio 里跑起来

五、进阶玩法：把模型当本地 API

1、先测一下模型有没有起来

2、用 Python 调用（直接当 OpenAI 用）

3、CURL 也能直接打

六、几个最常见的坑

1、输出乱码 / 一直重复

2、模型导入了但看不到

3、跑不动 / 很卡

七、一整套流程，本质

本地模型怎么玩？把 .GGUF 丢进 LM Studio 跑起来