本地模型怎么玩?把 .GGUF 丢 进 LM Studio 跑起来

本篇分享、介绍的是:

👉 把模型转成 GGUF → 丢进 LM Studio → 直接聊天 or 当 API 用


一、先搞清楚:为什么一定是 GGUF

如果你用过 llama.cpp 或本地推理工具,大概率已经见过这个格式。

GGUF 本质上就是:

  • 专门为本地推理优化的模型格式
  • 支持量化(大幅降低显存 / 内存占用)
  • LM Studio、Ollama、llama.cpp 都能吃

也就是说:👉 想在本地跑模型,GGUF 基本就是通行证


二、把微调的模型导出成 GGUF

如果是用 Unsloth 微调的,直接一行代码搞定:

ini 复制代码
model.save_pretrained_gguf(
    "my_model_gguf",
    tokenizer,
    quantization_method="q4_k_m"
)

常见几个选择你可以这么理解:

  • q4_k_m:默认推荐,体积小、速度快,本地跑最舒服
  • q8_0:质量更好,体积也更大
  • f16:接近原始精度,但又大又慢

一般来说,直接用 q4_k_m 就够了。如果还想分享模型,也可以直接推到 Hugging Face:

ini 复制代码
model.push_to_hub_gguf(
    "hf_username/my_model_gguf",
    tokenizer,
    quantization_method="q4_k_m"
)

三、把 GGUF 丢进 LM Studio

这里有三种方式,但最稳的是 CLI。

方式1:一行命令导入(就这句)

arduino 复制代码
lms import /path/to/model.gguf

如果你不想移动原文件:

css 复制代码
lms import /path/to/model.gguf --copy

导入完成后,打开 LM Studio:👉 "我的模型"里就能看到它了


方式2:手动放文件(容易踩坑)

路径要对:

javascript 复制代码
~/.lmstudio/models/publisher/model/model.gguf

就是要注意版本:

但这个方式很容易结构写错,优先用 lms import


四、直接在 LM Studio 里跑起来

打开 LM Studio → Chat 页面:

  1. 打开模型加载器

  2. 选择你的模型

  3. 调整参数(可选)

    • GPU offload
    • context length
  4. 开始聊天

到这里,其实已经能用了。


五、进阶玩法:把模型当本地 API

这一步才是很多人真正想要的。

LM Studio 可以直接变成一个 OpenAI 兼容接口

打开:👉 Developer(开发者)面板 → 启动本地服务

默认地址:

bash 复制代码
http://localhost:1234/v1

1、先测一下模型有没有起来

bash 复制代码
curl http://localhost:1234/v1/models

2、用 Python 调用(直接当 OpenAI 用)

ini 复制代码
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio",
)

resp = client.chat.completions.create(
    model="your-model-id",
    messages=[
        {"role": "user", "content": "来一句测试"}
    ],
    temperature=0.7,
)

print(resp.choices[0].message.content)

3、CURL 也能直接打

arduino 复制代码
curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "your-model-id",
    "messages": [
      {"role": "user", "content": "Say this is a test!"}
    ]
  }'

六、几个最常见的坑

这部分很关键,基本 80% 的问题都在这里。

1、输出乱码 / 一直重复

核心原因:提示模板不匹配

解决方式:

  • 打开模型设置 ⚙️
  • 手动设置 Prompt Template
  • 或在聊天侧边栏强制启用模板

2、模型导入了但看不到

优先用:

arduino 复制代码
lms import

不要手动乱放路径。


3、跑不动 / 很卡

可以这样调:

  • 换更小量化(Q4)
  • 减小 context length
  • 调整 GPU offload

七、一整套流程,本质

其实你可以把它抽象成一个标准链路:

复制代码
微调模型
   ↓
导出 GGUF
   ↓
本地加载(LM Studio)
   ↓
对话 or API 服务

这条链路一旦打通,你手里的模型就不再是"文件",而是一个可以被调用、被集成、被产品化的能力。

很多人卡在"模型很强", 真正拉开差距的是:

👉 谁能把模型变成接口,再变成产品,再塞进流程里跑起来

LM Studio 这一层,其实就是把模型接入现实世界的第一步。

以上就是本次分享。我是安东尼(github: TUARAN),持续关注大模型应用、AI工程化与自动化系统。欢迎一起交流 OpenClaw、Agent、数字员工 等实践,也欢迎共创 《前端周刊》 、加入 博主联盟加我或进群,一起做点有意思的 AI 项目。

相关推荐
夜郎king7 小时前
基于 QGIS 的经销网点空间制图:张雪机车全国门店可视化案例
人工智能·qgis·空间可视化·张雪机车·经销网点制图
chools7 小时前
Java后端拥抱AI开发之个人学习路线 - - Spring AI【第四期】(Tool + MCP)
java·人工智能·学习·spring
薛定猫AI7 小时前
【深度解析】Hermes Agent:用“提示反向传播”打造可自我进化的 AI 智能体
人工智能
亦暖筑序7 小时前
多轮对话的记忆心脏:ChatMemory 滑动窗口原理
java·人工智能
AI成长日志7 小时前
【GitHub开源项目专栏】AI推理优化框架深度解析(下):TGI与TensorRT-LLM对比实战
人工智能·开源·github
特别关注外国供应商7 小时前
SSH 的 PrivX OT 工业安全远程访问 (ISRA) 被 分析机构 Industrial Cyber 认可
人工智能·网络安全·ssh·特权访问管理·工业安全远程访问·privx·ot 访问安全
独隅7 小时前
Keras 的主要特点和适用场景
人工智能·深度学习·keras
车斗7 小时前
连载(6):《万物皆事件(AE):“怀特海过程”的实现与“映射哲学”的形式化证明》—— 面向AI的智能体特性——统一的可信智能架构
人工智能·可信ai·aiae·万物皆事件·怀特海·时空引擎
FluxMelodySun8 小时前
机器学习(二十九) 稀疏表示与字典学习(LASSO算法、KSVD算法、奇异值分解)
人工智能·算法·机器学习
fzil0018 小时前
为什么 Claude Code 选择 Bun 而非 Node.js?—— 运行时选型的技术考量
人工智能