人工智能基础知识笔记二十八：几款有用的LLM管理工具

1、介绍

有时为了信息安全的需要，可能需要在本地运行一些LLM，而运行和管理这些LLM就需要一些工具的支持才行。本篇文章就是介绍几款用过的LLM管理工具，主要包括：ollama、LM Studio、AnythingLLM和open-webui。

2、ollama

2.1 简介

Ollama 是一个开源框架和工具集，专门用于在本地计算机（从个人笔记本电脑到服务器）上快速部署和运行各种开源 LLM。可以从https://ollama.com/下载，支持主要的操作系统，包括MAC、Windows和Linux，它的主要作用：

简化部署 ：只需一行命令（如 ollama run llama3）就能自动下载、配置并启动一个模型，无需手动处理复杂的依赖和环境。
统一管理：可以轻松地拉取、运行、切换、删除不同的模型，并用统一的方式与它们交互。
性能优化：内置了优化，特别是对 macOS 和 Linux 的支持非常好。它利用量化技术，将庞大的模型"瘦身"，使其能在消费级硬件（甚至没有独立显卡的电脑）上相对流畅地运行。
提供API ：运行后，它会提供一个类似 OpenAI 格式的本地 API 端点（通常位于 http://localhost:11434），允许其他应用（如聊天界面、代码编辑器插件、自动化脚本）来调用这个本地模型。

2.2、常用命令

|------------------------------------------|---------------------------------------|-------------------------------------------|
| 命令 | 作用 | 示例 |
| ollama run <模型名> | 拉取（如果本地没有）并运行指定模型，进入交互式对话。 | ollama run llama3 |
| ollama pull <模型名> | 拉取模型到本地，但不运行。 | ollama pull qwen2:7b |
| ollama list | 列出本地已下载的所有模型。 | ollama list |
| ollama ps | 显示当前正在运行的模型及其资源占用。 | ollama ps |
| ollama stop <模型名> | 停止一个正在运行的模型。 | ollama stop llama3 |
| ollama rm <模型名> | 删除本地的一个模型（需要先停止）。 | ollama rm qwen2:7b |
| ollama cp <源模型名> <目标模型名> | 复制一个模型，创建一个新的副本（可用于创建自定义模型的基础）。 | ollama cp llama3 myllama3 |
| ollama show <模型名> --license等 | 显示模型的详细信息，如许可证、模版、参数等。 | ollama show myllama3 |
| ollama create <模型名> -f <Modelfile路径> | 使用Modelfile创建一个自定义模型。 | ollama create my-assistant -f ./Modelfile |
| ollama serve | 启动Ollama服务（通常Ollama以后台服务运行，此命令可手动启动）。 | ollama serve |

运行之后，可以通过访问 URL：http://localhost:11434/查看ollama是否真正运行起来：

2.3、使用ollama的示例代码

可以参考 https://blog.csdn.net/jimmyleeee/article/details/155503056。

3、LM Studio

3.1、简介

LM Studio 是一款面向开发者和AI爱好者的本地大语言模型桌面应用程序 ，提供图形化界面让你在个人电脑上轻松运行各种开源大模型。它是把复杂的技术细节包装成"开箱即用"体验的本地AI桌面工具，特别适合不想折腾命令行的用户快速上手和实验各种开源大模型。可以从https://lmstudio.ai/ 下载安装。

3.2、用法

直接在Windows系统运行程序，如下：

在顶部中央位置【Select a model to load】，可以选择需要加载的模型，和ollama的ollama pull <模型名>一样，把模型加载到本地。

模型加载成功之后，会在右侧显示模型的具体信息，然后就可以开始通过红色圆圈里的Chat和大模型进行Chat了。

服务器的信息可以通过Server Settings查看：默认 Status Running是disable，需要手工Enable一下：

然后，就可以通过URL http://localhost:1234/v1/models 查看是否可以通过API访问：

3.3、使用LM Studio的示例代码

python 复制代码

import requests

# LM Studio 服务器的 OpenAI 兼容 API 地址
url = "http://localhost:1234/v1/chat/completions"

# 构建请求数据
data = {
    "model": "gemma-3-4b",  # 这个名称不重要，LM Studio 会使用当前加载的模型
    "messages": [
        {"role": "user", "content": "如何学习AI？给初学者三条建议"}
    ],
    "temperature": 0.7,
    "max_tokens": 500
}

# 发送请求
response = requests.post(url, json=data)

# 检查响应
if response.status_code == 200:
    result = response.json()
    answer = result["choices"][0]["message"]["content"]
    print("回答:", answer)
else:
    print(f"请求失败: {response.status_code}")
    print(response.text)

在使用的过程中，虽然LM Studio的UI工具使用起来很方便，同样的机器，感觉性能比较差一些。

4、其他工具

Ollama提供命令行工具访问，LM Studio提供UI工具，这两款工具基本上可以满足绝大部分的需求了。在本章再简单介绍几个比较流行的工具，有兴趣的可以下载工具去试试。

4.1、 AnythingLLM

AnythingLLM 是一款企业级、全栈式的私有化 ChatGPT 替代方案，核心功能是让您用自己的文档构建专属知识库，并通过对话进行智能查询。下载网站地址：https://anythingllm.com/desktop。

核心定位：

"基于自有文档的私有化 ChatGPT + 企业级知识库管理系统"

主要特征：

特性	说明
📚 多格式文档支持	直接上传 PDF、Word、Excel、PPT、TXT、Markdown、图片（OCR）、网页链接、音频（转录）等
🔍 智能检索增强（RAG）	自动分割、向量化文档内容，精准检索相关片段生成回答
🏢 多工作区管理	为不同团队/项目创建独立的知识库和工作空间
👥 多用户与权限控制	完整的用户系统，支持管理员、成员等角色权限管理
🔄 多模型后端支持	可连接 Ollama、LM Studio、OpenAI API、Azure OpenAI、Anthropic、本地 HuggingFace 模型等
💬 多样化对话模式	支持普通对话、基于文档的问答、混合模式
🚀 一键部署	提供 Docker 容器和桌面版，部署简单
🔒 完全私有化	所有数据（文档、向量、对话）均存储在本地/自有服务器

4.2、 OpenWebUI

Open WebUI （原名 Ollama WebUI）是一款开源、现代化的 Web 界面，专为本地大语言模型设计，提供类似 ChatGPT 的聊天体验。关于OPENWebUI可以参考：https://docs.openwebui.com/getting-started/quick-start/，可以通过docker直接加载，。

加载之后注意访问方式：

核心定位：

"ChatGPT 式的本地 AI 聊天界面，功能丰富且易于部署"

主要特征：

特性	说明
🌐 现代 Web 界面	类似 ChatGPT 的直观聊天界面，支持 Markdown、代码高亮、数学公式渲染
🤖 多后端支持	原生支持 Ollama（默认），也支持 OpenAI API、OpenRouter、LM Studio 等后端
📁 多模型切换	轻松在多个本地模型间切换，无需重启应用
💬 对话管理	完整的对话历史记录、重命名、搜索、导出/导入功能
🖼️ 多模态支持	支持图像上传和视觉模型（如 LLaVA）的图片分析
📝 提示词模板	内置常用提示词模板库，支持自定义模板
🔌 插件系统	支持扩展插件（如联网搜索、知识库集成等）
🔧 高级功能	模型参数调节、RAG（检索增强生成）功能、角色预设
🚀 一键部署	提供 Docker、Kubernetes 部署，也支持直接安装

5、总结

5.1、工具比较

维度	Ollama	LM Studio	Open WebUI	AnythingLLM
核心定位	本地LLM命令行管理器	本地LLM桌面GUI应用	本地LLMWeb聊天界面	企业级文档知识库系统
核心功能	模型下载、运行、管理	图形化模型管理、运行、参数调节	现代化Web聊天界面、对话管理	文档上传、向量化、RAG问答、多工作区
界面类型	命令行终端	桌面应用程序	Web浏览器界面	Web浏览器界面
部署方式	命令行安装/Docker	桌面安装包	Docker/直接安装	Docker/桌面版/专业版
模型支持	专为Ollama优化的模型	大部分GGUF格式模型	多后端：Ollama、OpenAI API等	多后端：Ollama、OpenAI等
数据管理	模型文件管理	模型文件管理	对话历史管理	文档知识库、向量数据库、用户数据
多用户支持	❌	❌	✅（需配置）	✅（完整权限系统）
文档处理	❌	❌	有限（需插件）	✅核心功能（多格式支持、OCR、转录）
聊天体验	基础命令行交互	基础聊天界面	ChatGPT式体验（Markdown、代码高亮）	文档问答专用界面
优势	轻量、快速、脚本友好	图形化、零配置、适合初学者	功能丰富、现代界面、易部署	专业文档处理、企业级功能
局限性	无图形界面	功能相对简单	需要额外部署后端	相对复杂、资源需求较高
开源状态	开源免费	免费使用	MIT开源	开源版 + 商业版
典型用户	开发者、终端爱好者	个人用户、快速实验者	团队共享、Web界面爱好者	企业、团队、知识密集型用户
一句话总结	"模型管理专家"	"开箱即用体验者"	"Web版ChatGPT皮肤"	"私有化知识库专家"

5.2、我应该选择哪个工具？

你的需求	推荐工具	原因
只想快速在本地运行模型	LM Studio	下载即用，无需配置，图形界面直观
需要在脚本/自动化中使用模型	Ollama	命令行友好，易于集成到工作流
想要类似ChatGPT的Web界面	Open WebUI	功能丰富，界面现代，支持多用户
需要基于文档进行问答	AnythingLLM	专门为文档知识库设计，RAG功能完整
团队协作使用	Open WebUI 或 AnythingLLM	支持多用户，易于共享访问
企业级知识管理	AnythingLLM	完整权限系统、工作区管理
测试比较多个模型	LM Studio 或 Open WebUI	图形化界面方便切换比较

5.3、技术架构对比

组件	Ollama	LM Studio	Open WebUI	AnythingLLM
前端技术	无（CLI）	桌面应用（Electron）	Vue.js（Web）	React（Web）
后端技术	Go语言服务	本地服务	Python FastAPI	多种技术栈
数据存储	模型缓存	模型缓存	SQLite/PostgreSQL	SQLite/向量数据库
通信协议	REST API	本地进程通信	HTTP/WebSocket	HTTP/WebSocket

5.4、组合使用建议

实际上，这些工具可以组合使用发挥更大威力：

最佳实践组合：

text

复制代码

Ollama（模型运行） + OpenWebUI（界面交互）
↓
强大的本地ChatGPT替代方案

专业工作流：

text

复制代码

LM Studio（模型测试选型） → Ollama（生产环境部署） → AnythingLLM（文档知识库应用）

个人学习路线：

text

复制代码

LM Studio（入门体验） → OpenWebUI（日常使用） → Ollama（深入了解）

5.5、总结

工具	本质	最适合	核心价值
Ollama	模型运行时引擎	开发者、自动化脚本	轻量高效的模型管理
LM Studio	桌面应用	个人用户、快速实验	零配置的图形化体验
Open WebUI	Web界面框架	团队共享、Web爱好者	现代化的聊天交互界面
AnythingLLM	知识库应用平台	企业、文档密集型用户	私有化文档智能问答系统

人工智能基础知识笔记二十八：几款有用的LLM管理工具

1、介绍

2、ollama

2.1 简介

2.2、常用命令

2.3、使用ollama的示例代码

3、LM Studio

3.1、简介

3.2、用法

3.3、使用LM Studio的示例代码

4、其他工具

4.1、 AnythingLLM

4.2、 OpenWebUI

5、 总结

5.1、 工具比较

5.2、 我应该选择哪个工具？

5.3、技术架构对比

5.4、组合使用建议

5.5、总结

5、总结

5.1、工具比较

5.2、我应该选择哪个工具？