6.AI大模型-搭建本地大模型服务体系

内容参考于：图灵AI大模型全栈

本地运行大模型用到的工具是Ollama

Ollama官⽹：https://ollama.com/

点击下图红框

选择平台，我的电脑是Windows系统这里就下载Windows的版本，它的下载国内网络可能需要梯子

点击下图红框就可以安装了

安装完成后，点击下图红框

然后点击下图红框，修改一下模型下载位置

改完之后点击下图红框保存

然后回到Ollama的官网，点击下图红框的Models可以看到所有公开的大模型

这里安装Deepseek-r1模型

下图红框位置是当前模型运行起来需要的显存（苹果的mac电脑显存和内存是一体的，Windows电脑只能看显卡的显存）

我的电脑显卡是10Gb显存

然后打开一个控制台

输入：ollama run deepseek-r1:14b，如下图它就会下载deepseek-r1:14b这个模型，1b表示十亿参数，这里是140亿参数，参数越多模型能力越强

下载完成

现在的显存，可以看到快满了

共享GPU内存也可以使用，如下图这里运行的32b的，共享内存的大小是我们内存的一半，我的电脑是64G它的共享内存就是32G，如果想跑更大的模型，可以尝试添加内存，如果共享内存不够Ollama会自动把大模型部分数据放到系统内存（就是我们的内存里）

这时可以问ai问题了

也可以使用Python来调用我们的Ollama中安装的大模型，代码怎么写？直接让我们安装的ai给我生成，如下图红框给我的代码

可以正常运行

到这就把本地模型安装好了，然后需要搭建一个服务体系

Docker：服务体系的安装使用Docker，它可以很方便的让我们安装各种环境

Docker官网：https://www.docker.com/

安装点击OK，全部使用默认选项，如果不明白里面的内容直接截图给ai

然后它就开始安装了

安装完成，点击下图的蓝色按钮会重启电脑，也需要重启电脑Docker才能安装完成

重启后双击桌面图标运行

然后点击下图红框

点击下图红框不登录

如果出现下图内容，说明WSL版本太低没办法运行Docker

打开控制台（管理员），输入 wsl --update，更新一下就可以了

然后点击下图红框按钮，它会重新检测

然后就进入了Docker

进入之后，先改一下环境下载地址，它默认是国外的，这添加国内的
json 复制代码
{
"builder": {
 "gc": {
   "defaultKeepStorage": "20GB",
   "enabled": true
 }
},
"experimental": false,
"registry-mirrors": [
 "https://docker.mirrors.ustc.edu.cn",
 "https://hub-mirror.c.163.com",
 "https://reg-mirror.qiniu.com",
 "https://dockerproxy.com"
]
}

到这Docker就安装完成了，接下来开始安装环境，首先是网关One-api

One-api官网地址：https://github.com/songquanpeng/one-api

我们使用Docker安装，不使用官网安装

docker命令
shell 复制代码
docker run --name one-api -d --restart always -p 3000:3000 -e TZ=Asia/Shanghai -v C:\docker-data\one-api:/data justsong/one-api
命令说明
shell 复制代码
# 一键部署 One-API 容器（注释不影响命令执行，直接复制运行）
docker run --name one-api  # 容器名称：one-api，方便后续管理
-d                        # 后台运行容器，不占用终端窗口
--restart always          # 自动重启：Docker启动/容器崩溃时自动运行
-p 3000:3000              # 端口映射：电脑3000端口 → 容器3000端口
-e TZ=Asia/Shanghai       # 设置容器时区为北京时间
-v C:\docker-data\one-api:/data  # 数据持久化：电脑文件夹挂载到容器，数据永不丢失
justsong/one-api          # One-API 官方Docker镜像
如果可以翻墙，可以直接使用图像界面来安装，如果不能翻墙那就使用命令（命令可以指定下载地址）

然后输入justsong/one-api，点击下图红框，它就会下载

如下图下载完成

然后还想下载别的就点击下图红框位置

然后点击下图红框运行one-api，Volumes（配置数据持久化，协助Dockers后可以让数据还存在）和Environment variables（添加时区环境变量）我们做学习这里用不到

如下图红框one-api就运行了

使用浏览器输入127.0.0.1:3000可以访问one-api

它需要先登录，默认管理员账号：root，密码：123456

登录后先创建一个令牌

如下图，注意点击提交后页面不会刷新，需要再次点击令牌

创建好令牌后点击下图红框，可以复制令牌，后面我们要用Python调用它

然后点击渠道，添加一个新渠道，这个渠道就是用来设置大模型的，我们设置好，就只需要访问one-api，然后one-api通过我们设置的渠道去访问多个大模型，这样形成了一个网关的功能

如下图红框的设置，注意我们Ollama没有密鈅，如果调用其它的比如豆包、通义千问这种的，是需要我们去它们的官网申请密鈅的，注意这个代理，http://host.docker.internal:11434，这个http://host.docker.internal是Docker用来访问我们电脑网络的域名

模型名，点击填入后就可以了，然后点击提交，注意点击提交后，也没不会刷新，需要再次点击渠道才可以

然后点击测试

如下图，它有点慢，跑了两分钟

然后让我们安装的模型生成Python调用one-api的代码（如果本地安装的模型很笨就使用我们免费的ai，比如豆包），如下图我通过访问one-api调用了我们本地的大模型

现在我们的系统架构就变成了这样

上方安装了One-api，我们让大模型生成了一个Python代码，调用One-api，我们的Python就相当于用户，然后现在有开源的用户系统FastGPT，有很多这样的系统，这里就使用FastGPT

FastGPT官网： https://github.com/labring/FastGPT

官方教学：https://doc.fastgpt.io/zh-CN/guide/getting-started

架构图：

这里也使用Docker安装，这个FastGPT的安装以官网为准，官网写的很清晰，它的变化很快，文章不会及时更新

需要下载两个文件如下图红框，下载地址：https://doc.fastgpt.io/zh-CN/self-host/deploy/docker

config.json，把下图红框的内容复制下来，然后在我们电脑某文件夹中创建名字为config.json的文件，然后使用记事本打开，把下图红框的内容复制进去

yml文件也是一样，它的文件名要叫docker-compose.yml

yml文件中需要修改，下图红框的这一行，它之前是写死的ip地址，要改成域名（Docker中安装了fastgpt-minio，域名就是fastgpt-minio）

然后我们需要安装一个向量模型，用来把我们的文字转出ai认识的知识库

ollama pull nomic-embed-text

安装好向量模型后修改一下config.json文件，添加上这个模型，然后再添加上我们本地的deepseek-r1:14b
json 复制代码
{
"feConfigs": {
"lafEnv": " https://laf.run",
"mcpServerProxyEndpoint": ""
},
"systemEnv": {
"datasetParseMaxProcess": 10,
"vectorMaxProcess": 10,
"qaMaxProcess": 10,
"vlmMaxProcess": 10,
"tokenWorkers": 30,
"hnswEfSearch": 100,
"hnswMaxScanTuples": 100000,
"customPdfParse": {
 "url": "",
 "key": "",
 "doc2xKey": "",
 "textinAppId": "",
 "textinSecretCode": "",
 "price": 0
}
},
// 新增：本地Ollama大模型配置（deepseek-r1:14b）
"llmModels": [
{
 "model": "deepseek-r1:14b",
 "name": "DeepSeek R1 14B",
 "provider": "ollama",
 "baseUrl": "http://host.docker.internal:11434",
 "type": "chat"
}
],
// 新增：本地Ollama向量模型配置（知识库专用）
"vectorModels": [
{
 "model": "nomic-embed-text",
 "name": "Nomic向量模型",
 "provider": "ollama",
 "baseUrl": "http://host.docker.internal:11434",
 "type": "embedding"
}
]
}
如下图安装环境，安装时先把上方运行的one-api关掉

上图中指令来源

访问127.0.0.1:3000，如下图就可以看到FastGPT了

它的密码1234，账号是root