LlamaGPT一个自托管、离线、类似 ChatGPT 的聊天机器人,由 Llama 2 提供支持。100% 私密,不会有任何数据离开你的设备。
推荐:用 NSDT编辑器 快速搭建可编程3D场景
1、如何安装LlamaGPT
LlamaGPT可以安装在任何x86或arm64系统上。
首先确保你已安装 Docker。然后,克隆此存储库并 进入目录:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
现在可以使用以下任何模型运行 LlamaGPT,具体取决于你的硬件:
模型大小 | 使用的模型 | 所需的最低 RAM | 如何启动 LlamaGPT |
---|---|---|---|
7B | Nous Hermes Llama 2 7B (GGML q4_0) | 8GB | docker compose up -d |
13B | Nous Hermes Llama 2 13B (GGML q4_0) | 16GB | docker compose -f docker-compose-13b.yml up -d |
70B | Meta Llama 2 70B Chat (GGML q4_0) | 48GB | docker compose -f docker-compose-70b.yml up -d |
可以通过 http://localhost:3000
访问 LlamaGPT。
要停止 LlamaGPT,请运行:
docker compose down
2、基准测试
我们在以下硬件上测试了 LlamaGPT 模型,并使用默认系统提示和用户提示:"宇宙如何膨胀?" 温度设置为 0 时保证确定性结果。 生成速度是前 10 代的平均值。
- Nous Hermes Llama 2 7B (GGML q4_0)
设备 | 生成速度 |
---|---|
M1 Max MacBook Pro (10 64GB RAM) | 8.2 令牌/秒 |
Umbrel Home (16GB RAM) | 2.7 令牌/秒 |
Raspberry Pi 4 (8GB RAM) | 0.9 令牌/秒 |
- Nous Hermes Llama 2 13B (GGML q4_0)
设备 | 生成速度 |
---|---|
M1 Max MacBook Pro (64GB RAM) | 3.7 令牌/秒 |
Umbrel Home (16GB RAM) | 1.5 令牌/秒 |
- Meta Llama 2 70B 聊天 (GGML q4_0)
不幸的是,我们还没有这个模型的任何基准。