第一步:安装 NVIDIA 驱动与 CUDA 环境
首先要让 Ubuntu 识别并能调用你的 3060 显卡。
1.安装驱动:
bash
sudo ubuntu-drivers install
sudo reboot # 重启以生效
重启后,输入 nvidia-smi。如果看到 3060 的显卡信息,说明驱动 OK。
2.安装构建工具与 CUDA Toolkit:
bash
sudo apt update
sudo apt install -y build-essential cmake git libcurl4-openssl-dev nvidia-cuda-toolkit
确认编译器已就绪:输入 nvcc --version。
第二步:编译 llama.cpp (开启 CUDA 支持)
这是核心步骤,必须开启显卡加速选项。
bash
# 1. 克隆代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# 2. 配置并构建(指定开启 CUDA)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j $(nproc)
第三步:运行与测试
将你的 *.gguf 模型文件放入 models 文件夹。
bash
export LD_LIBRARY_PATH=/opt/llama.cpp/build/bin:$LD_LIBRARY_PATH
/opt/llama.cpp/build/bin/llama-server \
-m /opt/llama.cpp/models/*.gguf \
--port 8080 \
--host 0.0.0.0 \
-ngl 33 \
--ctx-size 8192