1、下载最新版本的llama.cpp
GitHub - ggml-org/llama.cpp: LLM inference in C/C++ · GitHub
2、解压
3、下载模型
比如下载gemma 4 12B,注意,12G显存左右需要下载这两个
https://huggingface.co/ggml-org/gemma-4-12B-it-GGUF/tree/main
3、在llama.cpp根目录下创建文件夹models,把刚下载的两个大模型文件放进去;
4、在llama.cpp根目录下创建bat文件,内容如下,
@echo off
chcp 65001 >nul
title Gemma 4 启动器
:menu
cls
echo.
echo ==========================================
echo Gemma 4 智能启动菜单
echo ==========================================
echo.
echo 【纯文本模式】
echo.
echo 1. 6GB显存 (Gemma 4 4B Q4)
echo 2. 8GB显存 (Gemma 4 12B IQ2)
echo 3. 12GB显存 (Gemma 4 12B Q4)
echo 4. 16GB显存 (Gemma 4 12B Q6)
echo 5. 24GB显存 (Gemma 4 12B Q8)
echo.
echo 【图片理解模式】
echo.
echo 6. 12GB显存 + 图片理解
echo 7. 16GB显存 + 图片理解
echo 8. 24GB显存 + 图片理解
echo.
echo 【极限模式】
echo.
echo 9. BF16视觉模式 (4090/5090推荐)
echo.
echo 0. 退出
echo.
set /p choice=请选择模式:
if "%choice%"=="1" goto VRAM6
if "%choice%"=="2" goto VRAM8
if "%choice%"=="3" goto VRAM12
if "%choice%"=="4" goto VRAM16
if "%choice%"=="5" goto VRAM24
if "%choice%"=="6" goto MM12
if "%choice%"=="7" goto MM16
if "%choice%"=="8" goto MM24
if "%choice%"=="9" goto BF16
if "%choice%"=="0" exit
goto menu
:VRAM6
cls
echo 启动 Gemma 4 4B Q4...
llama-server ^
-m models\gemma-4-4B-it-Q4_K_M.gguf ^
-ngl 999 ^
-c 8192 ^
--host 127.0.0.1
goto end
:VRAM8
cls
echo 启动 Gemma 4 12B IQ2...
llama-server ^
-m models\gemma-4-12B-it-IQ2_XS.gguf ^
-ngl 999 ^
-c 8192 ^
--host 127.0.0.1
goto end
:VRAM12
cls
echo 启动 Gemma 4 12B Q4...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end
:VRAM16
cls
echo 启动 Gemma 4 12B Q6...
llama-server ^
-m models\gemma-4-12B-it-Q6_K.gguf ^
-ngl 999 ^
-c 32768 ^
--host 127.0.0.1
goto end
:VRAM24
cls
echo 启动 Gemma 4 12B Q8...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end
:MM12
cls
echo 启动 Gemma 4 12B Q4 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end
:MM16
cls
echo 启动 Gemma 4 12B Q6 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q6_K.gguf ^
--mmproj models\mmproj-F16.gguf ^
-ngl 999 ^
-c 32768 ^
--host 127.0.0.1
goto end
:MM24
cls
echo 启动 Gemma 4 12B Q8 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end
:BF16
cls
echo 启动 Gemma 4 BF16 视觉模式...
llama-server ^
-m models\gemma-4-12B-it-BF16.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-bf16.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end
:end
echo.
echo ==========================================
echo 服务启动完成
echo.
echo 浏览器打开:
echo http://127.0.0.1:8080
echo ==========================================
echo.
pause