llama.cpp 启动脚本

1、下载最新版本的llama.cpp

GitHub - ggml-org/llama.cpp: LLM inference in C/C++ · GitHub

复制代码
2、解压

3、下载模型
比如下载gemma 4 12B,注意,12G显存左右需要下载这两个

https://huggingface.co/ggml-org/gemma-4-12B-it-GGUF/tree/main

3、在llama.cpp根目录下创建文件夹models,把刚下载的两个大模型文件放进去;

4、在llama.cpp根目录下创建bat文件,内容如下,
@echo off
chcp 65001 >nul
title Gemma 4 启动器

:menu
cls

echo.
echo ==========================================
echo           Gemma 4 智能启动菜单
echo ==========================================
echo.
echo 【纯文本模式】
echo.
echo 1. 6GB显存   (Gemma 4 4B Q4)
echo 2. 8GB显存   (Gemma 4 12B IQ2)
echo 3. 12GB显存  (Gemma 4 12B Q4)
echo 4. 16GB显存  (Gemma 4 12B Q6)
echo 5. 24GB显存  (Gemma 4 12B Q8)
echo.
echo 【图片理解模式】
echo.
echo 6. 12GB显存 + 图片理解
echo 7. 16GB显存 + 图片理解
echo 8. 24GB显存 + 图片理解
echo.
echo 【极限模式】
echo.
echo 9. BF16视觉模式 (4090/5090推荐)
echo.
echo 0. 退出
echo.

set /p choice=请选择模式:

if "%choice%"=="1" goto VRAM6
if "%choice%"=="2" goto VRAM8
if "%choice%"=="3" goto VRAM12
if "%choice%"=="4" goto VRAM16
if "%choice%"=="5" goto VRAM24
if "%choice%"=="6" goto MM12
if "%choice%"=="7" goto MM16
if "%choice%"=="8" goto MM24
if "%choice%"=="9" goto BF16
if "%choice%"=="0" exit

goto menu

:VRAM6
cls
echo 启动 Gemma 4 4B Q4...
llama-server ^
-m models\gemma-4-4B-it-Q4_K_M.gguf ^
-ngl 999 ^
-c 8192 ^
--host 127.0.0.1
goto end

:VRAM8
cls
echo 启动 Gemma 4 12B IQ2...
llama-server ^
-m models\gemma-4-12B-it-IQ2_XS.gguf ^
-ngl 999 ^
-c 8192 ^
--host 127.0.0.1
goto end

:VRAM12
cls
echo 启动 Gemma 4 12B Q4...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:VRAM16
cls
echo 启动 Gemma 4 12B Q6...
llama-server ^
-m models\gemma-4-12B-it-Q6_K.gguf ^
-ngl 999 ^
-c 32768 ^
--host 127.0.0.1
goto end

:VRAM24
cls
echo 启动 Gemma 4 12B Q8...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:MM12
cls
echo 启动 Gemma 4 12B Q4 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:MM16
cls
echo 启动 Gemma 4 12B Q6 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q6_K.gguf ^
--mmproj models\mmproj-F16.gguf ^
-ngl 999 ^
-c 32768 ^
--host 127.0.0.1
goto end

:MM24
cls
echo 启动 Gemma 4 12B Q8 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:BF16
cls
echo 启动 Gemma 4 BF16 视觉模式...
llama-server ^
-m models\gemma-4-12B-it-BF16.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-bf16.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:end

echo.
echo ==========================================
echo 服务启动完成
echo.
echo 浏览器打开:
echo http://127.0.0.1:8080
echo ==========================================
echo.

pause
相关推荐
AlfredZhao2 天前
生产环境里,为什么不建议把普通端口直接暴露到公网?
linux·https·443·80
武子康2 天前
调查研究-200 llama.cpp b9754:一次很小但很关键的 Agent 工具调用修复
人工智能·agent·llama
戴为沐3 天前
Linux内存扩容指南
linux
zylyehuo3 天前
Linux 彻底且安全地删除文件
linux
用户805533698034 天前
主线 U-Boot 上 RK3506:和闭源 rkbin 拔河的三个隐性契约
linux·嵌入式
用户034095297914 天前
linux fcitx 5 雾凇拼音 设置在中文输入法下仍然输入英文标点
linux
Web3探索者6 天前
可视化服务器管理和传统命令行区别是什么?新手教程:Linux 运维到底该用图形界面还是 SSH 命令行?
linux·ssh
zylyehuo6 天前
Linux系统中网线与USB网络共享冲突
linux
Sokach10157 天前
Linux Shell 脚本从零到能用:一个新手的一天学习总结
linux
AlfredZhao7 天前
Docker 容器时区不对,`timedatectl` 不存在怎么办?
linux·timezone