llama-本地推理大模型多模型同时运行

单模型

llama-server.exe -m "G:\AI-AI\LLM\stablediffusionv2.gguf" --port 8081

多模型

llama-server.exe --config_file <config_file>

复制代码
{
    "host": "0.0.0.0",
    "port": 8080,
    "models": [
        {
            "model": "models/OpenHermes-2.5-Mistral-7B-GGUF/openhermes-2.5-mistral-7b.Q4_K_M.gguf",
            "model_alias": "gpt-3.5-turbo",
            "chat_format": "chatml",
            "n_gpu_layers": -1,
            "offload_kqv": true,
            "n_threads": 12,
            "n_batch": 512,
            "n_ctx": 2048
        },
        {
            "model": "models/OpenHermes-2.5-Mistral-7B-GGUF/openhermes-2.5-mistral-7b.Q4_K_M.gguf",
            "model_alias": "gpt-4",
            "chat_format": "chatml",
            "n_gpu_layers": -1,
            "offload_kqv": true,
            "n_threads": 12,
            "n_batch": 512,
            "n_ctx": 2048
        },
        {
            "model": "models/ggml_llava-v1.5-7b/ggml-model-q4_k.gguf",
            "model_alias": "gpt-4-vision-preview",
            "chat_format": "llava-1-5",
            "clip_model_path": "models/ggml_llava-v1.5-7b/mmproj-model-f16.gguf",
            "n_gpu_layers": -1,
            "offload_kqv": true,
            "n_threads": 12,
            "n_batch": 512,
            "n_ctx": 2048
        },
        {
            "model": "models/mistral-7b-v0.1-GGUF/ggml-model-Q4_K.gguf",
            "model_alias": "text-davinci-003",
            "n_gpu_layers": -1,
            "offload_kqv": true,
            "n_threads": 12,
            "n_batch": 512,
            "n_ctx": 2048
        },
        {
            "model": "models/replit-code-v1_5-3b-GGUF/replit-code-v1_5-3b.Q4_0.gguf",
            "model_alias": "copilot-codex",
            "n_gpu_layers": -1,
            "offload_kqv": true,
            "n_threads": 12,
            "n_batch": 1024,
            "n_ctx": 9216
        }
    ]
}
相关推荐
Panesle2 小时前
开源轻量级语音合成和语音克隆模型:OuteTTS-1.0-0.6B
人工智能·语言模型·自然语言处理·开源·大模型·语音识别
摩尔线程14 小时前
推测解码算法在 MTT GPU 的应用实践
算法·语言模型·大模型·gpu算力·gpu·摩尔线程
在未来等你14 小时前
互联网大厂Java求职面试:云原生架构与AI应用集成解决方案
java·spring cloud·微服务·ai·云原生·kubernetes·大模型
脚踏实地的大梦想家18 小时前
【ICL】上下文学习
语言模型·大模型·prompt·提示词·上下文学习·提示词工程·icl
Mr.小海21 小时前
AI 商业化部署中,ollama 和 vllm 的选型对比
人工智能·大模型
人工智能培训1 天前
计算机视觉设计开发工程师学习路线
人工智能·学习·计算机视觉·大模型·transformer·ai大模型
为啥全要学1 天前
微调后的模型保存与加载
大模型·模型保存
庞德公2 天前
PARSCALE:大语言模型的第三种扩展范式
人工智能·计算机视觉·大模型·并行计算·moe
Panesle2 天前
谷歌medgemma-27b-text-it医疗大模型论文速读:多语言大型语言模型医学问答基准测试MedExpQA
人工智能·深度学习·语言模型·自然语言处理·开源·大模型
在未来等你2 天前
互联网大厂Java求职面试:企业知识库与AI大模型深度融合架构
java·ai·大模型·向量数据库·rag·分布式系统