Qwopus3.6-27B-Coder-MTP-GGUF 启动参数记录

Qwopus3.6-27B-Coder-MTP-GGUF

Qwopus3.6-27B-v2-MTP-GGUF

bash 复制代码
./llama-server \
  --model /data/Qwopus3.6-27B-Coder-MTP-GGUF/Qwopus3.6-27B-Coder-MTP-Q8_0.gguf \
  --alias Qwopus3.6-27B-Coder-MTP \
  --mmproj /data/Qwopus3.6-27B-Coder-MTP-GGUF/mmproj-F32.gguf \
  --host 0.0.0.0 \
  --port 8000 \
  --ctx-size 262144 \
  --n-gpu-layers 99 \
  --parallel 2 \
  --batch-size 2048 \
  --ubatch-size 2048 \
  --cache-ram 0 \
  --cache-reuse 512 \
  --top-k 20 \
  --temperature 0.5 \
  --rope-scaling yarn \
  --cont-batching \
  --api-key sk-bigai-Qwopus3.6-27B 

没研究明白thinking怎么关,--reasoning off加了这个Claude code调用就循环 🤮

===============================

本地Claude code,settings.json配置:

版本 V2.1.140

bash 复制代码
{
  "env": {
    "ANTHROPIC_BASE_URL": "http://10.109.148.72:8087",
    "ANTHROPIC_AUTH_TOKEN": "sk-exqy2ZHw_O--8C7o9SwGIA",
    "ANTHROPIC_MODEL": "Qwopus3.6-35B-A3B",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "Qwopus3.6-27B-Coder-MTP",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "Qwopus3.6-35B-A3B",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "Qwopus3.6-35B-A3B",
    "CLAUDE_CODE_DISABLE_WEB_SEARCH": "1",
    "CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS": "0",
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
 "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "disable_server_tools": "true",
    "disable_tools": "false",
    "CLAUDE_CODE_DEBUG": "1",
    "ANTHROPIC_LOG_LEVEL": "debug",
    "disable_nonessential_traffic": "true"
  },
  "language": "简体中文",
  "skipDangerousModePermissionPrompt": true,
  "theme": "auto",
  "verbose": true,
  "effortLevel": "high",
  "model": "opus"
}

下面变量可以解决kv cache丢失复用失败问题

export CLAUDE_CODE_ATTRIBUTION_HEADER=0 #关闭计费头

Claude Code v2.1.36+ 默认在每次请求中注入包含时间戳的 Attribution Header,导致 prompt 前缀逐次变化,LCP 相似度降至 0.086(远低于 0.1 阈值),KV Cache 复用完全失效。

原文链接:https://blog.csdn.net/wwwwwwgame/article/details/160804263