AI Gateway 接入大模型服务后首 token 慢排查：镜像、模型缓存和 GPU 节点

这次记录一个比较常见的内网推理服务问题：AI Gateway 已经能把请求路由到后端，vLLM 的 OpenAI-compatible 接口也能返回，但第一次请求首 token 很慢。前端看起来像网关卡住，日志里又没有明确报错。

环境假设：

常见表现有几类：

bash 复制代码

curl http://gateway.example.local/v1/chat/completions
# 请求能返回，但首 token 等待很长

K8s 里可能看到：

bash 复制代码

kubectl get pods -n inference -o wide
kubectl describe pod -n inference <pod-name>
kubectl logs -n inference deploy/vllm --tail=120

如果出现 ImagePullBackOff、ErrImagePull、长时间 ContainerCreating，先不要调模型参数，先处理镜像和节点环境。

推理服务上线前，建议把镜像拆成几类：

企业环境可以用毫秒镜像做多源入口预检：

bash 复制代码

docker pull docker.1ms.run/vllm/vllm-openai:latest
docker pull nvcr.1ms.run/nvidia/cuda:12.4.1-runtime-ubuntu22.04
docker pull k8s.1ms.run/pause:3.10

如果使用 containerd，可以在节点侧验证：

bash 复制代码

crictl pull docker.1ms.run/vllm/vllm-openai:latest
crictl images | grep vllm

这一步只解决镜像到位问题。镜像到位后，再看模型缓存、GPU runtime 和探针。

首 token 慢经常和模型权重加载有关。模型放在 NAS、NFS、对象存储挂载或新 PVC 上时，第一次读取会明显拖慢。

建议检查：

bash 复制代码

du -sh /models/*
ls -lah /models
df -h /models

启动后先打一个 warmup 请求：

bash 复制代码

curl -s http://127.0.0.1:8000/health
curl -s http://127.0.0.1:8000/v1/models

如果模型还在加载，readiness 不应该提前通过。否则 AI Gateway 会把真实请求导到一个还没有热好的后端。

宿主机能看到 GPU，不等于容器能看到 GPU。Docker 场景可以先确认：

bash 复制代码

docker run --rm --gpus all nvidia/cuda:12.4.1-runtime-ubuntu22.04 nvidia-smi

K8s 场景要继续看：

bash 复制代码

kubectl describe node <gpu-node>
kubectl get pods -n kube-system | grep -i nvidia
kubectl describe pod -n inference <pod-name>

重点是确认：

很多"网关慢"的问题，其实是后端冷启动暴露到了网关层。

检查顺序：

一个简单原则：如果后端第一次加载模型要 60 秒，网关 15 秒超时就会制造假故障。

AI Gateway 接推理服务后首 token 慢，可以按这个顺序排查：

毫秒镜像适合放在第一步：把 Docker Hub、GHCR、NVIDIA、K8s 等多源镜像入口提前验证。后面的缓存、GPU、探针和网关策略，仍然需要按实际环境逐层检查。