1. Docker build 504 超时 --- goproxy.cn sumdb 偶发故障
国内经典问题,Go 默认强制校验模块哈希(防供应链攻击),但国内访问不了 sum.golang.org,只能依赖 goproxy.cn 做中转。goproxy.cn 本身不是 100% 可用,一旦它的 sumdb 代理抽风,构建就挂。 CI 执行 docker build 时,在安装 grpc-health-probe 步骤卡住后报错:
go
go: downloading github.com/spiffe/go-spiffe/v2 v2.x.x
verifying github.com/spiffe/go-spiffe/v2@v2.x.x: 504 Gateway Timeout
解决方案:
ini
RUN CGO_ENABLED=0 GOOS=linux \
GOPROXY=https://goproxy.cn,direct \
GOSUMDB=off \
go install github.com/grpc-ecosystem/grpc-health-probe@v0.4.25
风险点:投毒了你就完蛋了,但是当前版本已经上传到内部的镜像里面了。
2. Go 版本不匹配导致 CI 编译失败
小问题,统一所有服务 Dockerfile 的 builder 阶段为 golang:1.25-alpine:(go-zero 要求版本)
3. ImagePullBackOff --- cnb-registry-secret 权限不足
问题现象: Pod 状态卡在 ImagePullBackOff,describe pod 显示:
vbnet
Failed to pull image "docker.cnb.cool/xxxx.com-2025/xxxl:latest":
rpc error: code = Unknown desc = failed to pull and unpack image:
unauthorized: authentication required
因为 docker pull 的时候没有 personal access token
markdown
解决方案
1. 去 cnb.cool 后台 → 组织设置 → 给 `cnb-registry-secret` 对应用户添加 `docker:pull` 权限
2. 重新生成 token
3. 重建 k8s secret:
ini
kubectl -n production delete secret cnb-registry-secret
kubectl -n production create secret docker-registry cnb-registry-secret \
--docker-server=docker.cnb.cool \
--docker-username=cnb \
--docker-password=<新token> \
--docker-email=dev@cnb.cool
kubectl -n production rollout restart deploy/money-controll
碎碎念: 现在职责变得模糊化,不过也是好事,从单单写业务然后去做一些运维相关的东西