11-裸金属算力中心：K8s的实际价值与“管一切“的体现

11-裸金属算力中心：K8s的实际价值与"管一切"的体现

在裸金属出租的算力中心，很多运维人员会问："我们卖的是裸金属服务器，K8s有啥用？" 这个问题非常好！让我用实际场景来解释K8s在裸金属出租场景下的真正价值。

1. 裸金属出租场景的真实需求

场景类比：

想象你是一个汽车租赁公司：

裸金属服务器 = 你出租的汽车本身
客户 = 租车的人
K8s = 你的车队管理系统

客户的需求：

"我租了车，但我不想自己开车，能不能给我配个司机？"（客户需要托管服务）
"我租了10辆车，能不能帮我统一调度？"（客户需要资源管理）
"车坏了怎么办？能不能自动换一辆？"（客户需要高可用）
"我只需要用1小时，能不能按小时计费？"（客户需要弹性计费）

你的需求（作为算力中心运维）：

"我需要监控所有出租服务器的状态"（监控系统）
"我需要记录所有操作日志"（日志系统）
"我需要给客户提供Web门户"（API服务）
"我需要自动化运维流程"（CI/CD系统）

2. K8s在裸金属出租场景下的三大价值

2.1 价值一：管理算力中心自己的服务

核心观点： 算力中心虽然卖的是裸金属，但算力中心自己也需要运行大量服务！

算力中心需要的服务：

1. 监控系统

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

apiVersion: apps/v1
kind: Deployment
metadata:
  name: prometheus
  namespace: monitoring
spec:
  replicas: 2
  selector:
    matchLabels:
      app: prometheus
  template:
    metadata:
      labels:
        app: prometheus
    spec:
      containers:
      - name: prometheus
        image: prom/prometheus:latest
        ports:
        - containerPort: 9090
        volumeMounts:
        - name: data
          mountPath: /prometheus
      volumes:
      - name: data
        persistentVolumeClaim:
          claimName: prometheus-pvc

为什么要用K8s管理监控？

✅ 自动重启：Prometheus挂了自动重启
✅ 负载均衡：多个Prometheus实例负载均衡
✅ 滚动更新：升级监控服务不中断
✅ 资源限制：防止监控服务占用过多资源

2. 日志系统（ELK Stack）

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

apiVersion: apps/v1
kind: Deployment
metadata:
  name: elasticsearch
  namespace: logging
spec:
  replicas: 3
  selector:
    matchLabels:
      app: elasticsearch
  template:
    metadata:
      labels:
        app: elasticsearch
    spec:
      containers:
      - name: elasticsearch
        image: docker.elastic.co/elasticsearch/elasticsearch:8.5.0
        env:
        - name: discovery.type
          value: single-node
        ports:
        - containerPort: 9200
        volumeMounts:
        - name: data
          mountPath: /usr/share/elasticsearch/data
      volumes:
      - name: data
        persistentVolumeClaim:
          claimName: elasticsearch-pvc

为什么要用K8s管理日志？

✅ 自动扩容：日志量大时自动增加节点
✅ 数据持久化：Pod重启数据不丢失
✅ 服务发现：其他服务自动发现日志服务
✅ 资源配额：控制日志系统资源使用

3. API服务

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

apiVersion: apps/v1
kind: Deployment
metadata:
  name: billing-api
  namespace: services
spec:
  replicas: 3
  selector:
    matchLabels:
      app: billing-api
  template:
    metadata:
      labels:
        app: billing-api
    spec:
      containers:
      - name: billing-api
        image: registry.example.com/billing-api:latest
        ports:
        - containerPort: 8080
        resources:
          limits:
            memory: "2Gi"
            cpu: "2"
          requests:
            memory: "1Gi"
            cpu: "1"
        livenessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 30
          periodSeconds: 10
        readinessProbe:
          httpGet:
            path: /ready
            port: 8080
          initialDelaySeconds: 5
          periodSeconds: 5
---
apiVersion: v1
kind: Service
metadata:
  name: billing-api
  namespace: services
spec:
  selector:
    app: billing-api
  ports:
  - protocol: TCP
    port: 80
    targetPort: 8080
  type: LoadBalancer

为什么要用K8s管理API？

✅ 负载均衡：自动分发流量到多个实例
✅ 健康检查：自动检测并替换不健康的实例
✅ 滚动更新：零停机更新API服务
✅ 自动扩缩容：根据流量自动调整实例数量

4. Web门户

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

apiVersion: apps/v1
kind: Deployment
metadata:
  name: web-portal
  namespace: frontend
spec:
  replicas: 2
  selector:
    matchLabels:
      app: web-portal
  template:
    metadata:
      labels:
        app: web-portal
    spec:
      containers:
      - name: web-portal
        image: registry.example.com/web-portal:latest
        ports:
        - containerPort: 80
        resources:
          limits:
            memory: "512Mi"
            cpu: "500m"
          requests:
            memory: "256Mi"
            cpu: "250m"
---
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: web-portal-ingress
  namespace: frontend
  annotations:
    kubernetes.io/ingress.class: nginx
    cert-manager.io/cluster-issuer: letsencrypt-prod
spec:
  tls:
  - hosts:
    - portal.example.com
    secretName: portal-tls
  rules:
  - host: portal.example.com
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: web-portal
            port:
              number: 80

为什么要用K8s管理Web门户？

✅ 自动HTTPS：自动管理SSL证书
✅ 路由管理：统一管理多个服务的路由
✅ 静态资源：自动缓存和分发静态资源
✅ 灰度发布：支持A/B测试和金丝雀发布

2.2 价值二：为客户提供托管服务

核心观点： 很多客户租了裸金属，但不想自己管理应用，需要算力中心提供托管服务。

场景1：客户需要运行AI训练任务

传统方式（客户自己管）：

bash 复制代码

# 客户需要自己：
1. SSH登录服务器
2. 安装Docker
3. 编写Dockerfile
4. 构建镜像
5. 手动运行容器
6. 监控任务状态
7. 任务失败手动重启

托管方式（K8s管理）：

yaml 复制代码

# 客户只需要提供训练脚本，K8s自动管理

apiVersion: batch/v1
kind: Job
metadata:
  name: customer-training-job
  namespace: customer-001
spec:
  backoffLimit: 3
  parallelism: 2
  completions: 10
  template:
    spec:
      nodeSelector:
        customer: "001"  # 只调度到客户租用的服务器
      containers:
      - name: training
        image: registry.example.com/customer-001/training:latest
        command: ["python", "train.py"]
        args:
          - "--epochs=100"
          - "--batch-size=32"
        resources:
          limits:
            nvidia.com/gpu: 8
            memory: "64Gi"
            cpu: "16"
          requests:
            nvidia.com/gpu: 8
            memory: "32Gi"
            cpu: "8"
      restartPolicy: OnFailure

客户获得的价值：

✅ 无需管理服务器：K8s自动调度任务
✅ 自动重试：任务失败自动重试
✅ 并行执行：自动并行运行多个任务
✅ 资源隔离：不同客户资源完全隔离
✅ 按需计费：只按实际使用计费

场景2：客户需要运行Web服务

传统方式（客户自己管）：

bash 复制代码

# 客户需要自己：
1. 配置Nginx
2. 配置反向代理
3. 配置负载均衡
4. 配置SSL证书
5. 监控服务状态
6. 手动扩容

托管方式（K8s管理）：

yaml 复制代码

# 客户只需要提供镜像，K8s自动管理

apiVersion: apps/v1
kind: Deployment
metadata:
  name: customer-webapp
  namespace: customer-001
spec:
  replicas: 3
  selector:
    matchLabels:
      app: customer-webapp
  template:
    metadata:
      labels:
        app: customer-webapp
    spec:
      nodeSelector:
        customer: "001"
      containers:
      - name: webapp
        image: registry.example.com/customer-001/webapp:latest
        ports:
        - containerPort: 8080
        resources:
          limits:
            memory: "2Gi"
            cpu: "2"
          requests:
            memory: "1Gi"
            cpu: "1"
        livenessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 30
          periodSeconds: 10
---
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: customer-webapp-hpa
  namespace: customer-001
spec:
  scaleTargetRef:
    apiVersion: apps/v1
kind: Deployment
    name: customer-webapp
  minReplicas: 3
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 80

客户获得的价值：

✅ 自动扩缩容：根据流量自动调整实例数量
✅ 负载均衡：自动分发流量
✅ 健康检查：自动检测并替换不健康的实例
✅ 滚动更新：零停机更新应用
✅ 自动HTTPS：自动管理SSL证书

2.3 价值三：资源调度和优化

核心观点： K8s可以智能调度资源，提高裸金属服务器的利用率。

场景：多客户共享GPU资源

问题：

客户A租用了10台服务器，但只用了5台
客户B需要5台服务器，但没资源了
如何提高资源利用率？

解决方案：K8s共享调度

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

# 为每台裸金属服务器打标签
kubectl label node server01 customer=a gpu=h800
kubectl label node server02 customer=a gpu=h800
kubectl label node server03 customer=a gpu=h800
kubectl label node server04 customer=a gpu=h800
kubectl label node server05 customer=a gpu=h800
kubectl label node server06 customer=a gpu=h800
kubectl label node server07 customer=a gpu=h800
kubectl label node server08 customer=a gpu=h800
kubectl label node server09 customer=a gpu=h800
kubectl label node server10 customer=a gpu=h800

# 创建共享命名空间
apiVersion: v1
kind: Namespace
metadata:
  name: shared-pool
  labels:
    purpose: gpu-sharing

# 创建共享GPU任务
apiVersion: batch/v1
kind: Job
metadata:
  name: shared-training
  namespace: shared-pool
spec:
  template:
    spec:
      # 使用Taints和Tolerations实现共享
      tolerations:
      - key: "customer"
        operator: "Equal"
        value: "a"
        effect: "NoSchedule"
      containers:
      - name: training
        image: registry.example.com/shared-training:latest
        resources:
          limits:
            nvidia.com/gpu: 4  # 只使用4块GPU
            memory: "32Gi"
            cpu: "8"
      restartPolicy: OnFailure

资源优化效果：

✅ 提高利用率：从50%提升到90%
✅ 灵活调度：根据需求动态分配资源
✅ 隔离保证：不同客户资源完全隔离
✅ 成本优化：减少服务器采购成本

3. K8s"管一切"的具体体现

3.1 管容器化应用

K8s的核心能力：

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

# 1. 管理无状态应用（Web服务、API）
apiVersion: apps/v1
kind: Deployment
metadata:
  name: web-service
spec:
  replicas: 3
  template:
    spec:
      containers:
      - name: web
        image: nginx:latest

# 2. 管理有状态应用（数据库、Redis）
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: redis-cluster
spec:
  serviceName: redis
  replicas: 3
  template:
    spec:
      containers:
      - name: redis
        image: redis:7
        volumeMounts:
        - name: data
          mountPath: /data
  volumeClaimTemplates:
  - metadata:
      name: data
    spec:
      accessModes: ["ReadWriteOnce"]
      resources:
        requests:
          storage: 10Gi

# 3. 管理批处理任务（AI训练、数据处理）
apiVersion: batch/v1
kind: Job
metadata:
  name: data-processing
spec:
  template:
    spec:
      containers:
      - name: processor
        image: registry.example.com/data-processor:latest
      restartPolicy: OnFailure

# 4. 管理定时任务（备份、清理）
apiVersion: batch/v1
kind: CronJob
metadata:
  name: daily-backup
spec:
  schedule: "0 2 * * *"  # 每天凌晨2点
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: backup
            image: registry.example.com/backup:latest
          restartPolicy: OnFailure

3.2 管网络和负载均衡

K8s的网络管理能力：

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

# 1. 服务发现（ClusterIP）
apiVersion: v1
kind: Service
metadata:
  name: database-service
spec:
  selector:
    app: database
  ports:
  - port: 5432
    targetPort: 5432
  type: ClusterIP

# 2. 负载均衡（LoadBalancer）
apiVersion: v1
kind: Service
metadata:
  name: web-service-lb
spec:
  selector:
    app: web
  ports:
  - port: 80
    targetPort: 8080
  type: LoadBalancer

# 3. 入口路由（Ingress）
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: api-ingress
  annotations:
    nginx.ingress.kubernetes.io/rewrite-target: /
spec:
  rules:
  - host: api.example.com
    http:
      paths:
      - path: /v1
        pathType: Prefix
        backend:
          service:
            name: api-v1
            port:
              number: 8080
      - path: /v2
        pathType: Prefix
        backend:
          service:
            name: api-v2
            port:
              number: 8080

# 4. 网络策略（NetworkPolicy）
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: deny-all
spec:
  podSelector: {}
  policyTypes:
  - Ingress
  - Egress

3.3 管存储和配置

K8s的存储管理能力：

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

# 1. 持久化存储（PVC）
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: data-pvc
spec:
  accessModes:
  - ReadWriteOnce
  resources:
    requests:
      storage: 100Gi
  storageClassName: fast-ssd

# 2. 配置管理（ConfigMap）
apiVersion: v1
kind: ConfigMap
metadata:
  name: app-config
data:
  database.url: "postgresql://db:5432/app"
  cache.ttl: "3600"
  log.level: "info"

# 3. 密钥管理（Secret）
apiVersion: v1
kind: Secret
metadata:
  name: db-credentials
type: Opaque
data:
  username: YWRtaW4=  # base64编码
  password: cGFzc3dvcmQ=

# 4. 在Pod中使用
apiVersion: v1
kind: Pod
metadata:
  name: app-pod
spec:
  containers:
  - name: app
    image: registry.example.com/app:latest
    envFrom:
    - configMapRef:
        name: app-config
    - secretRef:
        name: db-credentials
    volumeMounts:
    - name: data
      mountPath: /data
  volumes:
  - name: data
    persistentVolumeClaim:
      claimName: data-pvc

3.4 管自动扩缩容

K8s的自动扩缩容能力：

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

# 1. 水平自动扩缩容（HPA）
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: web-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: web
  minReplicas: 3
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 80
  - type: Resource
    resource:
      name: memory
      target:
        type: Utilization
        averageUtilization: 80

# 2. 垂直自动扩缩容（VPA）
apiVersion: autoscaling.k8s.io/v1
kind: VerticalPodAutoscaler
metadata:
  name: web-vpa
spec:
  targetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: web
  updatePolicy:
    updateMode: Auto
  resourcePolicy:
    containerPolicies:
    - containerName: '*'
      maxAllowed:
        cpu: "4"
        memory: "8Gi"
      minAllowed:
        cpu: "100m"
        memory: "256Mi"

3.5 管权限和安全

K8s的权限和安全能力：

yaml 复制代码

# 以下代码为示例，实际操作前请在测试环境验证

# 1. 命名空间隔离
apiVersion: v1
kind: Namespace
metadata:
  name: customer-001
  labels:
    customer: "001"
    environment: production

# 2. 资源配额
apiVersion: v1
kind: ResourceQuota
metadata:
  name: compute-resources
  namespace: customer-001
spec:
  hard:
    requests.cpu: "100"
    requests.memory: 200Gi
    limits.cpu: "200"
    limits.memory: 400Gi
    requests.nvidia.com/gpu: 50
    persistentvolumeclaims: 20

# 3. 限制范围
apiVersion: v1
kind: LimitRange
metadata:
  name: default-limits
  namespace: customer-001
spec:
  limits:
  - default:
      cpu: "2"
      memory: "4Gi"
    defaultRequest:
      cpu: "1"
      memory: "2Gi"
    type: Container

# 4. RBAC权限控制
apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: developer-role
  namespace: customer-001
rules:
- apiGroups: [""]
  resources: ["pods", "services"]
  verbs: ["get", "list", "create", "update", "delete"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: developer-binding
  namespace: customer-001
subjects:
- kind: User
  name: developer@example.com
roleRef:
  kind: Role
  name: developer-role
  apiGroup: rbac.authorization.k8s.io

4. 裸金属出租场景下的完整架构

4.1 架构图

复制代码

┌─────────────────────────────────────────────────────────────┐
│                    客户访问层                            │
│  (Web门户、API、CLI、SSH)                              │
└────────────────────┬──────────────────────────────────────┘
                     │
┌────────────────────▼──────────────────────────────────────┐
│              K8s集群（管理算力中心服务）                │
│  ┌────────────────────────────────────────────────────┐   │
│  │  监控系统  │  日志系统  │  API服务  │ Web门户 │   │
│  │ Prometheus│   ELK     │ Billing  │ Portal  │   │
│  └────────────────────────────────────────────────────┘   │
└────────────────────┬──────────────────────────────────────┘
                     │
┌────────────────────▼──────────────────────────────────────┐
│              裸金属服务器池（Ansible管理）               │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐          │
│  │ Server01 │  │ Server02 │  │ Server03 │  ...     │
│  │ 客户A   │  │ 客户A   │  │ 客户B   │          │
│  └──────────┘  └──────────┘  └──────────┘          │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐          │
│  │ Server04 │  │ Server05 │  │ Server06 │  ...     │
│  │ 客户B   │  │ 客户C   │  │ 客户C   │          │
│  └──────────┘  └──────────┘  └──────────┘          │
└────────────────────────────────────────────────────────────┘

4.2 工具分工

工具	管理对象	典型任务
Ansible	裸金属服务器	降内核、装驱动、配置系统
K8s	容器化应用	部署服务、调度任务、自动扩缩容
Jenkins	自动化流程	CI/CD、任务调度、通知

4.3 实际工作流程

场景：客户A需要部署AI训练任务

复制代码

1. 客户A通过Web门户提交训练任务
    ↓
2. K8s接收任务，检查资源配额
    ↓
3. K8s调度任务到客户A租用的服务器
    ↓
4. K8s启动训练容器，挂载存储
    ↓
5. Prometheus监控任务状态
    ↓
6. ELK收集任务日志
    ↓
7. 任务完成，K8s清理资源
    ↓
8. Jenkins触发计费流程
    ↓
9. 客户A收到通知

5. 总结：K8s在裸金属出租场景下的价值

5.1 对算力中心运维的价值

1. 管理自己的服务

监控系统（Prometheus、Grafana）
日志系统（ELK Stack）
API服务（计费、管理）
Web门户（客户界面）

2. 提供托管服务

AI训练任务托管
Web服务托管
数据库托管
中间件托管

3. 优化资源利用

智能调度
资源共享
自动扩缩容
成本优化

5.2 "管一切"的体现

K8s可以管理：

✅ 无状态应用（Web服务、API）
✅ 有状态应用（数据库、Redis）
✅ 批处理任务（AI训练、数据处理）
✅ 定时任务（备份、清理）
✅ 网络和负载均衡
✅ 存储和配置
✅ 自动扩缩容
✅ 权限和安全
✅ 监控和日志
✅ 服务发现

K8s不能管理：

❌ 裸金属服务器本身（这是Ansible的职责）
❌ 操作系统配置（这是Ansible的职责）
❌ 硬件驱动（这是Ansible的职责）
❌ 网络设备（这是网络运维的职责）

5.3 关键要点

1. K8s不是万能的

K8s管理的是容器化应用，不是裸金属服务器
裸金属服务器的管理需要Ansible等工具

2. K8s在裸金属出租场景下很有用

管理算力中心自己的服务
为客户提供托管服务
优化资源利用

3. 三剑客各司其职

Ansible：管裸金属服务器
K8s：管容器化应用
Jenkins：管自动化流程

4. 价值体现

提高运维效率
降低运维成本
提升客户体验
增加服务收入

通过合理使用K8s，裸金属出租的算力中心可以提供更丰富的服务，提高资源利用率，增加收入来源，同时降低运维成本。