【k8s】阿里云ACK服务中GPU实例部署问题

文章目录

    • 问题分析
    • 解决方法
      • [1. 修改安全组规则](#1. 修改安全组规则)
      • [2. 重新创建节点](#2. 重新创建节点)
      • [3. 删除多余实例](#3. 删除多余实例)

问题分析

在ACK中部署GPU实例时发现,节点就绪后,pod kube-eventer-init-v1.8-e43647f-aliyun-1.2.25-bf6mz会报错:

日志显示:

bash 复制代码
panic: [SDK.TimeoutError] The request timed out 4 times(4 for retry), perhaps we should have the threshold raised a little? Connect timeout. Please set a valid ConnectTimeout.

caused by:

Post "http://cn-beijing-intranet.log.aliyuncs.com/open-api/?AccessKeyId=STS.NX6pBApZh7FFLnUL4vZp6B6Qt&Action=DescribeApp&AppName=k8s-event&Format=JSON&RegionId=cn-beijing&SecurityToken=CAISgQN1q6Ft5B2yfSjIr5uDO%2Fj1nYVJgIStTkjkqDQjVv8arfP6ljz2IHhMe3hpAuAes%2Fs%2FlG9Q6f0Tlul6QJwAQEXCZMR94tFc9R66f4fb%2Fse8suxY1ZH5SGTNARen15CKarmkRouGd6byO1maxiUvzf6jKmnzAQ3%2BacTU0UDTvnCJBFvWVyFPIfsLDCkAwZZoGBm8HPKpNQGQ8Qi0JUF0uw16pHpi4KCkuKO14Qbfi1uIoY185f6GQP6eYtJrIY10XvqsweVybdCh6iNL7AVQ%2F6oE584tuxW%2F54vMXQQIsk3YabSLr4MwfDUUPPZqR%2FR2y9HnjuB9t%2BDpkID69g1AJ%2Bk9UV6EHNj%2FkZKfSLv0aYZpKu6kYCXXrNmLN4jotQg%2FZHsdPQxHd94mJWV3DRE86YJ04Vg9HjsgCybUqMjtuMleufIdROX2d%2BA9eBPGhTnNZOqknluYu19pVnhYlCWqOcR9CEdXECgMHJW2Jt5QN3szx%2B6W%2B2ObOEJupqv0fQ%2BjD5u%2BGoABFfK

这是因为该pod所在的节点网络连通性异常,与阿里云日志服务(SLS)内网域名 cn-beijing-intranet.log.aliyuncs.com 的网络连接被阻断,需要去ECS服务进行安全组规则检查

解决方法

需修改实例安全组规则管理:入方向规则需包含TCP 80/443端口放行,授权对象为0.0.0.0/0或业务允许的IP段。

1. 修改安全组规则

安全组规则修改需要在ECS服务中修改,修改步骤如下:

2. 重新创建节点

修改完成后,节点不会自动更新,需要先移除已有节点,然后在节点池进行扩缩容操作,重新创建节点。

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5df3747d426f46c0afbf0fbaf71aaf8c.png#pic_center =900x#pic_center =900x)

扩缩容操作后可能会有延迟,导致创建节点失败,节点数变成这样的话,多操作几次扩缩容就可以成功创建节点了。

3. 删除多余实例

创建节点后,返回ECS服务,可以看到实例列表会多出来一个,其中一个是上一个节点申请的实例(创建时间早的,页面最下面的水平导航条往右滑到头,能看到创建时间),需要手动删除,不然会持续扣费。

需要先关闭释放保护

之后回到节点池查看,发现不报错了

相关推荐
孤岛悬城6 小时前
37 日志分析:ELK(Elasticsearch+Logstash+Kibana)
云计算
金刚猿6 小时前
01_虚拟机中间件部署_root 用户安装 docker 容器,配置非root用户权限
docker·中间件·容器
JH_Kong6 小时前
解决 WSL 中 Docker 权限问题:从踩坑到完整修复
docker·容器
主机哥哥8 小时前
阿里云OpenClaw部署全攻略,五种方案助你快速部署!
服务器·阿里云·负载均衡
陈桴浮海8 小时前
Kustomize实战:从0到1实现K8s多环境配置管理与资源部署
云原生·容器·kubernetes
珠海西格电力科技9 小时前
微电网能量平衡理论的实现条件在不同场景下有哪些差异?
运维·服务器·网络·人工智能·云计算·智慧城市
张小凡vip9 小时前
Kubernetes--k8s中部署redis数据库服务
redis·kubernetes
Hello.Reader10 小时前
Flink Kubernetes HA(高可用)实战原理、前置条件、配置项与数据保留机制
贪心算法·flink·kubernetes
ShiLiu_mtx11 小时前
k8s - 7
云原生·容器·kubernetes
MonkeyKing_sunyuhua14 小时前
docker compose up -d --build 完全使用新代码打包的方法
docker·容器·eureka