【k8s】阿里云ACK服务中GPU实例部署问题

文章目录

    • 问题分析
    • 解决方法
      • [1. 修改安全组规则](#1. 修改安全组规则)
      • [2. 重新创建节点](#2. 重新创建节点)
      • [3. 删除多余实例](#3. 删除多余实例)

问题分析

在ACK中部署GPU实例时发现,节点就绪后,pod kube-eventer-init-v1.8-e43647f-aliyun-1.2.25-bf6mz会报错:

日志显示:

bash 复制代码
panic: [SDK.TimeoutError] The request timed out 4 times(4 for retry), perhaps we should have the threshold raised a little? Connect timeout. Please set a valid ConnectTimeout.

caused by:

Post "http://cn-beijing-intranet.log.aliyuncs.com/open-api/?AccessKeyId=STS.NX6pBApZh7FFLnUL4vZp6B6Qt&Action=DescribeApp&AppName=k8s-event&Format=JSON&RegionId=cn-beijing&SecurityToken=CAISgQN1q6Ft5B2yfSjIr5uDO%2Fj1nYVJgIStTkjkqDQjVv8arfP6ljz2IHhMe3hpAuAes%2Fs%2FlG9Q6f0Tlul6QJwAQEXCZMR94tFc9R66f4fb%2Fse8suxY1ZH5SGTNARen15CKarmkRouGd6byO1maxiUvzf6jKmnzAQ3%2BacTU0UDTvnCJBFvWVyFPIfsLDCkAwZZoGBm8HPKpNQGQ8Qi0JUF0uw16pHpi4KCkuKO14Qbfi1uIoY185f6GQP6eYtJrIY10XvqsweVybdCh6iNL7AVQ%2F6oE584tuxW%2F54vMXQQIsk3YabSLr4MwfDUUPPZqR%2FR2y9HnjuB9t%2BDpkID69g1AJ%2Bk9UV6EHNj%2FkZKfSLv0aYZpKu6kYCXXrNmLN4jotQg%2FZHsdPQxHd94mJWV3DRE86YJ04Vg9HjsgCybUqMjtuMleufIdROX2d%2BA9eBPGhTnNZOqknluYu19pVnhYlCWqOcR9CEdXECgMHJW2Jt5QN3szx%2B6W%2B2ObOEJupqv0fQ%2BjD5u%2BGoABFfK

这是因为该pod所在的节点网络连通性异常,与阿里云日志服务(SLS)内网域名 cn-beijing-intranet.log.aliyuncs.com 的网络连接被阻断,需要去ECS服务进行安全组规则检查

解决方法

需修改实例安全组规则管理:入方向规则需包含TCP 80/443端口放行,授权对象为0.0.0.0/0或业务允许的IP段。

1. 修改安全组规则

安全组规则修改需要在ECS服务中修改,修改步骤如下:

2. 重新创建节点

修改完成后,节点不会自动更新,需要先移除已有节点,然后在节点池进行扩缩容操作,重新创建节点。

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5df3747d426f46c0afbf0fbaf71aaf8c.png#pic_center =900x#pic_center =900x)

扩缩容操作后可能会有延迟,导致创建节点失败,节点数变成这样的话,多操作几次扩缩容就可以成功创建节点了。

3. 删除多余实例

创建节点后,返回ECS服务,可以看到实例列表会多出来一个,其中一个是上一个节点申请的实例(创建时间早的,页面最下面的水平导航条往右滑到头,能看到创建时间),需要手动删除,不然会持续扣费。

需要先关闭释放保护

之后回到节点池查看,发现不报错了

相关推荐
draymond71077 小时前
阿里云-云效自动部署spring boot项目
阿里云
cui_hao_nan7 小时前
Docker后端部署
运维·docker·容器
小张是铁粉9 小时前
docker在Linux的安装遇到的问题
linux·docker·容器
没有名字的小羊11 小时前
8.Docker镜像讲解
运维·docker·容器·tomcat
木鱼时刻12 小时前
容器与 Kubernetes 基本概念与架构
容器·架构·kubernetes
UI设计和前端开发从业者13 小时前
UI前端大数据处理策略优化:基于云计算的数据存储与计算
前端·ui·云计算
LCG元13 小时前
云原生微服务间的异步消息通信:最终一致性与系统容错的架构实战
微服务·云原生·架构
做一个AC梦14 小时前
Docker安装失败:Docker Desktop installation failed
运维·docker·容器
Shan120514 小时前
浅谈Docker Kicks in的应用
运维·docker·容器
Li&&Tao14 小时前
docker 常用命令
docker·容器·eureka