【k8s】阿里云ACK服务中GPU实例部署问题

文章目录

    • 问题分析
    • 解决方法
      • [1. 修改安全组规则](#1. 修改安全组规则)
      • [2. 重新创建节点](#2. 重新创建节点)
      • [3. 删除多余实例](#3. 删除多余实例)

问题分析

在ACK中部署GPU实例时发现,节点就绪后,pod kube-eventer-init-v1.8-e43647f-aliyun-1.2.25-bf6mz会报错:

日志显示:

bash 复制代码
panic: [SDK.TimeoutError] The request timed out 4 times(4 for retry), perhaps we should have the threshold raised a little? Connect timeout. Please set a valid ConnectTimeout.

caused by:

Post "http://cn-beijing-intranet.log.aliyuncs.com/open-api/?AccessKeyId=STS.NX6pBApZh7FFLnUL4vZp6B6Qt&Action=DescribeApp&AppName=k8s-event&Format=JSON&RegionId=cn-beijing&SecurityToken=CAISgQN1q6Ft5B2yfSjIr5uDO%2Fj1nYVJgIStTkjkqDQjVv8arfP6ljz2IHhMe3hpAuAes%2Fs%2FlG9Q6f0Tlul6QJwAQEXCZMR94tFc9R66f4fb%2Fse8suxY1ZH5SGTNARen15CKarmkRouGd6byO1maxiUvzf6jKmnzAQ3%2BacTU0UDTvnCJBFvWVyFPIfsLDCkAwZZoGBm8HPKpNQGQ8Qi0JUF0uw16pHpi4KCkuKO14Qbfi1uIoY185f6GQP6eYtJrIY10XvqsweVybdCh6iNL7AVQ%2F6oE584tuxW%2F54vMXQQIsk3YabSLr4MwfDUUPPZqR%2FR2y9HnjuB9t%2BDpkID69g1AJ%2Bk9UV6EHNj%2FkZKfSLv0aYZpKu6kYCXXrNmLN4jotQg%2FZHsdPQxHd94mJWV3DRE86YJ04Vg9HjsgCybUqMjtuMleufIdROX2d%2BA9eBPGhTnNZOqknluYu19pVnhYlCWqOcR9CEdXECgMHJW2Jt5QN3szx%2B6W%2B2ObOEJupqv0fQ%2BjD5u%2BGoABFfK

这是因为该pod所在的节点网络连通性异常,与阿里云日志服务(SLS)内网域名 cn-beijing-intranet.log.aliyuncs.com 的网络连接被阻断,需要去ECS服务进行安全组规则检查

解决方法

需修改实例安全组规则管理:入方向规则需包含TCP 80/443端口放行,授权对象为0.0.0.0/0或业务允许的IP段。

1. 修改安全组规则

安全组规则修改需要在ECS服务中修改,修改步骤如下:

2. 重新创建节点

修改完成后,节点不会自动更新,需要先移除已有节点,然后在节点池进行扩缩容操作,重新创建节点。

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5df3747d426f46c0afbf0fbaf71aaf8c.png#pic_center =900x#pic_center =900x)

扩缩容操作后可能会有延迟,导致创建节点失败,节点数变成这样的话,多操作几次扩缩容就可以成功创建节点了。

3. 删除多余实例

创建节点后,返回ECS服务,可以看到实例列表会多出来一个,其中一个是上一个节点申请的实例(创建时间早的,页面最下面的水平导航条往右滑到头,能看到创建时间),需要手动删除,不然会持续扣费。

需要先关闭释放保护

之后回到节点池查看,发现不报错了

相关推荐
资源开发与学习31 分钟前
Kubernetes集群核心概念 Service
kubernetes
阿里云云原生2 小时前
【云栖大会】AI原生、AI可观测、AI Serverless、AI中间件,4场论坛20+议题公布!
云原生
容器魔方2 小时前
Bloomberg 正式加入 Karmada 用户组!
云原生·容器·云计算
muyun28007 小时前
Docker 下部署 Elasticsearch 8 并集成 Kibana 和 IK 分词器
elasticsearch·docker·容器
Nazi68 小时前
k8s的dashboard
云原生·容器·kubernetes
傻傻虎虎13 小时前
【Docker】常用帮忙、镜像、容器、其他命令合集(2)
运维·docker·容器
是小崔啊13 小时前
叩丁狼K8s - 概念篇
云原生·容器·kubernetes
AKAMAI20 小时前
Sport Network 凭借 Akamai 实现卓越成就
人工智能·云原生·云计算
ajax_beijing20 小时前
zookeeper是啥
分布式·zookeeper·云原生
summer_west_fish21 小时前
2023年系统分析师上半年论文试题分析
kubernetes