k8s POD上RDMA网卡VF不生效问题

1、配置

multus、sriov-device-plugin、whereabouts都来自https://github.com/k8snetworkplumbingwg/

有的环境总是看不到POD内的RDMA接口,有的环境node重启后再启动的pod看不到

现象为pod内执行ifconfig看不到接口,或者kubectl describe pod pod-1中没有:

2、查看sriov-device-plugin和multus

2.1 sriov-device-plugin

pod启动后,可以看到sriov分配了RDMA网卡:

cat /var/log/sriovdp/sriovdp.INFO

...

server.go:159 AllocateResponse send: &AllocateResponNOX_COM_MLNX_SRIOV_RDMA0: 0000:27:00.1,

2.2 multus

kubectl logs kube-multus-ds-amd64-h59ln -n kube-system

可以看到生成了配置文件,根据pod的描述/host/etc/cni/net.d/映射到了/etc/cni/net.d/

但是对应目录没有这个文件,只有00-multus.conf.cilium_bak

这是被cilium改掉了

3 修改

bash 复制代码
kubectl edit cm cilium-config -n kube-system 

将cni-exclusive: "true"修改为cni-exclusive: "false"

注:cni-exclusive设置为true会把其他cni的conf文件都覆盖掉

然后重启cilium:

bash 复制代码
kubectl rollout restart daemonset/cilium -n kube-system
相关推荐
阿里云云原生21 小时前
Higress v2.2.3 发布:正式入驻 CNCF Sandbox,AI Gateway 与 Ingress 迁移能力双向加固
云原生
lichenyang4531 天前
Docker 学习笔记(四):Dockerfile,把项目打成自己的镜像
docker·容器
lichenyang4531 天前
Docker 学习笔记(三):Docker 网络、bridge、子网和容器互通
docker·容器
lichenyang4531 天前
Docker 学习笔记(二):docker run 的参数到底在控制什么?
docker·容器
阿里云云原生2 天前
香港站【企业 AI Agent 工程化实战专场】来啦,邀您7月9日见!
云原生·agent
阿里云云原生2 天前
研发域与运维域的“数字握手”:通过 Agentic Skills 实现 DevOps 全链路自动化
云原生
运维开发故事4 天前
基于 Arthas 的多集群在线诊断系统设计与实现
kubernetes
Patrick_Wilson6 天前
从「改个端口」到 502:Next.js on k8s 的容器端口、Service 映射与 env 覆盖
docker·kubernetes·next.js
阿里云云原生6 天前
AI 开发新常态:当 Cursor、Claude、Codex 并行,如何统一管理散落的 Skill 资产?
云原生·ai编程
探索云原生6 天前
K8s 1.36 这个 GA 特性,把 initContainer 拉模型的 hack 干掉了
ai·云原生·kubernetes