云原生周刊:K8s 中的 GPU 共享

开源项目推荐

A2A

Google 的 Agent2Agent(A2A)协议是一个开源标准,旨在促进不同框架和供应商构建的 AI 代理之间的互操作性。它允许代理通过统一的协议安全地交换信息、协同执行任务,并在多种企业平台和云环境中无缝协作。

A2A 的设计遵循五大原则:支持代理的自然协作方式、构建于现有标准之上、默认安全、支持长时间任务以及支持多种交互方式(如文本、音频、视频) 。该协议通过"Agent Card"机制实现代理发现,允许客户端代理识别并与其他代理进行交互。此外,A2A 还支持任务生命周期管理、用户体验协商和跨代理的功能调用等特性 。

ThreatMapper

ThreatMapper 是 Deepfence 推出的开源云原生应用保护平台(CNAPP),旨在为开发和运维团队提供全面的运行时安全可观察性。它通过轻量级的传感器和无代理的云扫描任务,自动发现和映射容器、K8s、虚拟机、无服务器(如 AWS Fargate)等环境中的漏洞、敏感信息、配置错误和合规性问题。借助 ThreatGraph 可视化,用户可以根据漏洞的可利用性、攻击路径和风险等级,优先处理最关键的安全问题。

Plandex

Plandex 是一个开源的终端式 AI 编程引擎,专为处理大型项目和复杂任务而设计。它通过命令行界面与开发者交互,支持智能上下文管理、多模型选择和版本控制沙箱机制,确保安全的自动化与人工控制模式。Plandex 能处理数百万行代码,并通过集成 OpenAI、Anthropic 和 Google 等多个模型来提升开发效率。采用 MIT 开源许可,支持跨平台使用,适用于大型项目的特性开发、重构和测试编写等任务。

Direktiv

Direktiv 是一款开源的事件驱动型无服务器工作流引擎,专为容器化环境中的自动化、集成和编排任务而设计。其核心是一个状态机,利用容器作为工作流中的功能单元,通过 JSON 数据在各状态之间传递信息。Direktiv 支持重试、错误处理和条件逻辑等功能,允许在执行过程中使用 JQ 或 JavaScript 动态转换状态数据。

文章推荐

QCon London:三步法管理开源风险

在 2025 年 QCon 伦敦大会上,Johnson Matthey 的漏洞管理负责人 Celine Pypaert 分享了管理开源依赖风险的三步法,以在保持创新活力的同时确保安全性。她指出,开源组件已广泛应用于商业代码库中,然而,过度信任常用软件可能导致安全隐患,例如 XZ Utils 后门事件和 npm 上的 Left-pad 删除事件。为应对这些挑战,Pypaert 提出了以下策略:

1.识别与优先级排序: 建议组织实施软件组成分析(SCA)工具,审计开源依赖,特别是在测试环境中,以尽早发现漏洞。在处理漏洞时,不仅要考虑其严重性,还应评估修复的难易程度,并制定分阶段的修复计划。

2.责任与问责: 强调开发人员应与安全团队合作,使用风险登记册引起高层关注。通过建立风险档案,将技术风险与企业风险关联,帮助组织理解软件供应链问题可能对业务连续性产生的影响。

3.主动修复: 倡导尽可能自动化安全任务,例如将漏洞检测工具(如 GitHub 的 Dependabot)与项目管理工具(如 Jira)集成,实现自动分配安全任务,减少团队负担。

Kubernetes 中的 GPU 共享:NVIDIA KAI 与 Exostellar SDG 的对比

KAI-Scheduler 是 NVIDIA 开源的 Kubernetes 原生 GPU 调度器,旨在优化 AI 和机器学习工作负载的资源分配。该项目最初由 Run:ai 开发,现已在 Apache 2.0 许可证下开源,支持大规模 GPU 集群的高效管理。

Exostellar 的联合创始人兼首席技术官 Zhiming Shen 对 NVIDIA 开源的 KAI 调度器与 Exostellar 的软件定义 GPU(SDG)进行了深入比较,重点探讨了在 Kubernetes 环境中实现 GPU 共享的不同方法。

KAI 调度器通过时间切片技术支持 GPU 共享,允许多个工作负载共享同一物理 GPU。然而,KAI 并未强制执行 GPU 内存隔离,导致在运行多个工作负载时可能出现内存争用和性能下降的问题。

相比之下,Exostellar 的 SDG 提供了更精细的 GPU 虚拟化能力,允许用户根据实际需求动态分配 GPU 内存和计算资源,确保更高的资源利用率和更好的性能隔离。

GPU 共享不仅仅是调度问题,更涉及到资源隔离和可靠性的问题,尤其在多租户和高负载的 AI/ML 环境中。

云原生动态

Kafka 4.0:KRaft 简化架构

Apache Kafka 4.0 正式发布,标志着其架构的重大变革。新版本默认启用 KRaft 模式,彻底摆脱了对 Apache ZooKeeper 的依赖,从而简化了部署和管理流程。KRaft 模式采用 Raft 协议,提升了可扩展性和系统恢复能力。此外,Kafka 4.0 引入了 KIP-848,推出了下一代消费者组协议,显著提高了再平衡性能,减少了消费者组的停机时间和延迟。

同时,Kafka 4.0 提供了对队列的早期支持(KIP-932),通过"共享组"概念实现了点对点消息传递,扩展了 Kafka 的应用场景。该版本还移除了至少 12 个月未使用的 API,更新了最低 Java 要求,鼓励采用更新的 Java 特性,并与当前的技术栈保持一致。Kafka 4.0 的发布是平台现代化的重要一步,体现了社区在其 15 周年之际的持续活力与创新。

OpenStack 2025.1 Epoxy 发布

OpenStack 社区于 2025 年 4 月发布了第 31 个版本------2025.1 Epoxy,标志着其在云计算领域的重要进展。此次更新旨在加强 OpenStack 作为 VMware 替代方案的竞争力,特别是在 Broadcom 收购 VMware 并调整许可政策后,促使众多企业重新评估其虚拟化战略。Epoxy 引入了多项关键功能,包括在 Watcher 项目中集成 Prometheus 数据源,以优化资源分配并监控 VMware 基础设施,确保迁移过程的平稳。

此外,Cinder 项目增强了对 NetApp、Pure Storage 和 Hitachi 等存储解决方案的支持,简化了工作负载迁移过程。在安全性方面,Manila 项目允许管理员动态调整共享文件系统的访问权限,从"只读"切换为"读写",提供更精细的权限控制。Epoxy 的发布得益于来自 BBC R&D、Blizzard Entertainment、Canonical、Ericsson、Mirantis 和 NVIDIA 等约 450 名开发者的贡献,共计超过 7,600 项更改,体现了 OpenStack 社区在其 15 周年之际的持续活力与创新。

关于KubeSphere

KubeSphere (https://kubesphere.io)是在 Kubernetes 之上构建的开源容器平台,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。

KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、华云、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能,包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能,帮助企业快速构建一个强大和功能丰富的容器云平台。

相关推荐
plusplus1681 小时前
Kubernetes“城市规划”指南:告别资源拥堵与预算超支,打造高效云原生都市
云原生·容器·kubernetes
qq_312920113 小时前
K8s存储类(StorageClass)设计与Ceph集成实战
ceph·容器·kubernetes
Nazi63 小时前
kubeadm部署k8s集群环境搭建
云原生·容器·kubernetes
Brilliantee4043 小时前
藏在 K8s 幕后的记忆中枢(etcd)
容器·kubernetes·etcd
bing.shao3 小时前
gRPC 选型 etcd 的核心优势分析
数据库·微服务·云原生·golang·etcd
焯集新人5 小时前
K8S高可用集群
云原生·容器·kubernetes
楚禾Noah5 小时前
【通用常识】YAML 中的高阶语法
运维·docker·容器
小白不想白a6 小时前
【Ansible】变量、机密、事实
运维·云原生·ansible
东心十13 小时前
Win11安装WSL、Docker Desktop
运维·docker·容器
tb_first16 小时前
k8sday13数据存储(1.5/2)
linux·运维·服务器·云原生·容器·kubernetes