云原生周刊：K8s 中的 GPU 共享

开源项目推荐

A2A

Google 的 Agent2Agent（A2A）协议是一个开源标准，旨在促进不同框架和供应商构建的 AI 代理之间的互操作性。它允许代理通过统一的协议安全地交换信息、协同执行任务，并在多种企业平台和云环境中无缝协作。

A2A 的设计遵循五大原则：支持代理的自然协作方式、构建于现有标准之上、默认安全、支持长时间任务以及支持多种交互方式（如文本、音频、视频）。该协议通过"Agent Card"机制实现代理发现，允许客户端代理识别并与其他代理进行交互。此外，A2A 还支持任务生命周期管理、用户体验协商和跨代理的功能调用等特性。

ThreatMapper 是 Deepfence 推出的开源云原生应用保护平台（CNAPP），旨在为开发和运维团队提供全面的运行时安全可观察性。它通过轻量级的传感器和无代理的云扫描任务，自动发现和映射容器、K8s、虚拟机、无服务器（如 AWS Fargate）等环境中的漏洞、敏感信息、配置错误和合规性问题。借助 ThreatGraph 可视化，用户可以根据漏洞的可利用性、攻击路径和风险等级，优先处理最关键的安全问题。

Plandex

Plandex 是一个开源的终端式 AI 编程引擎，专为处理大型项目和复杂任务而设计。它通过命令行界面与开发者交互，支持智能上下文管理、多模型选择和版本控制沙箱机制，确保安全的自动化与人工控制模式。Plandex 能处理数百万行代码，并通过集成 OpenAI、Anthropic 和 Google 等多个模型来提升开发效率。采用 MIT 开源许可，支持跨平台使用，适用于大型项目的特性开发、重构和测试编写等任务。

Direktiv

Direktiv 是一款开源的事件驱动型无服务器工作流引擎，专为容器化环境中的自动化、集成和编排任务而设计。其核心是一个状态机，利用容器作为工作流中的功能单元，通过 JSON 数据在各状态之间传递信息。Direktiv 支持重试、错误处理和条件逻辑等功能，允许在执行过程中使用 JQ 或 JavaScript 动态转换状态数据。

文章推荐

QCon London：三步法管理开源风险

在 2025 年 QCon 伦敦大会上，Johnson Matthey 的漏洞管理负责人 Celine Pypaert 分享了管理开源依赖风险的三步法，以在保持创新活力的同时确保安全性。她指出，开源组件已广泛应用于商业代码库中，然而，过度信任常用软件可能导致安全隐患，例如 XZ Utils 后门事件和 npm 上的 Left-pad 删除事件。为应对这些挑战，Pypaert 提出了以下策略：

1.识别与优先级排序：建议组织实施软件组成分析（SCA）工具，审计开源依赖，特别是在测试环境中，以尽早发现漏洞。在处理漏洞时，不仅要考虑其严重性，还应评估修复的难易程度，并制定分阶段的修复计划。

2.责任与问责：强调开发人员应与安全团队合作，使用风险登记册引起高层关注。通过建立风险档案，将技术风险与企业风险关联，帮助组织理解软件供应链问题可能对业务连续性产生的影响。

3.主动修复：倡导尽可能自动化安全任务，例如将漏洞检测工具（如 GitHub 的 Dependabot）与项目管理工具（如 Jira）集成，实现自动分配安全任务，减少团队负担。

Kubernetes 中的 GPU 共享：NVIDIA KAI 与 Exostellar SDG 的对比

KAI-Scheduler 是 NVIDIA 开源的 Kubernetes 原生 GPU 调度器，旨在优化 AI 和机器学习工作负载的资源分配。该项目最初由 Run:ai 开发，现已在 Apache 2.0 许可证下开源，支持大规模 GPU 集群的高效管理。

Exostellar 的联合创始人兼首席技术官 Zhiming Shen 对 NVIDIA 开源的 KAI 调度器与 Exostellar 的软件定义 GPU（SDG）进行了深入比较，重点探讨了在 Kubernetes 环境中实现 GPU 共享的不同方法。

KAI 调度器通过时间切片技术支持 GPU 共享，允许多个工作负载共享同一物理 GPU。然而，KAI 并未强制执行 GPU 内存隔离，导致在运行多个工作负载时可能出现内存争用和性能下降的问题。

相比之下，Exostellar 的 SDG 提供了更精细的 GPU 虚拟化能力，允许用户根据实际需求动态分配 GPU 内存和计算资源，确保更高的资源利用率和更好的性能隔离。

GPU 共享不仅仅是调度问题，更涉及到资源隔离和可靠性的问题，尤其在多租户和高负载的 AI/ML 环境中。

云原生动态

Kafka 4.0：KRaft 简化架构

Apache Kafka 4.0 正式发布，标志着其架构的重大变革。新版本默认启用 KRaft 模式，彻底摆脱了对 Apache ZooKeeper 的依赖，从而简化了部署和管理流程。KRaft 模式采用 Raft 协议，提升了可扩展性和系统恢复能力。此外，Kafka 4.0 引入了 KIP-848，推出了下一代消费者组协议，显著提高了再平衡性能，减少了消费者组的停机时间和延迟。

同时，Kafka 4.0 提供了对队列的早期支持（KIP-932），通过"共享组"概念实现了点对点消息传递，扩展了 Kafka 的应用场景。该版本还移除了至少 12 个月未使用的 API，更新了最低 Java 要求，鼓励采用更新的 Java 特性，并与当前的技术栈保持一致。Kafka 4.0 的发布是平台现代化的重要一步，体现了社区在其 15 周年之际的持续活力与创新。

OpenStack 2025.1 Epoxy 发布

OpenStack 社区于 2025 年 4 月发布了第 31 个版本------2025.1 Epoxy，标志着其在云计算领域的重要进展。此次更新旨在加强 OpenStack 作为 VMware 替代方案的竞争力，特别是在 Broadcom 收购 VMware 并调整许可政策后，促使众多企业重新评估其虚拟化战略。Epoxy 引入了多项关键功能，包括在 Watcher 项目中集成 Prometheus 数据源，以优化资源分配并监控 VMware 基础设施，确保迁移过程的平稳。

此外，Cinder 项目增强了对 NetApp、Pure Storage 和 Hitachi 等存储解决方案的支持，简化了工作负载迁移过程。在安全性方面，Manila 项目允许管理员动态调整共享文件系统的访问权限，从"只读"切换为"读写"，提供更精细的权限控制。Epoxy 的发布得益于来自 BBC R&D、Blizzard Entertainment、Canonical、Ericsson、Mirantis 和 NVIDIA 等约 450 名开发者的贡献，共计超过 7,600 项更改，体现了 OpenStack 社区在其 15 周年之际的持续活力与创新。

关于KubeSphere

KubeSphere （https://kubesphere.io）是在 Kubernetes 之上构建的开源容器平台，提供全栈的 IT 自动化运维的能力，简化企业的 DevOps 工作流。

KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、华云、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能，包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能，帮助企业快速构建一个强大和功能丰富的容器云平台。