开源项目推荐
kaito
kaito 是由微软开源并托管于 GitHub 的项目,旨在自动化在 K8s(主目前支持 Azure AKS)中部署与管理大型语言模型(如 Falcon、Phi‑3、Llama)推理及微调工作负载。它通过定义 CRD(Workspace),自动完成 GPU 节点调度、容器化模型管理、预设硬件配置和多种推理运行时(如 vLLM、transformers)的支持,并新增基于 LlamaIndex + FAISS 的 Retrieval‑Augmented Generation(RAG)功能以实现知识检索能力。
Cleaner
Cleaner 是一个 K8s 控制器(Controller),用于自动识别并删除无效、孤立或不健康的 K8s 资源(包括标准资源和自定义 CRD),通过自定义调度(Cron)、标签筛选和 Lua 脚本规则灵活定义清理策略;项目提供丰富的默认政策(检测旧 Job、未使用的 ConfigMap/Secret、过期 PVC、过时证书、无效 Ingress 等),支持 Dry‑Run 安全测试,并能通过 Slack、Teams、Discord、Telegram、SMTP 或 K8s 事件报告发送清理通知,帮助保持集群高效、整洁和稳定。
Katib
Katib 是 Kubeflow 项目中的 K8s 原生 AutoML 组件,专注于自动化 超参数调优(Hyperparameter Tuning)、早期停止(Early Stopping)及 神经架构搜索。它支持包括 TensorFlow、PyTorch、XGBoost、scikit‑learn 等多种 ML 框架,以及 Kubeflow Training Operator、Argo 和 Tekton 等 K8s 工作负载,通过 CRD(Experiment、Trial、Suggestion)定义实验流程,并提供 Python SDK 和 UI 监控界面,极大简化模型优化任务。
kubedog
kubedog 是一个为 K8s CI/CD 部署流程设计的开源追踪库,用于实时监控 Deployment、StatefulSet、DaemonSet、Job、Canary(来自 Flagger)等资源的状态与日志输出,支持 multitracker 模式将多资源组合成统一事件流并生成周期性状态报告。项目自带简洁 CLI(主要为调试用途),但核心功能作为库被 werf 内部调用,用于实现高级资源部署追踪,例如自动输出容器日志、事件消息等,帮助部署过程中快速定位失败并反馈异常情况。
文章推荐
2025 年的服务网格:从工具到云原生神经中枢
服务网格(Service Mesh ) 作为微服务架构的基础设施层,通过在每个服务旁边部署 Sidecar 代理并由控制平面统一下发策略,无需修改应用代码,就能实现流量管理(如蓝绿部署、金丝雀发布、重试与限流)、安全加密(mTLS、身份认证与授权)以及可观测性(监控、日志与分布式追踪)。文章指出,到了 2025 年,Service Mesh 正朝着轻量化(如 Istio 的 Ambient Mesh、Linkerd)、跨云与多集群兼容、无代理架构演进以及高性能低资源开销的方向发展,依然是实现微服务弹性治理、可观测与零信任安全的关键支撑。
观点:K8s 承诺的可移植性,为何最终让企业反而被锁定?
本文讨论了 K8s 曾被赋予"云上可移植性"的承诺,然而现实中许多企业却依赖具体厂商的托管服务、CI/CD 管道、监控、安全策略及数据密集型依赖,反而深度绑定在某个云环境或平台之中,而真正具备可移植性的应用往往仅为现代化、容器化、运行松耦合的少数项目。文章指出,与其追逐普遍性的"随处迁移"幻想,更应进行有意图的锁定选择,识别关键 workloads、评估退出成本,并为部分关键应用建立可退出架构,而非将可移植性当成盲目目标。
Docker Compose 进入智能代理时代,新增云 GPU Offload 支持
本文介绍了 Docker 在 2025 年 7 月推出的新特性:Docker Compose 支持在 compose.yaml 中声明智能代理(agents)、模型(models)和 MCP 工具,开发者只需运行 docker compose up 即可构建并运行多代理系统,支持与多种代理框架(如 LangGraph、Embabel、CrewAI、Vercel AI SDK、Spring AI、Google ADK、Agno 等)集成,同时 Docker 推出云端 GPU 执行服务 Docker Offload(Beta),允许开发者将大型语言模型和复杂代理任务无缝卸载至云端 GPU,简化部署流程、缓解本地计算资源瓶颈。
云原生动态
Telepresence 2.23 版本发布
Telepresence 是一个开源工具,旨在帮助开发者在本地开发环境中高效调试和测试运行在远程 Kubernetes 集群上的微服务。它的核心目标是在不破坏实际运行环境的前提下,让开发者可以将本地代码、IDE、调试器与远程服务集群无缝对接,极大提高开发效率与协作能力。
Telepresence 2.23 近日成功发布,带来两项核心创新:新增 wiretap 命令,可将容器接收的流量镜像到客户端进行调试而不影响原容器,并支持多个客户端并发查看;其次引入名为 Teleroute 的 Docker 网络插件,让通过 telepresence connect --docker 创建的虚拟网络可被其他容器直接复用,无需复杂的 --network container:... 设置,简化了本地 Docker 容器与远程 Kubernetes 集群的连接流程。
Open Cluster Management v1.0.0 发布
Open Cluster Management(OCM) 是一个开源项目,旨在为 Kubernetes 多集群环境 提供集中式的统一管理能力。它支持跨多个 Kubernetes 集群的生命周期管理、策略控制、应用分发与运行状态监控,是构建企业级混合云和多云基础设施的重要组成部分。
Open Cluster Management(OCM)于 近期正式发布了 v1.0.0 ,标志着项目进入生产可用阶段。此版本带来多个关键改进,包括增强的集群选择能力(支持 CEL Selector)、新增 About-API 提供集群元数据、引入 Workload Conditions 实现应用状态更清晰可视化,以及 ManifestWorkReplicaSets 增加 deletionPolicy 实现资源删除策略控制。同时,核心 API 升级至 v1,支持更多配置选项,如 ClusterClaimConfiguration 等,整体提升了平台的灵活性、稳定性和可扩展性。
关于KubeSphere
KubeSphere (https://kubesphere.io)是在 Kubernetes 之上构建的开源容器平台,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。
KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能,包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能,帮助企业快速构建一个强大和功能丰富的容器云平台。