云原生周刊:在 Kubernetes 上运行机器学习

云原生热点

KGateway v2.1:面向 AI 场景的高可用网关全新升级

KGateway 是一个面向云原生和 AI 场景的高性能网关,支持多租户、统一接入、智能路由与推理服务集成,兼容 Kubernetes Gateway API 标准。

在最新的 v2.1 版本中,KGateway 引入了 agentgateway 组件,增强了 AI 推理和多租户路由能力;全面支持 Gateway API v1.3.0 和 Inference Extension v1.0.0;新增全局策略挂载、加权路由、Pod 模板定制、请求头修改、会话亲和及自动扩缩容等功能。同时优化了监控与健康检查机制,并启用 Leader 选举以提升高可用性。本次更新还废弃旧版 Envoy AI Gateway 与 Inference Extension,为 v2.2 的架构升级做准备。

Cosign 3.0 发布:软件签名工具全面升级,安全与兼容性再提升

Cosign 是 Sigstore 项目下的开源命令行工具,主要用于对容器镜像、软件包等进行签名与验证,以增强软件供应链的安全性。

近日,Cosign v3.0 版本正式发布,Cosign 将若干过去需要通过可选标志才能使用的新功能(如捆绑格式、可信根管理、签名配置支持)设为默认开启,从而加强与 Sigstore 生态中主流部署(如 Homebrew、PyPI、Maven Central 等) 的兼容性。与此同时,Cosign 围绕简化 CLI 及移除旧功能进行了规划,为未来 v4.0 版本的重大改动做好铺垫。

技术实践

文章推荐

在 Kubernetes 上运行机器学习:信任而非技术是最大门槛

本文介绍了,在将机器学习工作负载迁移至 Kubernetes 环境时,真正最大的挑战往往不是技术复杂性本身,而是 信任问题------包括数据质量、模型行为可预测性、团队间协作以及基础设施是否可靠。作者指出,尽管 Kubernetes 提供了强大的调度、扩缩容和资源管理能力,但若数据科学团队、平台团队及运维团队之间缺乏信任支撑、模型生命周期管理松散、监控与反馈机制不完善,那么技术能力再强也难以落地。为此,文章建议优先构建治理和审计流程、搭建可观察模型行为的反馈机制、明确责任边界,从而为 AI 在 Kubernetes 上的可靠运行奠定信任基础。

Kubernetes 7 大常见陷阱及其规避技巧

在这篇文章中,作者从自己在生产环境中管理 Kubernetes 的经验出发,列举了七类常见的部署与运维陷阱------包括未设置资源 requests/limits、忽视 liveness/readiness 探针、单靠 kubectl logs 进行排错、开发与生产配置一模一样、遗留无用资源、缺乏日志/监控机制、以及环境隔离不足等------并针对每个陷阱提供了实践建议,如从小量资源开始、使用自动扩缩容、统一日志监控管道、为不同环境提供差异化配置等,以帮助运维工程师提升集群稳定性、可观察性与效率。

云与 DevOps 趋势:整合治理与智能化转型再加速

本文介绍了 InfoQ 近日发布的《Cloud & DevOps Trends Report 2025》,探讨了云计算与 DevOps 在智能化、平台化及治理领域的最新发展趋势。报告指出,AI 驱动的自动化与智能代理正逐步融入运维与交付流程,推动从"人驱动"向"协同智能"转变;平台工程持续升温,企业更加关注通过统一开发者平台(IDP)提升开发体验与交付效率;混合云与多云架构成为主流实践,以兼顾灵活性与成本控制。与此同时,FinOps 和可观察性 进入成熟期,组织从单纯关注工具选型转向构建端到端的治理与可持续运营体系。总体来看,2025 年的云与 DevOps 发展已从技术演进迈向体系化建设阶段,重点在于"整合、优化与赋能",以支撑更高效、安全、可控的数字化交付体系。

开源项目推荐

Proton

Proton 是由 Timeplus 开发的一款高性能流处理与分析的 SQL 引擎,采用 C++ 实现并内嵌 ClickHouse 引擎,目标为替代 Apache Flink 与 ksqlDB。它支持从 Kafka、Redpanda、ClickHouse 等多种源头采集数据,提供多流 JOIN、增量物化视图、时间窗口、水印、CDC 等实时流计算功能,同时具备查询历史数据的能力。特点包括:单二进制部署、无 JVM/ZooKeeper 依赖、低延迟高吞吐。适用于流式 ETL、实时分析、监控告警、推荐系统等场景。

Fission

Fission 是一个开源、Kubernetes 原生的 Serverless 函数框架,聚焦"只关心代码"的开发体验:通过 Functions、Environments 与 Triggers 三大概念,把 HTTP、消息队列与定时任务等事件与函数解耦,支持多语言(如 Node.js、Python、Go 等),并提供自动伸缩与极低冷启动(官方称典型约 100ms)以便在 Kubernetes 上快速上线函数与应用。

Rook

Rook 是一个开源的云原生存储编排平台,专为 Ceph 分布式存储系统在 Kubernetes 中的原生化部署、管理、扩缩容而设计。它通过 Operator 模式自动化执行部署、配置、供给、监控、升级、灾难恢复等流程,使存储服务实现自管理、自修复、自扩展。Rook 支持文件、块、对象三种存储模式,适用于生产环境的大规模集群。

Traefik

Traefik 是一个现代开源反向代理和负载均衡器,专为微服务架构设计,能无缝集成诸如 Docker、Kubernetes、Consul、Etcd 等多种编排和服务发现平台,并能通过自动配置来动态处理路由。它支持 HTTP/1-3、TCP、UDP、WebSocket、gRPC 等协议,内置中间件、自动 TLS、服务发现与指标监控等功能,使得在容器化、动态伸缩的环境下运行服务更加简洁高效。

相关推荐
码界奇点4 小时前
通往Docker之路从单机到容器编排的架构演进全景
docker·容器·架构
阿Y加油吧4 小时前
Docker从入门到实战——含容器部署、docker基础、项目部署
运维·docker·容器
不知道累,只知道类5 小时前
记一次诡异的“偶发 404”排查:CDN 回源到 OSS 导致 REST API 失败
java·云原生
victory04315 小时前
progen2 docker镜像打包命令文档
运维·docker·容器
AKAMAI6 小时前
Akamai推出Akamai Inference Cloud (AI推理云),重新定义人工智能的应用场景与实现方式
人工智能·云原生·云计算
算是难了7 小时前
Docker基础总结
运维·docker·容器
ityangs7 小时前
GitLab 私服(基于 Docker)搭建方案
git·docker·容器·gitlab
沐雨风栉9 小时前
告别设备限制!CodeServer+cpolar让VS Code随时随地在线编程
云原生·eureka·重构·pdf·开源
技术杠精10 小时前
Docker Swarm 的负载均衡和平滑切换原理
docker·容器·负载均衡·1024程序员节