AI云原生笔记

1


这是阿里云云原生 AI 套件能力架构图。它为用户提供四个部分能力来匹配云原生 AI 工程不同阶段和业务属性。

层级划分:从下到上依次是 IaaS、K8s、AI 基础设施、AI 开发引擎、AI 工程管理以及 PaaS 层。

IaaS:最底层的基础公有云设施。

K8s 层:提供 ACK Pro、ACK Serverless、ACK Edge、ACK 版这些云原生容器服务。

AI 基础设施:包含资源管理、存储、网络以及镜像服务,提供包括本地盘、NAS、OSS 等存储选项,以及 EIP、负载均衡等网络能力,还有镜像仓库来管理 AI 相关镜像。

AI 开发引擎:

训练引擎:涵盖 Kubeflow、PyTorch、TensorFlow 等主流深度学习框架,支持单机、分布式训练,提供弹性扩缩容以及训练加速优化能力。

推理引擎:支持 TensorRT、ONNX Runtime 等,提供模型转换、优化,支持多框架模型统一部署,包含在线推理、批量推理等多种推理方式。

数据处理引擎:支持 Spark、Flink 等,可以进行数据接入、预处理、特征工程以及数据版本管理。

AI 工程管理:

项目管理:提供工作空间、成员管理以及权限分配。

资产管理:管理数据集、模型、镜像等资产,支持版本化管理以及溯源。

流程编排:支持通过 DAG 工作流编排训练、推理、数据处理任务,支持定时调度以及事件触发。

运维监控:提供训练任务监控、推理服务监控,支持日志采集、指标监控以及告警。

PaaS 层:面向不同用户角色和业务场景提供能力:

面向 AI 用户:提供 Arena CLI、Arena SDK,方便用户提交、管理训练任务。

面向算法开发者:提供在线开发环境、模型调试工具以及模型评估能力。

面向 AI 应用开发者:提供应用模板、部署流水线以及灰度发布能力。

面向 AI 平台管理者:提供多租户管理、资源配额以及计量计费能力。





2











3

相关推荐
Lyan-X1 小时前
鲁鹏教授《计算机视觉与深度学习》课程笔记与思考 ——13. 生成模型 VAE:从无监督学习到显式密度估计的建模与实现
人工智能·笔记·深度学习·计算机视觉
AI_Auto1 小时前
智能制造-MES与AI结合的核心价值与逻辑
大数据·人工智能·制造
人间打气筒(Ada)1 小时前
Kubernetes核心技术-service详解
云原生·容器·kubernetes·云计算·devops·service·service代理
聊聊科技1 小时前
5款AI编曲软件荣登2026年度榜单,逐项对比适合原创音乐人参考
人工智能
董厂长1 小时前
RAG 中的分块策略(Chunking Strategy)
人工智能·llm·rag·分块策略
皮卡丘不断更2 小时前
让数据“开口说话”!SwiftBoot AI 智能看板 v0.1.8 震撼来袭
人工智能·系统架构·ai编程
向哆哆2 小时前
七种常见虫子的图像识别数据集分享(适用于目标检测任务)
人工智能·目标检测·计算机视觉
AI浩2 小时前
面向对象保真度的遥感图像生成扩散模型
人工智能·目标检测
CareyWYR2 小时前
每周AI论文速递(260209-260213)
人工智能