AI云原生笔记

1


这是阿里云云原生 AI 套件能力架构图。它为用户提供四个部分能力来匹配云原生 AI 工程不同阶段和业务属性。

层级划分:从下到上依次是 IaaS、K8s、AI 基础设施、AI 开发引擎、AI 工程管理以及 PaaS 层。

IaaS:最底层的基础公有云设施。

K8s 层:提供 ACK Pro、ACK Serverless、ACK Edge、ACK 版这些云原生容器服务。

AI 基础设施:包含资源管理、存储、网络以及镜像服务,提供包括本地盘、NAS、OSS 等存储选项,以及 EIP、负载均衡等网络能力,还有镜像仓库来管理 AI 相关镜像。

AI 开发引擎:

训练引擎:涵盖 Kubeflow、PyTorch、TensorFlow 等主流深度学习框架,支持单机、分布式训练,提供弹性扩缩容以及训练加速优化能力。

推理引擎:支持 TensorRT、ONNX Runtime 等,提供模型转换、优化,支持多框架模型统一部署,包含在线推理、批量推理等多种推理方式。

数据处理引擎:支持 Spark、Flink 等,可以进行数据接入、预处理、特征工程以及数据版本管理。

AI 工程管理:

项目管理:提供工作空间、成员管理以及权限分配。

资产管理:管理数据集、模型、镜像等资产,支持版本化管理以及溯源。

流程编排:支持通过 DAG 工作流编排训练、推理、数据处理任务,支持定时调度以及事件触发。

运维监控:提供训练任务监控、推理服务监控,支持日志采集、指标监控以及告警。

PaaS 层:面向不同用户角色和业务场景提供能力:

面向 AI 用户:提供 Arena CLI、Arena SDK,方便用户提交、管理训练任务。

面向算法开发者:提供在线开发环境、模型调试工具以及模型评估能力。

面向 AI 应用开发者:提供应用模板、部署流水线以及灰度发布能力。

面向 AI 平台管理者:提供多租户管理、资源配额以及计量计费能力。





2











3

相关推荐
火山引擎开发者社区9 小时前
技术速递|使用 GitHub Copilot CLI 构建 Emoji 列表生成器
人工智能
codefan※9 小时前
干掉“幻觉“实战:如何构建企业级知识图谱增强 RAG
人工智能·知识图谱
这个DBA有点耶9 小时前
云上运维新挑战:当数据库不再“看得见摸得着”
数据库·sql·程序人生·云原生·运维开发·学习方法·dba
wukangjupingbb10 小时前
传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI(Drug-Target Interaction)预测方法的缺陷
人工智能
沪漂阿龙10 小时前
Codex 额度重置周期变化:AI 编程免费试玩时代正在结束
人工智能
TickDB10 小时前
美股行情 API 接入避坑:REST 快照、WebSocket 推送、盘前盘后数据的边界
人工智能·python·websocket·行情数据 api
装不满的克莱因瓶10 小时前
深入理解卷积神经网络(CNN)——从原理到代码实践
人工智能·神经网络·cnn
完成大叔10 小时前
模块二,Agent知识图谱的工具链思考
人工智能
lauo10 小时前
ibbot手机发布:搭载poplang技术 + token节点经济,革新AI手机体验
人工智能·智能手机
咖啡星人k10 小时前
云端开发环境技术架构深度解析:从容器隔离到AI Agent集成
人工智能·架构