技术栈
kubeflow
gs80140
9 天前
人工智能
·
kubeflow
Kubeflow:云原生机器学习工作流自动化开源框架详解
Kubeflow 是一个开源的 机器学习(ML)工作流自动化平台,旨在将机器学习工作流部署到 Kubernetes 之上,实现从实验到生产的一站式解决方案。它提供了针对容器化机器学习任务的工具链,能够自动化地管理、部署和监控模型的整个生命周期。
gs80140
14 天前
kubernetes
·
crd
·
operator
·
kubeflow
·
机器学习平台
·
分布式训练任务
用CRD定义未来:解锁机器学习平台的无限可能
CRD(CustomResourceDefinition,自定义资源定义)是 Kubernetes 提供的一种机制,用于用户自定义新的资源类型。CRD 扩展了 Kubernetes API,允许用户定义新的 API 对象及其行为,从而能够满足不同场景下的需求。
gs80140
16 天前
人工智能
·
分布式
·
深度学习
·
tensorflow
·
kubeflow
·
tfjob
使用 TFJob 进行分布式深度学习任务的多 GPU 协调指南
TFJob 是专门为 TensorFlow 提供的 Kubernetes 自定义资源定义(CRD)。通过它可以快速定义 Master、Worker、PS(参数服务器)等不同角色,以实现分布式深度学习任务。
青云交
3 个月前
大数据
·
机器学习
·
数据处理
·
模型训练
·
应用案例
·
kubeflow
·
资源利用
大数据新视界 --大数据大厂之 Kubeflow 在大数据与机器学习融合中的应用探索
💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。💖💖💖
寻花之梦~~
8 个月前
kubeflow
k8s部署Kubeflow v1.7.0
K8S版本:v1.23.17,需要配置默认的sc 参考:https://github.com/kubeflow/manifests/tree/v1.7.0
傅里叶、
8 个月前
kubeflow
kubeflow简单记录
kubeflow 13.7k star 1、Training Operator 包括PytorchJob和XGboostJob,支持部署pytorch的分布式训练 2、KFServing快捷的部署推理服务 3、Jupyter Notebook 基于Web的交互式工具 4、Katib做超参数优化 5、Pipeline 基于Argo Workflow提供机器学习流程的创建、编排调度和管理,端到端机器学习系统的自动化敏捷构建,实现AI领域的DevOps。 6、模型评测
whyte王
10 个月前
架构
·
kubernetes
·
云计算
·
kubeflow
Kubeflow文档1:介绍与架构
Kubeflow 2024/3/19版本的文档此专栏用来展示相关的内容翻译,重点关注本地部署,关于运营商的方案,请自行查阅