现在行业里说的 MLOps(Machine Learning Operations),已经不只是"模型上线",而是覆盖 数据 → 训练 → 部署 → 监控 → 反馈闭环 → 治理 的完整工程体系。
1.MLOps是什么
- 把机器学习系统工程化、可重复化、可监控化、可规模化
- DevOps + Data Engineering + ML Engineering 的交叉
2.云平台
🟦 AWS(偏基础设施)
- AWS SageMaker,
- Amazon Bedrock: 已有Claude AI, Mistral, DeepSeek,这些开源的模型;还有AWS自己的Nova模型
🟨 Google Cloud(Vertex AI 原生强)
- 优势:原生 TPU
- 强数据生态(BigQuery 集成)
- LLM 生态完整(自家强势的Gemini大模型),也有一些开源LLM大模型
🟪 Azure(企业集成强)
- Azure Machine Learning
- 和 Microsoft 企业系统深度集成
- 强合规支持
- Azure OpenAI 强势
🟩 Hugging Face(模型层强)
优势
- 开源模型生态最大
- 训练 + 推理简单
- 最新的LLM 模型都会优先发表到此平台,领先性友好
弱点 - 不是真正完整 MLOps 平台
- DataOps 能力弱,依赖第三方服务商部署最新模型,并提供API
- 企业治理能力有限
MLOps平台闭环:
AWS、Azure、Google 提供的是完整的 MLOps 平台闭环
核心含义就是:你不需要拼装很多第三方工具,在单一云平台内部,就可以完成从数据 → 训练 → 部署 → 监控 → 重训练的完整生命周期。
| 阶段 | AWS 对应能力 |
|---|---|
| 数据存储 | S3 |
| 数据处理 | SageMaker Processing |
| 实验管理 | SageMaker Experiments |
| 自动化训练 | SageMaker Training + Pipelines |
| 模型注册 | SageMaker Model Registry |
| 在线部署 | SageMaker Endpoint |
| 自动扩缩容 | Auto Scaling |
| 监控 | Model Monitor + CloudWatch |
| 漂移检测 | 内建数据监控 |
| 自动重训 | 触发 Pipeline |