文章目录
- 华为云运维服务
-
- 一、运维基础知识
-
- [1. 运维定义与目标](#1. 运维定义与目标)
- [2. 运维人员核心职责](#2. 运维人员核心职责)
- [3. 运维模式演进对比](#3. 运维模式演进对比)
- [4. 云时代运维变迁](#4. 云时代运维变迁)
- [5. 华为云安全责任模型](#5. 华为云安全责任模型)
- 二、统一身份认证服务(IAM)
-
- [1. 定义与核心定位](#1. 定义与核心定位)
- [2. 核心组件与关系](#2. 核心组件与关系)
- [3. 权限管理机制](#3. 权限管理机制)
- [4. 关键功能](#4. 关键功能)
- [5. 适用场景](#5. 适用场景)
- 三、消息通知服务(SMN)
-
- [1. 定义与核心定位](#1. 定义与核心定位)
- [2. 核心组件](#2. 核心组件)
- [3. 核心优势](#3. 核心优势)
- [4. 适用场景](#4. 适用场景)
- 四、云监控服务(CES)
-
- [1. 定义与核心定位](#1. 定义与核心定位)
- [2. 核心优势](#2. 核心优势)
- [3. 核心监控类型](#3. 核心监控类型)
- [4. 告警功能](#4. 告警功能)
- [5. 适用场景](#5. 适用场景)
- 五、云日志服务(LTS)
-
- [1. 定义与核心定位](#1. 定义与核心定位)
- [2. 核心组件](#2. 核心组件)
- [3. 核心功能](#3. 核心功能)
- [4. 核心优势](#4. 核心优势)
- [5. 适用场景](#5. 适用场景)
- 六、云审计服务(CTS)
-
- [1. 审计基础定义](#1. 审计基础定义)
- [2. CTS 定义与核心定位](#2. CTS 定义与核心定位)
- [3. 核心优势(与传统审计对比)](#3. 核心优势(与传统审计对比))
- [4. 核心组件](#4. 核心组件)
- [5. 核心应用场景](#5. 核心应用场景)
- 七、关键术语与缩略语
华为云运维服务
一、运维基础知识
1. 运维定义与目标
- 定义:运维(Operations and Maintenance)是对设备或系统的运行与维护,覆盖生命周期全阶段,核心是在成本、稳定性、效率间达成平衡。
- 目标:保障系统稳定性、可靠性、安全性,提升性能与可用性,确保业务连续高效运行。
2. 运维人员核心职责
- 核心工作:网络监控、事件预警、业务调度、排障升级,通过多手段使服务长期稳定可用。
3. 运维模式演进对比
| 对比维度 | 传统运维 | 自动化运维 |
|---|---|---|
| 操作方式 | 人工操作处理 | 脚本 / 工具自动执行 |
| 响应效率 | 响应慢,依赖人工 | 快速响应,自动检测故障 |
| 错误率 | 易出现人为错误 | 操作一致性强,错误率低 |
| 成本投入 | 人力成本高 | 需一定技术成本,长期人力成本低 |
4. 云时代运维变迁
- 责任划分:IaaS 层(计算、存储、网络)由云服务商管理,PaaS/SaaS 层用户按需管理,用户聚焦核心业务运维。
- 核心变化:从 "全栈自主运维" 转向 "分层协同运维",降低基础设施运维复杂度。
5. 华为云安全责任模型
- 华为云责任:负责云服务自身安全(物理基础设施、虚拟网络、平台安全等)。
- 租户责任:负责云服务内部安全(数据加密、应用安全、租户配置等)。
二、统一身份认证服务(IAM)
1. 定义与核心定位
- 定义:华为云权限管理基础服务,安全控制云服务与资源访问权限,支持多用户协同而不共享帐号密码。
- 核心能力:身份凭证管理、安全管理、权限管理、资源委托、身份提供商。
2. 核心组件与关系
- 帐号与 IAM 用户:帐号是资源归属与计费主体(类比 "父亲"),IAM 用户由帐号创建,仅拥有授予权限(类比 "子女"),费用计入所属帐号。
- 用户组:IAM 用户的集合,用于批量授权,用户继承所在组权限,多组权限为全集,默认 "admin" 组拥有所有权限。
3. 权限管理机制
| 权限类型 | 定义 | 特点 |
|---|---|---|
| 角色 | 粗粒度授权 | 部分云服务不支持,无法满足精细化管控 |
| 策略 | 细粒度授权(精确到操作、资源、条件) | 含系统策略(预置不可改)与自定义策略(可视化 / JSON 配置) |
4. 关键功能
- 委托:分为委托其他帐号(专业帐号代运维)、委托其他云服务(服务间协同运维)。
- 项目与企业项目:区域默认对应系统预置项目,支持创建子项目精细化授权;企业项目是升级版,支持多区域资源分组与迁入迁出。
- 身份提供商:建立企业与华为云信任关系,支持员工用企业已有帐号单点登录华为云。
5. 适用场景
- 多运维人员权限分配:为不同职能团队(如计算域、网络域、数据库运维)分配对应策略,实现最小权限管控。
- 跨帐号资源运维:通过委托功能,让代运维公司用自身帐号运维目标资源,可随时修改 / 撤销授权。
三、消息通知服务(SMN)
1. 定义与核心定位
- 定义:可靠、可扩展的海量消息处理服务,主动推送通知,支持短信、电子邮件、HTTP (S) 等多种接收方式。
- 核心架构:基于 "主题 - 订阅" 模型,实现一对多消息推送,集成多种推送方式。
2. 核心组件
- 主题(Topic):消息发布与订阅的信道,是发布者与订阅者的通信通道。
- 订阅:将订阅者(手机号、邮箱、URL 等)注册到主题,是接收消息的前提。
- 消息模板:固定消息格式,发布时可直接复用。
3. 核心优势
- 简便易用:创建主题→订阅→发送消息,三步快速使用,门槛低。
- 稳定可靠:多数据中心冗余存储,支持消息持久化,单节点故障自动迁移。
- 多协议通知:一次发布可推送至多种协议订阅者。
- 安全隔离:基于主题隔离数据,未授权无法访问,保障业务安全。
4. 适用场景
- 系统告警:预定义阈值触发通知,如 CTS 检测到关键操作时推送告警。
- 服务集成:作为消息枢纽连接不同云服务(如 CES→OBS),实现服务解耦。
- 错峰流控:缓冲上下游系统通信数据,减少下游压力,提升系统可用性。
四、云监控服务(CES)
1. 定义与核心定位
- 定义:针对 ECS、带宽等资源的立体化监控平台,帮助用户掌握资源使用与业务运行状况,及时接收异常告警。
2. 核心优势
- 实时可靠:自动开通,提供实时监控数据。
- 监控可视化:支持自定义监控面板,集中呈现核心指标。
- 多种通知:结合 SMN 实现多渠道告警通知。
- 批量配置:支持批量创建告警规则,提升运维效率。
3. 核心监控类型
| 监控类型 | 定义与核心功能 |
|---|---|
| 主机监控 | 含基础监控、操作系统监控、进程监控,采集 OS 层面指标,支持故障排查 |
| 事件监控 | 上报、查询云资源关键操作事件(如删除虚拟机),支持事件告警 |
| 云服务监控 | 内置云服务监控指标,开通后自动关联,实时掌握服务性能 |
| 站点监控 | 模拟真实用户访问,探测域名 / IP 可用性、响应时间、丢包率,支持告警 |
4. 告警功能
- 核心能力:支持对监控指标设置规则,触发条件后通过邮箱、短信等方式通知用户,快速响应故障。
5. 适用场景
- 业务平台全栈监控:如众包平台,监控 ECS/BMS 运行状态、站点可用性、网络连通性,保障业务顺畅。
五、云日志服务(LTS)
1. 定义与核心定位
- 定义:收集主机与云服务日志数据,提供实时、高效、安全的日志处理能力,支撑决策分析、运维管理、业务趋势分析。
2. 核心组件
- 日志组(LogGroup):日志管理基本单位,可创建日志流、设置存储时间(1-365 天)。
- 日志流(LogStream):日志读写基本单位,用于日志分类管理。
- ICAgent:日志采集工具,运行在需采集日志的主机中。
3. 核心功能
- 日志接入:支持云服务、自建软件、API/SDK、跨帐号等多种接入方式。
- 日志查询:支持关键词精确 / 模糊搜索、"与 / 或" 组合搜索,支持上下文关联查询。
- 结构化分析:通过 JSON、分隔符、正则等方式提取字段,支持 SQL 查询分析。
- 日志可视化:对结构化日志进行 SQL 分析与图表展示。
- 告警中心:基于统计规则配置触发条件,通过 SMN 推送告警。
- 日志转储:默认存储 7 天,支持转储至 OBS 等服务长期保存。
4. 核心优势
- 全托管式:覆盖采集、存储、老化、搜索、转储全流程。
- 海量处理:支持每日百 TB 级日志接入,十亿级日志秒级搜索。
- 性价比高:按需计费,维护成本低,适配高峰日志流量。
5. 适用场景
- 运维日志平台:集中管理分散在虚机的应用日志、中间件日志,支持快速查询与告警。
六、云审计服务(CTS)
1. 审计基础定义
- 定义:ICT 行业中审计覆盖信息系统生命周期,核心是保障信息系统健康运转,验证合规性。
2. CTS 定义与核心定位
- 定义:记录云账户下资源操作记录,支持安全分析、资源变更追溯、合规审计、问题定位,可转储至 OBS 长期保存。
3. 核心优势(与传统审计对比)
| 对比维度 | 传统审计 | 云审计(CTS) |
|---|---|---|
| 记录方式 | 无标准化流程,手工统计配置变更 | 实时记录操作与 API 执行记录,自动关联云服务 |
| 存储安全 | 人工存储,无多副本,有安全隐患 | 支持 OBS 转储,低成本长久保存,多副本安全可靠 |
| 查询效率 | 手工查询,效率低 | 支持快速检索,按需筛选操作记录 |
4. 核心组件
- 追踪器:开通 CTS 时自动创建,关联租户所有云服务,记录操作记录。
- 事件:追踪保存的资源操作日志,分管理事件(云服务上报)与数据事件(OBS 读写操作)。
- 事件列表:记录资源新建、修改、删除等操作详情。
5. 核心应用场景
- 安全分析:记录操作用户、时间、IP,检测行为模式,配置关键操作通知。
- 资源变更:追溯资源变更历史与结果,统计资源使用情况。
- 故障定位:记录失败操作原因,辅助快速排除操作性故障。
- 合规审计:提供操作记录与查询能力,满足金融云、可信云等合规认证要求。
七、关键术语与缩略语
| 缩写 | 全称 | 定义 |
|---|---|---|
| IAM | Identity and Access Management | 统一身份认证服务,权限管理基础服务 |
| SMN | Simple Message Notification | 消息通知服务,海量消息处理与推送 |
| CES | Cloud Eye Service | 云监控服务,立体化资源与业务监控 |
| LTS | Log Tank Service | 云日志服务,日志采集、分析、存储 |
| CTS | Cloud Trace Service | 云审计服务,资源操作记录与审计 |
| O&M | Operations and Maintenance | 操作维护,即运维 |
| ECS | Elastic Cloud Server | 弹性云服务器 |
| BMS | Bare Metal Server | 裸金属服务器 |
| OBS | Object Storage Service | 对象存储服务 |
| API | Application Programming Interface | 应用编程接口 |
| SDK | Software Development Kit | 软件开发工具包 |
| AZ | Availability Zone | 可用区 |