华为云核心服务运维知识点与高频实操问题总结
文章目录
- 华为云核心服务运维知识点与高频实操问题总结
- 一、计算类服务运维(ECS/BMS/CCE/AS/IMS)
-
- [1\. 核心运维知识点](#1. 核心运维知识点)
- [2\. 运维场景高频问题及解析](#2. 运维场景高频问题及解析)
- 二、存储类服务运维(OBS/EVS/SFS/CBR/DSS)
-
- [1\. 核心运维知识点](#1. 核心运维知识点)
- [2\. 运维场景高频问题及解析](#2. 运维场景高频问题及解析)
- 三、网络类服务运维(VPC/安全组/ACL/EIP/ELB/NAT)
-
- [1\. 核心运维知识点](#1. 核心运维知识点)
- [2\. 运维场景高频问题及解析](#2. 运维场景高频问题及解析)
- 四、运维监控类服务运维
-
- [1\. 核心运维知识点](#1. 核心运维知识点)
- [2\. 运维场景高频问题及解析](#2. 运维场景高频问题及解析)
- 五、数据库类服务运维
-
- [1\. 核心运维知识点](#1. 核心运维知识点)
- [2\. 运维场景高频问题及解析](#2. 运维场景高频问题及解析)
本文从云计算运维日常工作、故障排查、资源管控、业务保障实战角度,汇总华为云计算、存储、网络、运维监控、数据库五大核心服务。每个模块包含必备运维核心知识点、线上高频故障及常见问题解析,无冗余理论、无面试题库,完全适配云上运维日常值守、故障处理、资源优化工作。

一、计算类服务运维(ECS/BMS/CCE/AS/IMS)
1. 核心运维知识点
计算服务是云上业务算力载体,运维核心工作围绕算力稳定性、资源弹性、环境标准化、成本管控、故障自愈展开,是日常运维最高频操作模块。
-
ECS弹性云服务器:云上基础虚拟化算力,支持x86/鲲鹏双架构、多AZ容灾部署。运维核心管控:实例启停重启、规格升降配、密钥密码管理、磁盘挂载卸载、带宽调整;支持按需、包年包月、竞价计费,可通过镜像、快照实现环境备份与快速重建,适配绝大多数企业通用业务、测试、前后端服务。
-
BMS裸金属服务器:无虚拟化损耗的物理服务器,硬件独占、无资源超分、隔离性与性能拉满。无需虚拟化层运维,稳定性极强,专属用于金融核心交易、涉密业务、核心数据库、高性能计算等高安全、高性能需求场景。
-
CCE云容器引擎:华为云托管K8s服务,运维无需维护底层集群架构,聚焦容器业务运维。核心管控节点池、Pod资源配额、健康检查、弹性扩缩容、命名空间权限,适配微服务、DevOps、高并发弹性业务,实现业务轻量化、高利用率部署。
-
AS弹性伸缩:自动化算力调度工具,支持监控告警、定时、周期三种伸缩策略,可联动ECS、CCE节点。核心价值是自适应业务潮汐流量,高峰自动扩容防卡顿,低谷自动缩容降成本,实现算力无人值守调度。
-
IMS镜像服务:运维标准化核心工具,支持公共、私有、共享镜像管理。可固化业务环境与依赖,实现批量服务器统一部署、故障快速重建,杜绝人工配置误差,大幅提升运维交付与故障恢复效率。
2. 运维场景高频问题及解析
-
问题1:ECS CPU/内存持续占用过高,业务卡顿缓慢
解析:多为业务程序死循环、日志打满、内存泄漏、规格资源不足导致。运维处理:登录实例排查异常进程、清理冗余日志与缓存,临时升级资源规格;长期可配置AS弹性伸缩,根据负载自动扩容,优化程序代码。
-
问题2:ECS无法远程连接(SSH/远程桌面失败)
解析:常见诱因:安全组未放行22/3389端口、EIP未绑定或带宽欠费、系统内部防火墙拦截、服务器资源耗尽卡死、密钥密码错误。运维排查:优先检查网络与安全策略,再排查系统资源与登录凭证。
-
问题3:AS弹性伸缩策略不生效,流量高峰无法自动扩容
解析:多为监控阈值配置不合理、伸缩组实例状态异常、云资源配额不足、伸缩策略处于禁用状态。运维处理:核对监控指标阈值、清理异常实例、申请资源配额、启用伸缩策略。
-
问题4:CCE容器频繁重启、启动失败
解析:常见原因:镜像拉取失败、Pod端口冲突、资源配额不足、配置文件错误、节点资源耗尽、健康检查阈值过严。运维处理:核对镜像地址与权限、调整资源配额、修正配置、优化健康检查规则。
-
问题5:自定义镜像创建失败、部署后环境异常
解析:多为创建镜像时系统存在未结束进程、文件缺失、环境配置不完整。运维处理:创建镜像前停止业务进程、清理冗余文件,确保系统环境干净稳定后再制作镜像。
二、存储类服务运维(OBS/EVS/SFS/CBR/DSS)
1. 核心运维知识点
存储运维核心目标:保障业务数据不丢失、读写稳定、容量可控、成本最优,做好数据备份、容灾恢复、冷热分层,规避磁盘满载、读写异常、数据误删等风险。
-
EVS弹性云硬盘:云上块存储,单ECS专属挂载,分为系统盘和数据盘,默认三副本冗余,数据可靠性极高。支持在线扩容、快照备份,低时延、高读写性能,适配数据库、核心业务程序等高频读写场景。
-
OBS对象存储:无限容量非结构化存储,无上限扩容,分为标准、低频、归档三种存储类型。支持冷热数据分层、权限管控、防盗链、跨区域复制,主要存储图片、视频、日志、备份包、静态资源等文件,主打海量归档与成本优化。
-
SFS/SFS Turbo弹性文件服务:NAS共享文件存储,支持多台ECS同时挂载读写。普通SFS适配通用文件共享、日志汇总;SFS Turbo为高性能版本,高吞吐、低时延,适配AI训练、HPC集群、媒体渲染等高性能场景。
-
CBR云备份:云上统一容灾工具,支持ECS整机、EVS硬盘、SFS文件存储全自动备份,可自定义备份周期,支持精准时间点恢复、跨区域恢复,是应对误删、病毒攻击、磁盘故障的核心容灾方案。
-
DSS专属分布式存储:物理独享存储资源,无资源抢占,隔离性、合规性、稳定性极强,专为金融、政务、国企核心业务打造,满足等保合规与核心数据隔离需求。
2. 运维场景高频问题及解析
-
问题1:EVS磁盘空间爆满,业务读写失败、报错
解析:日志持续堆积、缓存文件未清理、业务数据无自动清理机制导致磁盘占满。运维处理:临时清理冗余日志、垃圾文件;长期配置磁盘容量监控告警、定时清理脚本,按需在线扩容云硬盘。
-
问题2:OBS存储成本过高,资源浪费严重
解析:冷热数据未分层,低频、归档冷数据长期占用高价标准存储。运维处理:配置OBS生命周期规则,自动将低频数据降级为低频、归档存储,过期文件自动清理,大幅降低存储成本。
-
问题3:多台ECS挂载SFS后,文件读写卡顿、并发异常
解析:普通SFS吞吐能力不足,无法承载高并发读写场景。运维处理:高性能集群业务、AI训练场景替换为SFS Turbo,提升吞吐与并发能力。
-
问题4:快照无法恢复、恢复后数据异常
解析:快照创建时业务未暂停、数据未落盘,导致快照数据不完整;或原磁盘异常导致快照失效。运维处理:核心业务优先使用CBR完整备份替代快照,重要数据备份时暂停读写业务,保证数据完整性。
-
问题5:OBS文件上传失败、权限拒绝
解析:桶权限策略配置错误、IAM账号权限不足、防盗链规则拦截、跨域配置异常。运维处理:核对桶访问策略、账号权限、防盗链白名单,修正跨域配置。
三、网络类服务运维(VPC/安全组/ACL/EIP/ELB/NAT)
1. 核心运维知识点
网络运维核心目标:实现云上网络安全隔离、流量可控、组网稳定、故障快速定位,通过VPC、安全策略、流量网关构建安全、高可用的云上网络架构。
-
VPC虚拟私有云:云上专属私有网络底座,支持自定义网段、子网、路由表、网关,实现租户间100%逻辑隔离,可划分多业务子网,适配多业务独立组网、分层部署需求。
-
安全组:实例级有状态防火墙,作用于ECS、容器网卡。默认入站拒绝、出站放行,仅放行指定端口、IP、协议,单实例精准防护,是日常端口放行、业务访问控制的核心操作。
-
网络ACL:子网级无状态防火墙,全局管控子网内所有资源进出流量,规则自上而下顺序匹配、匹配即停止,用于子网整体兜底防护、批量流量拦截,配合安全组实现双层网络防护。
-
EIP弹性公网IP:可灵活绑定、解绑的独立公网IP,支持带宽调整、共享带宽配置,为云资源提供公网访问能力,可绑定ECS、ELB、NAT网关。
-
ELB弹性负载均衡:流量分发核心组件,支持四层、七层全协议转发,可绑定多后端实例,开启健康检查自动剔除异常节点,消除业务单点故障,提升并发能力与高可用性。
-
NAT网关:实现内网资源统一公网访问与端口映射。SNAT模式多机共享EIP上网,节省公网IP;DNAT模式映射公网端口至内网服务,隐藏内网真实地址,提升网络安全性。
-
VPN/云专线DC:混合云组网核心,VPN低成本实现加密云上线下互联,适配测试场景;云专线物理专属链路,低时延高稳定,适配生产核心业务混合云互通。
2. 运维场景高频问题及解析
-
问题1:ECS内网互通正常,但无法访问公网
解析:路由表无默认公网路由、NAT网关SNAT规则异常、EIP欠费限速、安全组/ACL拦截出站流量。运维处理:检查路由表默认路由、核对NAT网关规则、排查安全策略出站放行状态、确认带宽状态。
-
问题2:安全组放行端口后,业务依然无法访问
解析:忽略子网ACL拦截、服务器本地防火墙拦截、服务未正常监听端口、路由不通。运维处理:双层排查,先查子网ACL入站规则,再核对系统防火墙与服务监听状态,最后校验路由。
-
问题3:ELB访问异常、部分用户请求失败
解析:后端部分ECS节点异常、健康检查失败未及时剔除、ELB单AZ故障、端口配置错误。运维处理:查看ELB健康检查状态,下线异常后端节点,优先多AZ部署ELB,核对转发规则与端口配置。
-
问题4:子网内部分实例网络不通、流量异常
解析:网络ACL规则顺序错误、误拦截内网网段流量、ACL规则冲突。运维处理:调整ACL规则优先级,放行内网互通网段,删除冲突拦截规则,依托ACL做子网精准兜底防护。
-
问题5:多ECS公网访问冲突、公网IP资源不足
解析:单实例单独绑定EIP,资源浪费严重。运维处理:配置NAT网关SNAT规则,多内网实例共享统一EIP上网,节省公网IP资源。
四、运维监控类服务运维
1. 核心运维知识点
运维监控是云上故障预警、排障、合规审计的核心体系,实现业务异常提前感知、故障快速定位、操作全程可追溯,支撑无人值守、自动化运维工作。
-
CES云监控:全资源指标监控平台,采集CPU、内存、磁盘、带宽、QPS、数据库性能等全维度指标,支持自定义告警阈值、多级告警策略,是业务异常预警的基础核心工具。
-
LTS云日志服务:集中式日志采集分析平台,统一收纳服务器、容器、业务、网络日志,支持关键词检索、结构化分析、日志脱敏,用于故障精准排查、业务分析、安全合规审计。
-
SMN消息通知:告警统一推送载体,对接所有云服务告警事件,支持短信、邮件、钉钉、企业微信多渠道推送,保障运维人员实时接收异常通知。
-
CTS云审计:全程记录云上所有账号的资源创建、修改、删除操作,日志不可篡改、可全程追溯,满足等保合规、安全溯源、误操作追责需求。
-
COC云运维中心:一站式统一运维平台,纳管云上、线下IDC资源,支持批量作业、定时任务、脚本执行、变更风控,大幅提升批量运维效率。
-
混沌工程:主动故障演练工具,模拟宕机、断网、资源异常等场景,验证业务容灾能力,提前发现架构隐患,优化业务高可用架构。
2. 运维场景高频问题及解析
-
问题1:业务已经卡顿故障,但监控未触发告警
解析:告警阈值设置过于宽松、未配置核心指标监控、告警规则未绑定通知渠道、监控采集延迟。运维处理:优化CPU、内存、带宽、QPS等核心指标阈值,补全监控规则,绑定SMN多渠道通知,保障异常及时告警。
-
问题2:服务器宕机后,本地日志全部丢失,无法排障
解析:未配置云端日志采集,日志仅存储本地磁盘。运维处理:接入LTS云日志服务,实现日志云端持久化存储,服务器故障不丢失日志,支持随时检索排障。
-
问题3:无法追溯云上资源误操作、权限变更记录
解析:未开启CTS云审计服务。运维处理:全局开启CTS审计,全程记录所有操作行为,满足故障溯源、合规审计、操作追责需求。
-
问题4:运维批量操作重复繁琐、人工操作误差大
解析:依赖单台手动操作,无自动化运维机制。运维处理:使用COC运维中心配置批量作业、定时脚本,实现日常巡检、重启、清理等操作自动化。
-
问题5:告警消息过多、垃圾告警刷屏,核心异常被淹没
解析:告警阈值不合理、未做告警分级、无告警降噪策略。运维处理:优化阈值、划分告警级别、合并重复告警,屏蔽无效垃圾告警,聚焦核心故障。
五、数据库类服务运维
1. 核心运维知识点
数据库运维是云上核心重点工作,核心目标保障数据高可用、读写高性能、数据安全不丢失、故障快速恢复,规避数据库卡顿、连接爆满、数据异常等核心风险。
-
RDS关系型数据库:华为云托管数据库,兼容MySQL、PostgreSQL、SQL Server,默认主备架构、多AZ部署,支持自动故障切换、自动备份、读写分离、规格扩容,无需手动搭建主从架构,适配绝大多数企业通用业务。
-
GaussDB自研分布式数据库:华为国产自研企业级数据库,原生分布式架构,支持行存、列存,兼顾交易与分析场景,强事务一致、高并发、高可用,适配金融、政务核心交易系统,满足国产化替代需求。
-
DCS分布式缓存:兼容Redis的高性能内存缓存,核心用于热点数据缓存、用户会话存储、高并发秒杀限流,降低数据库查询压力,大幅提升业务响应速度与并发能力。
-
DDS文档数据库:兼容MongoDB协议,分布式弹性架构,无需手动搭建分片集群,适配物联网、小程序、电商非结构化数据存储场景。
-
数据库运维工具:DAS实现慢查询分析、性能监控、在线管理;DRS支持数据库上云迁移、增量同步;DDM分库分表,解决单库单表大数据量性能瓶颈。
2. 运维场景高频问题及解析
-
问题1:RDS数据库查询缓慢、业务响应延迟高
解析:存在大量慢查询、索引缺失、数据库连接数过高、规格性能不足。运维处理:通过DAS监控慢查询日志,优化SQL语句、补充索引,清理无效连接,按需扩容数据库规格。
-
问题2:数据库频繁报连接数爆满,业务无法读写
解析:业务连接未释放、连接池配置不合理、最大连接数阈值过低。运维处理:优化业务连接池配置,调整数据库最大连接参数,定期清理僵死连接,开启连接监控告警。
-
问题3:RDS主备切换频繁,业务短暂中断
解析:主节点负载过高、网络波动、参数配置异常、底层资源故障。运维处理:监控主节点负载与网络状态,优化数据库参数,升级高配规格,排查底层资源异常。
-
问题4:Redis缓存击穿、雪崩,导致数据库压力暴增
解析:缓存过期时间集中、热点数据失效、无熔断降级策略。运维处理:优化缓存过期时间、永久缓存核心热点数据、添加熔断限流机制,规避缓存异常风险。
-
问题5:数据库上云迁移数据不一致、同步中断
解析:网络不稳定、参数配置错误、主键冲突、增量同步异常。运维处理:依托DRS工具规范迁移配置,排查网络连通性,提前校验数据主键,断点续传保障迁移完整性。