负责公司大数据平台ambari(Hadoop/Spark/Flink/Kafka/HBase/Hive) 的部署、日常运维、监控与高可用保障。
负责集群扩容、容量规划、性能调优、故障排查,保障生产 7×24 稳定运行。
负责监控体系建设(Prometheus/Grafana/Zabbix/ELK),完善告警、巡检、日志分析机制。
负责自动化运维建设:Shell/Python 脚本、Ansible 批量管理、部署与备份自动化。
负责数据平台权限管理、安全策略、备份恢复、灾备演练,保障数据安全。
对接业务部门,处理作业异常、资源申请、性能问题,输出运维报告与优化方案。
参与大数据架构升级、组件版本迭代、容器化(Docker/K8s)改造等项目。
二、任职要求
- 基本条件
大专及以上学历,计算机、软件工程、网络、自动化、电子信息等相关专业。
1 年以上大数据运维经验;有工厂 / 制造业 / 电子行业大数据平台运维经验优先。
能接受轮班 / 应急 oncall,抗压性强,责任心强,沟通协作良好。
- 技术能力(必须具备)
Linux :CentOS/Rocky,系统调优、磁盘 LVM、网络、内核参数、防火墙、进程 / 内存 / CPU 排障。
大数据生态熟练:
存储:HDFS 高可用、扩容、小文件优化、权限。
调度:YARN 队列、资源隔离、调度调优。
计算:Spark、Flink 集群部署、参数调优、任务排障。
消息:Kafka、Flume 高可用、积压、分区、副本。
数仓:Hive、HBase 备份、容灾、热点优化。
脚本能力:熟练Shell;会Python做自动化工具优先。
监控与排障:熟悉Zabbix/Prometheus/Grafana/ELK,能独立定位集群异常、GC、节点宕机、数据倾斜等问题。
网络 / 存储 / 安全:熟悉 TCP/IP、路由、交换机;熟悉RAID、SAN/NAS;了解数据安全、权限审计。
有HBASE集群实际运维者优先。
- 加分项(有一项即可优先)
有富士康 / 电子制造 / 工厂 MES、数据中台运维经验。
熟悉Docker/K8s容器化部署与运维。
熟悉Hadoop 国产替代(CDH/CDP/ HDP华为 MRS)。
有 ** 大规模集群(200 + 节点)** 运维、调优、灾备经验。
有意者留言