职位描述
1、负责公司数万节点大数据集群的各项运维管理工作,保障集群服务的高可用性运行;
2、负责超大规模集群服务运维管理平台的设计与研发工作,保障集群服务版本高速迭代以及变更的风险控制;
3、负责集群服务的监控报警体系规划与产品研发迭代,推进监控报警有效性与智能化;
4、负责集群服务容量规划、服务管理与治理规划与产品研发迭代工作。
任职要求
1、大学本科及以上学历,计算机或者相关专业,3年以上经验均可;
2、 熟悉Hadoop生态圈各组件基本原理以及使用(包括但不限于Hdfs、Yarn、Hbase、Kafka、Hive、Clickhouse);
3、具备扎实的编程能力,掌握至少一种脚本语言(Shell、Perl、Python等),熟悉Java等开发语言者优先,熟悉常用算法和数据结构;
4、Linux操作系统基础扎实,对操作系统原理有一定了解;
5、具有良好的抗压能力,较强的故障分析排查能力,有很好的技术敏感度和风险识别能力。
符合以下条件优先:
1、有大规模大数据服务集群(包括但不限于Hdfs、Yarn、Hbase、Kafka、Hive、Clickhouse)维护经验,对运维体系建设有自己的见解;
2、有Aiops开发经验,了解常用算法。