SRE工程师
职位描述:
1.负责互联网和大数据等系统的运维工作。
2.为大型系统构建自动化运维;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性。
3.推动提升服务的可用性、可靠性、可扩展性以及性能优化,保障系统SLA。
4.参与设计、实现能够保障线上大规模集群快速迭代的自动化平台。
5.基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、问题定位排障、推进系统高可用架构改造升级等。
6.负责线上重大问题排查,紧急事故处理,后续事故分析与优化。能采取各种技术手段改进,防止故障再现。
7.推动研发对软件进行优化,提高软件性能,减少服务器数量,控制成本。
职位要求
1.统招本科以上学历, 计算机相关专业, 5年以上知名互联网公司SRE相关经验。
2.扎实的计算机软件基础知识; 熟悉Linux操作系统、存储、网络 IO等相关原理。
3.有良好的编程基础和debug能力,熟练掌握shell编程,使用Python或Go开发过运维工具,可以通过程序解决工作中遇到的效率问题。
4.具备系统化解决问题的能力。熟悉高并发、高可用、微服务系统架构运维者优先;能够快速解决线上事故。
5.3年以上容器、数据库、大数据相关技术及监控工具:docker、K8s、Hadoop、HBase、Hive、Spark、Kafka、Zookeeper、Zabbix/Open-Falcon等。
6.有CI/CD实施经验,精通常用DevOps工具,如Jenkins、Git等。
7.熟悉SRE运维体系者优先,有3年以上MySQL、Redies、MongoDB、MQ等实践和运维经验。