工作职责:
1. 负责确保公司业务平台的高可用性、高稳定性和高性能,制定优化策略,并持续完善运维规范和标准操作流程;
2. 领导设计并实施可扩展、可维护的运维架构和运维自动化系统,实现运维流程的精益化和智能化;
3. 主导安全风险评估、安全策略制定和执行,确保系统安全;
4. 领导监控和审查系统架构合理性、流程逻辑合理性、系统性能和稳定性等技术领域和指标,与业务团队紧密合作解决问题;
5. 充当生产环境故障的总调度角色,领导相关团队进行故障排查和解决,对故障响应时间和故障解决时间负责;
6. 持续跟踪分析业界最新的运维管理、技术发展动态,组织团队学习提升。
任职要求:
1. 计算机相关专业,8年以上互联网研发、系统运维或 SRE 相关经验,至少3年运维架构设计或技术管理经验;
2. 深入理解互联网技术架构,精通微服务架构、K8S、Docker、监控告警、CI/CD、日志系统、分布式缓存和数据库系统等技术;
3. 丰富的大型分布式系统和高并发业务运维经验,具备优秀的故障诊断和系统优化能力;
4. 有丰富的云平台运维经验(如 AWS、阿里云等),精通 MySQL、MongoDB 或其他数据库,熟悉大数据技术者优先,有混合云架构经验者优先;
5. 精通 Python、Go 或 Java 中的至少一种编程开发语言,具备一定的开发经验;
6. 具备丰富的团队管理及组织协调能力,能够引领团队解决疑难问题;
7. 具备良好的创新思维,追求技术卓越,热衷于解决复杂和具有挑战性的问题;
8. 具备优秀的沟通与表达能力、团队协作精神和抗压能力。