岗位职责:
1、负责公司线上系统运维,提升业务稳定性,制定和优化运维解决方案,包含容灾/弹性扩容等;
2、配合各研发方向合作,提供高效的监控、故障快速处理的手段和能力,提升运维工作效率;
3、参与业务系统容量测算和规划设计,优化资源运维成本;
4、审查架构合理性,梳理、识别应用架构风险,解决或推动业务研发解决架构风险;
5、完善相关应用的监控告警、降级与预案建设,组织故障演练、应急止损、事故复盘等稳定性工作;
6、参与设计、开发稳定性相关工具与产品,包括稳定性架构治理、监控报警、预案与演练、定位与止损等相关方向工具平台;
职位要求:
1、5年及以上工作经验,本科及以上学历,计算机、通信等相关专业;
2、有较丰富的应急处置、应用稳定性建设经验,有大型网站或者B端产品应用运维经验加分;
3、具有一定的Kubernetes实际使用经验,有社区贡献者优先;
4、熟悉互联网技术架构和相关开源产品,对网络通讯协议、应用服务器、负载均衡、微服务架构有较深入的理解;
5、熟悉应用高可用架构,对架构治理、稳定性架构有较深入理解;
6、熟练掌握Shell或Python开发,有Golang或Java开发经验优先;
7、优秀的逻辑思维能力及沟通能力,高效的执行力,责任心强。