职位描述
1、负责字节跳动飞书产品的可靠、稳定运行,为相关产品SLA负责;
2、审查架构合理性,梳理、识别应用架构风险,解决或推动业务研发解决架构风险;
3、完善相关应用的监控告警、降级与预案建设,组织故障演练、应急止损、事故复盘等稳定性工作;
4、参与设计、开发稳定性相关工具与产品,包括稳定性架构治理、监控报警、预案与演练、定位与止损等相关方向工具平台;
5、参与OnCall值班,第一时间响应并与RD共同解决各类突发事件,保障核心业务的稳定性。
职位要求
1、2年及以上工作经验,本科及以上学历,计算机、通信等相关专业;
2、有较丰富的应急处置、应用稳定性建设经验,有大型网站或B端产品应用运维经验加分;
3、熟悉互联网技术架构和相关开源产品,对网络通讯协议、应用服务器、负载均衡、微服务架构有较深入的理解;
4、熟悉应用高可用架构,对架构治理、稳定性架构有较深入理解;
5、熟练掌握Shell或Python开发,有Golang或Java开发经验优先;
6、优秀的逻辑思维能力及沟通能力,高效的执行力,责任心强。