职位描述
1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节;
2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源;
3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理;
4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。
职位要求
1、一年以上运维开发项目经验;
2、熟练掌握 Linux 环境下的 Go/Python/Shell 等1至2种以上语言;
3、有大型分布式系统的资源管理和任务调度系统运维经验,熟悉 Kubernetes生态和架构,具备1年以上相关的运维经验;
4、熟悉 Docker/Kata 等容器化技术,具备1年以上运维经验;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,良好的团队合作精神;
6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项:
1、从事过大规模分布式系统的运维;
2、有 GPU 服务器的运维经验。