sre高级工程师

35-60K·15薪

北京

不限

本科

全职

职位描述

职位描述
1、负责维护机器学习系统的稳定运转，支持模型开发、训练与部署的多个环节；
2、负责资源的管理与规划，成本与预算，包括: GPU/CPU机器资源，存储等资源；
3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理；
4、负责集群、业务服务的稳定性治理，资源利用率提升和运维人效提升。
职位要求
1、一年以上运维开发项目经验；
2、熟练掌握 Linux 环境下的 Go/Python/Shell 等1至2种以上语言；
3、有大型分布式系统的资源管理和任务调度系统运维经验，熟悉 Kubernetes生态和架构，具备1年以上相关的运维经验；
4、熟悉 Docker/Kata 等容器化技术，具备1年以上运维经验；
5、有强烈的工作责任心，较好的学习能力、沟通能力和自驱力，良好的团队合作精神；
6、有优秀的逻辑分析能力，能够对业务逻辑进行合理的抽象和拆分；
7、有良好的工作文档习惯，及时按要求撰写更新工作流程及技术文档。

加分项：
1、从事过大规模分布式系统的运维；
2、有 GPU 服务器的运维经验。

公司介绍

字节跳动成立于2012年3月，公司使命为“Inspire Creativity, Enrich Life（激发创造，丰富生活）”。公司业务覆盖150个国家和地区，拥有15万名员工。
字节跳动在全球推出了多款有影响力的产品，包括今日头条、抖音、西瓜视频、飞书、Lark、PICO、剪映、TikTok等。截至2021年6月，字节跳动旗下产品全球月活跃用户数超过19亿。

北京海淀区方恒时尚中心1

校园宣讲会