岗位职责:
1、负责字节跳动数据平台实时业务稳定性体系建设,推进实时大数据产品的稳定性与服务质量的提升;
2、负责数据采集、数据流的稳定性体系建设,从问题分析、改进、治理维度落地,同时与产品研发团队合作,共同推进与兄弟团队有效联动,提升故障止血的效率;
3、负责实时数据平台的自动化工具能力建设,从标准化沉淀到工具化,提升问题发现、快速止血、运维巡检能力。
岗位要求:
1、计算机相关专业,全日制本科及以上学历;
2、5年及以上大数据实时领域SRE运维工作经验,熟悉实时计算的运维体系建设与稳定性保障。熟悉一个或多个开源组件,如:Flink/Kafka/Hadoop/Spark/Kafka/Hudi/Clickhouse等;
3、熟悉K8S、Docker架构、原理,具备运维问题分析、应急解决以及性能调优等能力;
4、对大数据产品问题排查有实际的工作经验,面对线上大数据产品问题有清晰排查思路,具备快速定位问题能力;
5、熟悉至少一门编程语言,包括但不限于:shell、python、java、Scala等;
6、具备良好的沟通表达、团队协作以及自驱能力,促进跨团队的合作。