职位描述
1. 分布式计算/存储/调度、深度学习框架(类TensorFlow/PyTorch)的底层算子优化;
2. 研究业界最新进展,研发图神经网络分布式训练平台,基于软硬件协同加速。
职位要求
1.精通python语言,以及其 Native 接口技术;
2.良好的C/C++编程基础;
3.熟悉机器学习框架如TensorFlow、PyTorch、MXNet等至少其中一种;
4. 熟悉CPU、GPU性能调优的原理及概念(如流水线、缓存、指令宽度等),熟悉Nvidia GPU各系列架构;
有如下经验之一者优先:
1. 熟悉参数服务器、All-Reduce等分布式机器学习框架理念,有实践经验者优先。
2. 了解NCCL通信库,有CUDA、TensorRT加速经验者优先;
3. 熟悉多核多线程优化, 掌握OpenMP, TBB, MKL 中的一项者优先;
4. 熟悉编译原理、虚拟机、引擎优化等技术至少一种的优先;
5. 熟悉GNN算法者优先。