职位描述:
基于EFLOPS高性能集群构建大规模机器学习平台,结合底层硬件架构、深度学习框架和AI编译等相关技术,为自动驾驶、CV和NLG等算法模型的训练、推理和部署提供全链路性能加速。
1.识别和定位深度学习模型训练推理和系统的性能瓶颈,优化CPU/GPU/内存/通信等资源利用率,提升并行计算并发效率;
2.研究深度学习和性能加速的最新发展趋势,将前沿的算法和优化技术应用到实际生产实践中。
职位要求:
1.计算机、人工智能、应用数学等相关专业硕士以上学历,5年研发经验;
2.扎实的代码能力,有较强的软件架构设计能力,熟练掌握C/C++/Python编程语言,熟练掌握CUDA/OpenCL/SYCL等其中一种编程语言;
3.深度理解自动驾驶、CV、NLP/LLM等领域相关算法模型和常用开发工具包;
4.熟悉TensorFlow、PyTorch等框架,熟悉掌握深度学习性能加速技术,包括但不限于计算图优化、低精度优化、算子加速,以及DeepSpeed、Megatron等并行加速技术;
5.熟悉AI编译器,有LLVM、TVM、MLIR、XLA 等编译开发经验者优先;
6.熟悉大规模并行计算集群、分布式存储基础架构、高性能Collective 通信原语等优先;
7.熟悉计算机体系结构,对CPU/GPU/DSA微架构或内存子系统有深刻理解优先;
8.有操作系统内核、虚拟化、系统库、编译器等底层系统开发经验优先。