岗位职责:
1.负责GPU算力集群调度与优化方案的设计、开发与落地,持续提升GPU算力集群利用率与易用性;
2.负责GPU集群日常管理、运维,并参与制定相关产品方案和技术路线,确保产品能够支持高并发和高性能计算需求;
3.协助负责GPU集群的总体规划与建设,负责AI服务器、网络技术及国产化解决方案技术支持;
4.协助负责GPU算力采购的技术支持工作;
5. 负责智能算力IAAS基础设施层的规划、GPU/DPU等异构计算网络架构设计、智能算力网络整体方案交付;
6. 组织智能算力网络与各GPU/DPU厂家、各种行业AI应用合作,提升各种应用模型下的系统性能。
任职要求:
1. 计算机、通信、自动化等相关专业,本科及以上学历;
2. 熟悉Linux平台,Python,docker, 熟悉IB、RoCE网络,有NVIDIA 等GPU集群部署、调度、管理、优化经验优先;
3. 有深度学习实际使用优化经验及数据库、分布式存储、大数据、人工智能、虚拟化等解决方案架构经验者优先;
4. .熟悉英伟达AI 套件(含CUDA,NCCL,Tools,及各种调优,部署工具)或者国产AI开发套件,有阿里云、腾讯云、金山云、亚马逊、百度云等AI服务器部署实践经验优先;
5. 亲自实施过GPU/DPU集群的网络规划,大规模部署、性能调优和整体交付,熟悉IB组网,组织裸机和虚机等方式的GPU资源和服务经验者优先;
6. 善于发现问题,有体系化思维,责任意识强,团队
沟通协作能力强;
7. 较强的文字组织能力,可独立完成项目建议书、工程实施方案等技术文档的编制;
8. 良好的自我调节能力,富有责任心,可适应出差。
收起