职位详情

AI 算力工程师
15-30K
南京 江宁区
3-5年
本科
职位详情
Python
算法工程化经验
GPU
AI
岗位职责: 1.负责GPU算力集群调度与优化方案的设计、开发与落地,持续提升GPU算力集群利用率与易用性; 2.负责GPU集群日常管理、运维,并参与制定相关产品方案和技术路线,确保产品能够支持高并发和高性能计算需求; 3.协助负责GPU集群的总体规划与建设,负责AI服务器、网络技术及国产化解决方案技术支持; 4.协助负责GPU算力采购的技术支持工作; 5. 负责智能算力IAAS基础设施层的规划、GPU/DPU等异构计算网络架构设计、智能算力网络整体方案交付; 6. 组织智能算力网络与各GPU/DPU厂家、各种行业AI应用合作,提升各种应用模型下的系统性能。 任职要求: 1. 计算机、通信、自动化等相关专业,本科及以上学历; 2. 熟悉Linux平台,Python,docker, 熟悉IB、RoCE网络,有NVIDIA 等GPU集群部署、调度、管理、优化经验优先; 3. 有深度学习实际使用优化经验及数据库、分布式存储、大数据、人工智能、虚拟化等解决方案架构经验者优先; 4. .熟悉英伟达AI 套件(含CUDA,NCCL,Tools,及各种调优,部署工具)或者国产AI开发套件,有阿里云、腾讯云、金山云、亚马逊、百度云等AI服务器部署实践经验优先; 5. 亲自实施过GPU/DPU集群的网络规划,大规模部署、性能调优和整体交付,熟悉IB组网,组织裸机和虚机等方式的GPU资源和服务经验者优先; 6. 善于发现问题,有体系化思维,责任意识强,团队 沟通协作能力强; 7. 较强的文字组织能力,可独立完成项目建议书、工程实施方案等技术文档的编制; 8. 良好的自我调节能力,富有责任心,可适应出差。
收起
国网电力科学研究院有限公司
南京市 · 电力/热力/燃气/水利 · 100-499人
A级纳税人