岗位职责:
1. 设计和实现多租户高性能 SDN 控制模块,基于 IB 网络和 RDMA 通信协议,以实现高效、稳定的大模型训练数据交换。
2. 提出合理的设备选型和组网架构方案,确保网络的稳定性和可靠性。对于网络故障,进行排查和解决,保证网络的正常运行。
3. 根据业务场景开发云网络功能模块,优化高速网络的数据传输效率、降低相应时间,并提升运维管理能力。
4. 深入了解 NVIDIA QUANTUM 和 SPECTRUM 交换机以及 ConnectX 网卡的主要特性和功能原理,以便能够充分利用其性能优势。
5. 编写相关文档和测试用例,确保产品的质量和稳定性。与团队成员和其他相关部门进行有效的沟通和协作,推动项目的进展并达成目标。
任职要求:
1. 拥有计算机、电子、通讯或相关专业的学位。熟练掌握 C/C++/Golang 等系统编程语言,并熟悉 Python、Shell 等脚本语言。
2. 具备至少 3 年相关工作经验,参与过大、中型项目,并在实际高性能 IB 网络开发方面有成功的经验。
3. 具备配置和使用 NVIDIA EDR、HDR、NDR 交换机组网建设经验。
4. 深入理解网络协议原理,如 RDMA、UDP、BGP 等,并熟悉 Linux 网络协议栈和常用网络命令。
5. 优先考虑:熟悉 k8s 容器服务技术,或 OVS 虚拟网络技术,或 DPDK/eBPF 等旁路加速技术,或常用 overlay 隧道协议。
6. 具备深入的技术理解、优秀的编程能力和解决问题的能力。同时,拥有出色的团队协作和沟通能力。
关键词:
IB RDMA HDR QUANTUM ConnectX