工作职责:
1、负责大语言模型的研发与优化,包括模型架构、训练方法和调优策略等;
2、基于大语言模型,提升各类业务领域自然语言处理下游任务,例如文本分类、关键词提取等;
3、与业务部门合作,为各个业务场景定制大语言模型训练和部署方案,提升业务效果;
4、关注前沿技术,跟进业内最新研究进展和应用趋势,提出创新思路和方向;
5、优化现有大语言模型相关工具和平台,提高模型训练、部署和维护效率,降低成本,提升服务稳定性。
任职要求:
-本科及以上学历,计算机相关专业优先,良好的沟通与表达和团队协作能力
-熟悉至少一种深度学习框架(PaddlePaddle、PyTorch、TensorFlow、Caffe等)
-熟练使用Linux系统,熟练使用c++、python等语言,精通常用算法和数据结构,对常见的机器学习、深度学习算法有较强的实践能力
-对大模型分布式训练有经验,熟悉DeepSpeed/Megatron/ColossalAI等加速框架,熟悉数据并行DP,流水线并行PP,模型张量并行MP等3D并行技术
-熟悉transformer算子加速、混合精度训练、recompute、TVM编译器等技术
-对OPT/BLOOM/LLaMA/GLM等大模型训练的稳定性、收敛性有了解或实践
收起