1. 负责大规模预训练模型LLM、SFT、RLHF等相关底层技术的研究与实现
2. 负责大规模多模态预训练等相关底层技术的研究与实现。
3. 将预训练模型与搜索/教育/医疗等领域实际问题相结合,包括但不限于训练任务优化、任务迁移、知识融入更新、模型性能提升等。
4. 负责跟进业界先进技术、赋能业务效果提升。
职位描述
1. 计算机、数学或统计学相关专业硕士及以上学历,具有2年以上计算机NLP相关工作经验;
2. 熟练使用pytorch/tensorflow等至少一种主流深度学习框架,能够独立实现前沿模型,在自然语言理解、深度学习等领域有较深入的研究;
3. 有大规模预训练模型训练优化经验、熟悉deepspeed、Megtron-LM等
4. 对LLM、Fine-tuning策略、prompt策略以及NLP任务具有深入理解和实践经验优先
5. 有顶会论文、比赛经历优先