职位描述
1、负责包括图像、视频在内的多模态内容理解,持续研发提升基础视觉算法能力。
2、支持多模态大模型相关业务应用需求,针对真实场景的用户需求,设计/创新职位描述
1、负责包括图像、视频在内的多模态内容理解,持续研发提升基础视觉算法能力。
2、支持多模态大模型相关业务应用需求,针对真实场景的用户需求,设计/创新合理的技术方案。
3、探索多模态大模型的高效微调技术和推理技术,保证大模型在业务场景中的快速适配和高效调用;
任职要求
1、在多模态大模型方向有一定经验,熟悉主流多模态大模型(LLaVA等)的基本原理和训练方法,对Pre-train、SFT等技术有较深入了解;
2、具备扎实的编程功底,熟悉 Pytorch 等主流深度学习框架,熟练使用 C ++/ Python 等至少一种编程语言,熟悉 Linux 开发环境;
3、对技术有热情,有良好的沟通表达能力和团队精神,自驱力强;对大模型应用、图像识别、用户意图识别有深入了解的优先;
4、在顶级会议或期刊上发表过有影响力的学术论文或在重要算法比赛中取得过优秀名次的候选人优先。