岗位职责:
1. 负责文本视觉生成(图片,视频),文本视觉理解,多模态语言模型等基础模型的预训练及微调工作,提高模型泛化能力;
2. 负责多模态大模型技术的轻量化技术,研发可在手机上运行的端侧大模型,并在相关场景进行落地;
3. 负责多模态模型在场景中的应用落地,包括但不限于:图文生成创作,文本-视觉编辑,视频/动效生成,视频理解摘要,多模态问答,多模态智能体等;
4. 跟进业界前沿技术,持续提升团队在多模态算法方面的技术积累和行业影响力,参与前沿技术的应用研究工作。
任职要求:
1. 计算机科学,统计学,数据挖掘,数学,物理等相关专业,在预训练模型,生成算法,计算机视觉,自然语言处理,模型压缩及端侧部署,信息检索,多模态学习等中的一个或多个领域中具备实践经验;
2. 扎实的编程基础,至少熟悉一种常见的深度学习框架(Pytorch, TensorFlow等);
3. 熟悉计算机视觉,自然语言处理,机器学习等方面的基础技术,有预训练相关实践经验者,或在中文自然语言处理/多模态榜单中取得优异成绩,或在人工智能顶会/期刊上发表研究论文者优先(例如:CVPR/ICCV/ECCV/NIPS/AAAI/EMNLP/ICML/ICLR/TPAMI/TIP/IJCV等);
4. 良好的数学基础与英文阅读能力,具备良好的团队协作意识与优秀的自驱力