视觉多模态算法专家-北京/杭州

35-65K·16薪

北京

3-5年

本科

全职

职位描述

职位描述
1、负责包括图像、视频在内的多模态内容理解，持续研发提升基础视觉算法能力。
2、支持多模态大模型相关业务应用需求，针对真实场景的用户需求，设计/创新职位描述
1、负责包括图像、视频在内的多模态内容理解，持续研发提升基础视觉算法能力。
2、支持多模态大模型相关业务应用需求，针对真实场景的用户需求，设计/创新合理的技术方案。
3、探索多模态大模型的高效微调技术和推理技术，保证大模型在业务场景中的快速适配和高效调用；

任职要求
1、在多模态大模型方向有一定经验，熟悉主流多模态大模型（LLaVA等)的基本原理和训练方法，对Pre-train、SFT等技术有较深入了解；
2、具备扎实的编程功底，熟悉 Pytorch 等主流深度学习框架，熟练使用 C ++/ Python 等至少一种编程语言，熟悉 Linux 开发环境；
3、对技术有热情，有良好的沟通表达能力和团队精神，自驱力强；对大模型应用、图像识别、用户意图识别有深入了解的优先；
4、在顶级会议或期刊上发表过有影响力的学术论文或在重要算法比赛中取得过优秀名次的候选人优先。

公司介绍

蚂蚁集团起步于2004年诞生的支付宝，源于一份为社会解决信任问题的初心，经过十九年的发展，已成为世界领先的互联网开放平台。
我们通过科技创新，助力合作伙伴，为消费者和小微企业提供普惠便捷的数字生活及数字金融服务；
持续开放产品与技术，助力企业的数字化升级与协作；
在全球广泛合作，服务当地商家和消费者实现“全球收”、“全球付”和“全球汇”。

北京蚂蚁集团环球金融中心

面试经验