大模型数据工程师

15-30K

深圳

不限

本科

全职

职位描述
Docta.ai是一家诞生于硅谷的AI初创公司,专注于确保深度学习、机器学习以及大语言模型的训练数据的安全和可靠性。团队成员包括哈佛大学、加州大学、上交、上科大等学校的教授及博士,并在字节跳动、腾讯等科技公司担任过Tech Leader和高级研究员职位。创始团队在机器学习数据质量领域有10多年科研及业界经验,其成果发表在机器学习顶会(ICML,NeurIPS,ICLR)40余篇,千星开源项目(https://github.com/Docta-ai/docta),并在Amazon等公司落地验证。
目前,我们正在寻找机器学习(大模型数据)工程师 (全职/实习生)、前端工程师(兼职)和后端工程师(全职)来完成我们第一款商业化产品。在这里,你将接触数据质量领域顶尖的科研团队,对大模型HHH(helpful, honest, harmless)做出贡献。公司国内部门目前完全远程办公,全职员工提供五险一金,工作时间灵活。我们追求高效,拒绝一切耗时长加班等行为。

公司旨在用算力代替人力,用算法完成高质量数据标注/清洗,减少繁杂冗余的人工标注,将人力资源安排到定向产生高质量稀缺数据的工作中。前端工程师主要负责产品交互设计及实现,后端工程师主要负责产品内容接口及数据中心搭建维护,机器学习工程师主要负责优化整理现有互联网数据,与算法团队对接。


(爬虫)
大模型数据工程师职位简介:(10k ~ 30k/m)

1. 爬虫技能
- 遵循robots协议,爬取互联网上允许搜索爬虫采集的公开信息,参与爬虫系统的建设与优化,满足各类业务数据需求;
- 实现数据提取、清洗、结构化、入库、统计分析等需求;
- 有数据爬取的项目经历;熟悉各种反爬,如验证码、滑块、模拟登陆等;
- 熟悉 Python,具备良好的编码风格及编码能力;熟悉主流爬取技术及爬虫框架工具,如 Selenium/Puppeteer/Scrapy/PhantomJS 等;
2. 数据库管理技能:
- 具备数据库基本知识,能够与数据库工程师对接
- 有向量数据库开发、使用经验,如FAISS。
3. 其他:
- 理解机器学习基本概念,能够读写英文文档(必须)
- 良好的沟通技能,能够与其他技术团队成员有效沟通,解释应用程序功能。
- 需要计算机科学、软件工程、数据科学、数据库管理或相关领域的学士学位或以上。
- 了解机器学习基本知识,能够与机器学习工程师对接。
- 具备相关的实践经验或者工作经验,将增加竞争力。
公司介绍
链接全球优秀公司的软件服务商
深圳福田区皇庭广场5
相似职位