【岗位职责】:
数据采集:负责策划和执行大规模数据的采集工作,确保数据来源的合法性和多样性。
数据清洗:设计和实施数据清洗流程,去除无效或错误的数据,保证数据质量。
数据标注:制定数据标注标准,组织和管理标注团队,确保标注的准确性和一致性。
质量控制:建立和维护数据质量评估体系,定期进行数据质量检查,确保数据符合模型训练要求。
方案设计:根据项目需求,设计数据采集、清洗、标注和质检的整体方案。
团队协作:与数据科学家、机器学习工程师和产品经理等团队成员紧密合作,确保数据工程与模型开发同步进行。
技术研究:跟踪最新的数据工程技术和工具,不断优化数据处理流程。
文档编写:编写详细的数据工程文档,包括数据流程、质量标准、操作手册等。
项目管理:管理数据工程项目的时间线和预算,确保项目按时完成。
【任职要求】:
教育背景:计算机科学、统计学、数据科学或相关领域的本科及以上学历。
专业技能:
熟练掌握至少一种编程语言,如Python、Java等。
熟悉SQL和NoSQL数据库,有数据库设计和管理经验。
了解机器学习和深度学习基础,有使用过TensorFlow、PyTorch等框架的经验。
熟悉数据清洗、标注和质量控制的工具和方法。
工作经验:至少2年以上的数据工程或相关领域的工作经验。
项目管理:具备项目管理能力,能够独立管理数据工程项目。
沟通能力:具备良好的沟通和协调能力,能够与团队成员有效合作。
解决问题:具有强大的问题解决能力,能够应对数据处理中的各种挑战。
学习能力:对新技术有快速学习和适应的能力。
团队合作:能够在团队环境中有效工作,具有团队合作精神。
英语能力:良好的英语读写能力,能够阅读和理解英文技术文档。
其他:有大规模数据集处理经验者优先。
收起