岗位职责:
1.负责数据采集、梳理和需求调研等工作。
2.分析数据需求,设计和编写数据采集逻辑。
3.参与分布式爬虫和数据采集系统的架构设计和开发,设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量。
4.实现数据提取,清洗,结构化,入库等需求。
5.跟踪及维护爬取网站的数据更新。
任职要求:
1、统招本科或研究生学历,理工类相关专业,每周至少出勤2-3天(可面议)。
2、精通数据采集如网站采集等相关的基础软件和技术。
3、精通互联网数据采集如网络爬虫技术等的机制和原理。
4、精通java /Python/C#其中一种语言语言编程,熟悉多线程编程和分布式数据处理,熟悉各种常用的数据结构和算法。
5、熟悉Web及其相关的技术和原理。
6、熟悉orcale、mysql、sqlserver等主流数据库管理系统并熟练使用其中的一种,熟练使用SQL语句。
7. 具有文本分析、数据挖掘、自然语言处理、信息检索、机器学习背景者优先。
收起