上海捷拓信息技术有限公司

上海 ·IT/互联网 ·20-99人

高级爬虫工程师

15-30K

南京

3-5年

本科

全职

职位描述
职位描述
1. 参与爬虫系统的架构设计与开发;
2. 负责执行和开发分布式网络爬虫系统,进行多平台信息的抓取和分析;
3. 负责网页信息和APP数据抽取、清洗、消重等工作,提升平台的抓取效率;
4. 参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;
5. 实时监控爬虫的进度和警报反馈。
任职资格:
1. 本科以上学历,3年以上爬虫开发相关经验,熟练使用Python或Java进行开发;
2. 熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
3. 熟练使用MySQL数据库,掌握redis、mongodb、hive等常用nosql技术并具有实战经验;
4. 熟悉各种抓取技术,包括代理、PhantomJS/selenium、验证码处理;
5. 熟悉整个爬虫的设计及实现流程,有从事网络爬虫、网页信息抽取开发经验,熟悉反爬虫技术,有分布式爬虫架构经验;
6. 具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先;
7. 快速学习能力,工作积极主动,有创业热情和良好的团队协助能力。
8. 需要有大量数据爬取以及高难度反爬经验,没有相关经验的勿扰。
相似职位