岗位职责:
1、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析
2、负责信息抽取、数据清洗等研发和优化工作
3、负责抓取数据的深度提取和挖掘
4、参与爬虫核心算法的策略优化研究,提升网页抓取的效率和质量。
岗位要求:
1、熟悉linux平台开发,精通Python/Java两种编程语言中的至少一种;
2、精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;
3、熟悉Mysql,有过数据库调优和海量数据存储经验优先;
4、具有阿卡迈爬虫相关技术爬虫经验者优先;
5、学习能力强,有较好的沟通能力,能迅速融入团队;
6、有分布式网络爬虫开发经验,熟悉Scrapy\PySpider等采集框架,掌握简单的验证码识别技术、Ajax网页采集技术以及爬虫高并发技术,流式处理经验者优先。