一)岗位描述:
1、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析
2、负责信息抽取、数据清洗等研发和优化工作
3、负责抓取数据的深度提取和挖掘
4、参与爬虫核心算法的策略优化研究,提升网页抓取的效率和质量。
(二)任职要求:
1、熟悉linux平台开发,精通Python/Java两种编程语言中的至少一种
2、精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息
3、熟悉Mysql,有过数据库调优和海量数据存储经验优先
4、具有阿卡迈爬虫相关技术爬虫经验者优先
5、学习能力强,有较好的沟通能力,能迅速融入团队
6、有分布式网络爬虫开发经验,熟悉Scrapy\PySpider等采集框架,掌握简单的验证码识别技术、Ajax网页采集技术以及爬虫高并发技术,流式处理经验者优先