职岗位职责:
1.负责网络爬虫工具以及爬虫框架的设计和开发;通过爬虫工具维护日常数据爬取以及相关诉求。
2.优化搜索、匹配、抓取等关键程序的性能及效率;优化采集系统的调度策略。
3.研究及破解各类反爬技术,并将相关能力融合到爬虫工具中去。
4.培训运营/运维团队合理使用工具,完成业务数据的获取。
任职要求:
1. 熟练使用Python或Java进行开发;
2. 熟悉反爬技术技术,图片识别码,滑动块识验码等技术
3. 熟悉手机APP抓取优先
4. 熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
5. 熟练使用MySQL数据库,掌握redis或mongodb等常用nosql技术;
6. 精通一种开源爬虫框架,如scrapy、webmagic、nutch、heritrix等,有开发爬虫框架经验优先;
7. 具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先;
8. 同时精通Python与Java者优先;
收起