岗位职责:
1、负责设计和开发分布式网络爬虫系统,进行多平台、不同维度信息的抓取和分析;
2、反爬虫策略研究,实时监控爬虫的进度和预警处理,保障数据获取能力;
3、负责持续跟踪分析爬虫系统的技术缺陷,对策略架构做出合理地调整和改进,提升公司相关产品与服务的竞争力;
任职要求:
1、有从事网络爬虫、网页去重、网页信息抽取的经验,精通网页抓取原理及技术,有两年及以上爬虫经验;
2、熟练使用常见爬虫框架(xpath/scrapy/scrapy-redis/pyspider等);
3、能处理常见反扒问题能力(代理/app抓包/web反扒);
4、掌握常用js混淆的调试分析。
5、熟练使用 mongo,redis,mysql 等数据库;
6、精通信息抓取和整合技术,从结构化的和非结构化的数据中获取信息,掌握正则表达式;具备一定的信息检索和web挖掘能力者优先;
7、计算机相关专业本科以上学历,能承受一定工作压力,以解决技术难题为乐趣,有想法,敢于挑战;