岗位职责:
1、负责对目标网站和CS客户端抓取数据进行分析,调优爬取策略。
2、负责爬虫平台的设计和开发,包括调度策略、分布式的设计与优化。
3、负责爬虫平台的监控和报警服务设计及优化,保证爬虫平台的稳定运行。
4、负责可视化采集模板的技术调研、设计及开发。
技术要求:
1、熟练使用http代理工具,如Fidder等。以及正则表达式、XPath、CSS等方式抽取网页元数据。
2、掌握mysql、mongodb的使用。
3、有Scrapy、Portia等开源爬虫项目二次开发经验者优化。
4、熟悉针对CS客户端数据内容获取项目经验者优先。