1.岗位职责
1)在系统工程师或高级程序员的指导下工作;
2)负责互联网数据采集爬虫的开发;
3)调查分析互联网站、网页采集过程出现的问题,定位原因,提出解决思路;
4)互联网站、网页、链接的特征挖掘,进行网页抓取、数据提取、清洗、入库;
5)参与分布式网络爬虫系统开发;
2.任职要求
1、1年以上Java或者C#或者Python开发经验,有爬虫开发的实际项目经验;
2、熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
3、熟悉使用至少一种关系型数据库(MYSQL)等;
4、熟悉一种开源爬虫框架,如scrapy、webmagic、nutch、heritrix等,有开发爬虫框架经验优先;熟悉反爬虫、验证码识 别技术者优先;
5、兼具Python与Java者优先。
收起