岗位职责:
1. 对指定的多个网站进行网页抓取、数据提取;破解反爬策略;
2. 负责网页信息抽取、数据清洗等研发和优化工作;
3. 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
任职需求:
1、统招大学本科以上学历,计算机或相关专业;5年以上Python/java实际项目爬虫开发经验;
2、熟练掌握 TCP,HTTP,HTTPS,多线程底层原理。能处理多线程高并发。
3、熟练掌握JAVASCRIPT,熟悉HTML,CSS
4、熟悉反爬虫技术经验优先;
5、熟悉Mysql/Hadoop/基础存储,熟悉REDIS,设计高效的存储方式。
6、有大数据处理经验优先。