岗位职责:
1.负责内容相关的数据抓取和清洗工作;
2.推进抓取架构的完善,不断提升系统的准确性、实时性;
3.配合后端完成运营平台的相关开发。
4.负责记录的定向爬取、深度提取和挖掘。
5.设计爬虫策略和防屏蔽规则提升抓取效率和质量;
职位要求:
1.有python研发经验,1年以上数据抓取工作经验;熟悉linux开发环境;
2.有扎实的算法和数据结构能力;
3.熟悉爬虫原理,熟悉常见的反爬虫技术,有爬虫相关项目开发经验者优先;
4.掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术;
5.精通任意一种开源爬虫框架,比如scrapy,有开发爬虫框架经验优先;
6.熟悉验证码识别技术者优先;
7.有大规模数据处理、数据挖掘、信息提取等经验者优先;
8.承担较大的工作压力,具有良好的沟通和团队协作能力;有一定的数据基础,工作条理清楚,善于学习。