岗位职责:
1. 负责根据业务需求/规划开展爬虫工作,同时对现有爬虫进行维护和完善;
2. 持续进行爬虫核心技术研究和策略优化,攻克疑难技术问题,设计防屏蔽规则,提升数据抓取的效率和质量;
3. 建立爬虫监测体系,及时监控及解决运行过程中出现的问题,确保数据的稳定性和准确性;
4. 参与公司内部爬虫平台的架构设计与开发,并结合业务场景及NLP等技术,实现产品化。
岗位要求:
1. 计算机或相关专业毕业,本科及以上学历,有2年以上爬虫工作经验;
2. 熟悉Java、Python、HTML、JavaScript等编程语言,了解Spring Boot框架,熟悉常见爬虫框架如Scrapy、Selenium等;
3. 熟悉MySQL、MongoDB等主流数据库,熟练掌握SQL语句编写;
4. 熟悉Linux环境,能使用常用的Linux命令;
5. 熟悉网络基础,了解TCP/IP网络协议,熟悉HTTP协议;
6. 掌握爬虫原理,掌握正则表达式、XPath的使用,掌握常见抓包分析工具如Fiddler、Charles、Wireshark、Postman等,熟悉常见反爬机制;
7. 具备较强的抗压能力,有责任心,注重工作效率和代码质量。