岗位职责:
1. 参与分布式爬虫和数据采集系统的架构设计和开发;
2. 负责网络数据抓取规划、增量爬取指定渠道的数据;
3. 设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
4. 参与数据层建设,专注于垂直领域数据爬取,进行多平台信息的抓取和分析;
5. 实现数据提取、清洗、结构化、入库、统计分析等需求;
6. 研究优化算法,提升爬虫系统的稳定性、可扩展性。
职位要求:
1. 本科或以上学历,计算机或相关专业;2年或以上python爬虫开发相关工作经验;
2. 扎实的python基础,熟悉Python的多线程/进程/协程等操作,有良好的编码习惯,掌握面向对象设计原则,可熟练运用常见的设计模式;
3. 熟悉Oracle,mysql等常见数据库;
4. 熟悉爬虫开发,熟悉常用爬虫框架如Scrapy、Requests、XPath等, 并了解原理和机制。了解常见的反爬手段及其应对措施;
4. 熟悉WEB到后端的数据链路和交互,有linux/unix下项目开发以及程序调试经验;
5. 善于沟通和逻辑表达,良好团队合作精神和积极主动的沟通意识,有项目管理经验优先;
6. 有强烈的上进心和求知欲,善于学习和运用新知识;
7. 熟悉java/kotlin/php 等其它语言者优先。
收起