岗位职责:
1、负责分布式网络爬虫系统的架构设计与开发;
2、分析爬取过程,提供技术实现方案;
3、分析静态网页结构,解析网页数据,对数据进行过滤,去重,结构化处理;
4、设计优化爬虫调度系统,优化调度策略,实时监控爬虫进度和报警反馈;
任职要求:
1、本科以上学历,3年以上开发经验,计算机相关专业优先;
2、精通Python,有爬虫和反爬虫经验者优先,有大数据爬虫经验尤佳;
3、至少熟悉并使用过一种主流爬虫架构,如Scrapy、Webmagic等;
4、熟悉网络编程,对TCP/IP,HTTP有深入理解;
5、掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术;
6、熟练使用Mysql数据库,Nosql数据库如Redis等;
7、掌握企业官方微信公众号文章的抓取,能用python写程序爬取企业官微发布的文章;
8、做事严谨,责任心强。工作条理清楚,善于学习总结。具有良好的沟通和团队协作能力;
收起