岗位职责:
1.快速熟悉实验室项目和业务,能在较短时间进入工作状态,融入团队。
2.自主对接需求,独立完成采集架构设计和开发,编码,测试,运维等工作;同时可以做到bug快速定位和解决。
3.能够持续的构建优质的结构化良好的数据集,并持续的更新和扩大数据的规模,通过和算法的结合提高数据质量。
任职资格:
1.具备极强的数据素养,可以快速根据模型训练需求或项目需求找到优质的数据源;
2.熟练掌握Linux,熟悉高频命令的使用,可以编写bash或者shell脚本辅助代码和Server的自动化部署运维;
3.具有3年及以上大规模分布式爬虫开发经验,至少精通Python,Java,C++,Go这些主流编程语言中的一种;
4.熟练掌握Socket网络编程,多线程/进程/异步/超并发code的开发,掌握TCP/IP,UDP及常见变种网络通信协议;
5.熟练使用scrapy-redis等主流分布式爬虫框架进行开发,可以灵活编写中间件及修改框架代码达到最高效采集;
6.熟练使用正则表达式,xpath,css Selector等匹配方法,能够快速从结构化和非结构化的原始数据中获取有用信息;
7.熟练使用Wireshark,mitmproxy,Charles,Fiddler,SwitchyOmega,Postman等工具对网络协议进行报文分析和调试;
8.可以通过代码稳定突破主流的图形验证码,极验滑动验证码,点触验证码,宫格验证码,旋转验证码对待获取重要数据的阻拦;
9.具有较强的js功底,可以还原高度混淆JavaScript,突破阿卡迈,Cloudflare,瑞数Botgate等机器人抓取防护服务的拦截;
10.对移动端app抓取具有实战经验,熟练掌握app采集环境搭建,通过巧妙的工程化开发部署,实现app端数据稳定持续高效的采集;
11.可以实现代码级别的账号池,动态代理IP池,cookie池的搭建和自动化更新,维护,生存周期监控,保证spider高效调用池中参数;
12.熟练掌握MySQL,MariaDB,Postgre等关系型DB,同时对Redis,MongoDB,ElasticSearch等非关系DB有深入的理解和工程使用;
13.熟练掌握通过sitmap巧妙的实现全站数据的快速化抓取和数据的增量更新采集,对robots协议有深入的理解,并在工程中组合使用;
14.可以实现对数据字段的自动化提取,做到对采集数据的类型归类,开发基于网页特性或者视觉符号的智能化组件对海量数据进行提取;
15.熟练掌握海量数据的去重,清洗,存储,管理和多源异构数据的信息整合,包括但不限于文本,图文对,视频文本对等web主流数据;
加分项:有海量视频数据抓取,海量图片数据抓取,海量文本数据抓取经验者优先。(例如:抖音,工商总局,天猫,亚马逊,知乎,头条,微信公众号,谷歌关键词搜索采集经验者优先)