北京算盘工业科技有限公司

北京 ·互联网

爬虫工程师

15-20K

北京

3-5年

本科

全职

职位描述
爬虫工程师
学历本科;经验:3-4
要求:职位信息
1. 负责互联网站、网页、链接的特征挖掘;
2. 提供分布式爬虫和数据采集系统的技术实现方案;
3. 设计和开发分布式网络爬虫程序;
4. 分析静态网页结构,解析网页数据,对数据进行过滤,去重,结构化处理;
5. 设计优化爬虫调度系统,优化调度策略。
6、负责各大公司官网或者APP数据采集,主要是动态数据。
7、负责网页爬虫架构设计(包括基础资源,如代理池技术、反爬技术、浏览器采集技术等等)与核心技术研发。
8、负责API或者爬虫获取数据,数据解析和分析等功能的研发。
【任职要求】
1. 本科以上,计算机/软件工程相关专业,两年以上爬虫经验;
2. 扎实的Java/Python基础,熟悉多线程编程环境,熟悉常见开源框架;扎实的java语言基础,python亦可,熟悉linux平台下主流Java应用开发框架及中间件(如Spring、Spring Boot、Mybatis、Hibernate、Kafka、ElasticSearch等),能够对Java进行代码级的调优和调试;
3. 熟悉前端技术,HTML,JavaScript,Ajax等;
4. 熟练使用正则表达式,精通网页数据提取;精通网页爬虫、分布式、多线程开发技术;
5. 熟悉抓取原理及技术,熟悉Scrapy、Pyspider、nutch等主流爬虫框架使用;
6. 具有构建分布式爬虫系统的经验,具有海量高并发网页爬取项目经验;
7. 熟悉数据库操作、SQL语言与优化,了解ETL过程以及操作工具;
8. 熟悉大数据数据库者优先;熟悉常见的反爬机制及对应的应对措施,如cookie识别;
9. 喜欢技术钻研,具有较强的学习能力,有独立解决问题的能力;
10、具有很强的分析和解决问题的能力,具有攻克难题的强烈兴趣,以及提升技术能力的意愿;
11、善于主动学习,责任心强,能够承受较高的工作压力。
职能类别:爬虫开发工程师关键字:爬虫python
相似职位