职位描述
岗位职责
1、负责数据平台的数据采集与爬取、解析处理、入库及备份等数据日常工作;
2、负责数据的清洗、整理、整合及合并等工作;
3、数据采集工具软件平台的开发、测试工作;
4、运用自动化公用模板,提高扩展性加快开发效率;
5、实时监控爬虫的进度和警报反馈。
任职要求
1.拥有1年以上爬虫从业经验,能力从优,学历不限;
2.掌握网络爬虫开发原理,熟悉互联网各种类型数据交互模式;
3.掌握HTML,JS,熟悉Web、APP爬虫,掌握爬虫与反爬虫技术;
4.精通一种爬虫框架,对垂直搜索爬虫、分布式爬虫、海量数据采集有深刻的理解;
5.熟练掌握正则表达式、XPath等信息抽取技术;
6.熟练使用Mysql等流行数据库技术,熟悉缓存和nosql技术,如redis、mongodb;
7.具备较强的开发能力、学习能力和抗压能力。
公司介绍
小红书是一个生活方式平台和消费决策入口 [1-2] ,创始人为毛文超和瞿芳。截至2019年7月,小红书用户数已超过3亿 [3] ;截至到2019年10月,小红书月活跃用户数已经过亿 [4] ,其中70%新增用户是90后 [5-6] 。在小红书社区,用户通过文字、图片、视频笔记的分享,记录了这个时代年轻人的正能量和美好生活,小红书通过机器学习对海量信息和人进行精准、高效匹配。小红书旗下设有电商业务,2017年12月,小红书电商被《人民日报》评为代表中国消费科技产业的“中国品牌奖” [7] 。
2019年6月,小红书入选“2019福布斯中国最具创新力企业榜” [8-9] ;7月,小红书app在多家安卓应用商店遭到下架 [10] ;8月,继安卓应用商店后,小红书在App Store也无法搜索下载 [11] ;10月,小红书在华为、OPPO、应用宝、苹果App store等应用商店重新上架 [12] ,恢复上架一个月后,小红书月活突破1亿 [13] ;11月,小红书再次亮相进博会,并将与全球化智库(Center for China and Globalization,CCG)共同举办《新消费——重塑全球消费市场的未来形态》论坛 [14] 。
上海黄浦区小红书公司复兴新天地广场c座2楼
面试经验
相似职位