高级爬虫工程师

15-30K·15薪

北京

3-5年

本科

全职

职位描述

岗位职责：
1.快速熟悉实验室项目和业务，能在较短时间进入工作状态，融入团队。
2.自主对接需求，独立完成采集架构设计和开发，编码，测试，运维等工作；同时可以做到bug快速定位和解决。
3.能够持续的构建优质的结构化良好的数据集，并持续的更新和扩大数据的规模，通过和算法的结合提高数据质量。
任职资格：
1.具备极强的数据素养，可以快速根据模型训练需求或项目需求找到优质的数据源；
2.熟练掌握Linux，熟悉高频命令的使用，可以编写bash或者shell脚本辅助代码和Server的自动化部署运维；
3.具有3年及以上大规模分布式爬虫开发经验，至少精通Python，Java，C++，Go这些主流编程语言中的一种；
4.熟练掌握Socket网络编程，多线程/进程/异步/超并发code的开发，掌握TCP/IP，UDP及常见变种网络通信协议；
5.熟练使用scrapy-redis等主流分布式爬虫框架进行开发，可以灵活编写中间件及修改框架代码达到最高效采集；
6.熟练使用正则表达式，xpath，css Selector等匹配方法，能够快速从结构化和非结构化的原始数据中获取有用信息；
7.熟练使用Wireshark，mitmproxy，Charles，Fiddler，SwitchyOmega，Postman等工具对网络协议进行报文分析和调试；
8.可以通过代码稳定突破主流的图形验证码，极验滑动验证码，点触验证码，宫格验证码，旋转验证码对待获取重要数据的阻拦；
9.具有较强的js功底，可以还原高度混淆JavaScript，突破阿卡迈，Cloudflare，瑞数Botgate等机器人抓取防护服务的拦截；
10.对移动端app抓取具有实战经验，熟练掌握app采集环境搭建，通过巧妙的工程化开发部署，实现app端数据稳定持续高效的采集；
11.可以实现代码级别的账号池，动态代理IP池，cookie池的搭建和自动化更新，维护，生存周期监控，保证spider高效调用池中参数；
12.熟练掌握MySQL，MariaDB，Postgre等关系型DB，同时对Redis，MongoDB，ElasticSearch等非关系DB有深入的理解和工程使用；
13.熟练掌握通过sitmap巧妙的实现全站数据的快速化抓取和数据的增量更新采集，对robots协议有深入的理解，并在工程中组合使用；
14.可以实现对数据字段的自动化提取，做到对采集数据的类型归类，开发基于网页特性或者视觉符号的智能化组件对海量数据进行提取；
15.熟练掌握海量数据的去重，清洗，存储，管理和多源异构数据的信息整合，包括但不限于文本，图文对，视频文本对等web主流数据；
加分项：有海量视频数据抓取，海量图片数据抓取，海量文本数据抓取经验者优先。（例如：抖音，工商总局，天猫，亚马逊，知乎，头条，微信公众号，谷歌关键词搜索采集经验者优先）

公司介绍

智谱AI致力于打造新一代认知智能大模型，专注于做大模型的中国创新。公司于2020年底开始研发 GLM 预训练架构，并训练了百亿参数模型GLM-10B，2021年利用MoE架构成功训练出万亿稀疏模型，于2022年合作研发了双语千亿级超大规模预训练模型GLM-130B，并基于此千亿基座模型打造大模型平台及产品矩阵。
公司践行Model as a Service（MaaS）的市场理念，推出大模型MaaS开放平台（https://open.bigmodel.cn/），基于领先的千亿级多语言、多模态预训练模型，打造高效率、通用化的“模型即服务”AI开发新范式，实现服务效率的提升。
2023年，智谱AI推出了千亿基座的对话模型ChatGLM，并开源单卡版模型ChatGLM-6B，使得研究者和个人开发者进行微调和部署成为可能。2023年6月，ChatGLM2正式发布，千亿基座对话模型全系升级，提供丰富尺寸，适用于多种场景。在细分领域方面，团队打造了AIGC模型及产品矩阵，包括高效率代码模型CodeGeeX、高精度文图生成模型CogView、多模态对话语言模型VisualGLM-6B等。
通过认知大模型链接物理世界的亿级用户，智谱AI基于完整的模型生态和全流程技术支持，为千行百业带来持续创新与变革，加速迈向通用人工智能的时代。官网请见（zhipuai.cn）

北京海淀区搜狐网络大厦11层

面试经验