智谱华章

北京 ·互联网 ·20-99人

高级爬虫工程师

15-30K·15薪

北京

3-5年

本科

全职

职位描述
岗位职责:
1.快速熟悉实验室项目和业务,能在较短时间进入工作状态,融入团队。
2.自主对接需求,独立完成采集架构设计和开发,编码,测试,运维等工作;同时可以做到bug快速定位和解决。
3.能够持续的构建优质的结构化良好的数据集,并持续的更新和扩大数据的规模,通过和算法的结合提高数据质量。
任职资格:
1.具备极强的数据素养,可以快速根据模型训练需求或项目需求找到优质的数据源;
2.熟练掌握Linux,熟悉高频命令的使用,可以编写bash或者shell脚本辅助代码和Server的自动化部署运维;
3.具有3年及以上大规模分布式爬虫开发经验,至少精通Python,Java,C++,Go这些主流编程语言中的一种;
4.熟练掌握Socket网络编程,多线程/进程/异步/超并发code的开发,掌握TCP/IP,UDP及常见变种网络通信协议;
5.熟练使用scrapy-redis等主流分布式爬虫框架进行开发,可以灵活编写中间件及修改框架代码达到最高效采集;
6.熟练使用正则表达式,xpath,css Selector等匹配方法,能够快速从结构化和非结构化的原始数据中获取有用信息;
7.熟练使用Wireshark,mitmproxy,Charles,Fiddler,SwitchyOmega,Postman等工具对网络协议进行报文分析和调试;
8.可以通过代码稳定突破主流的图形验证码,极验滑动验证码,点触验证码,宫格验证码,旋转验证码对待获取重要数据的阻拦;
9.具有较强的js功底,可以还原高度混淆JavaScript,突破阿卡迈,Cloudflare,瑞数Botgate等机器人抓取防护服务的拦截;
10.对移动端app抓取具有实战经验,熟练掌握app采集环境搭建,通过巧妙的工程化开发部署,实现app端数据稳定持续高效的采集;
11.可以实现代码级别的账号池,动态代理IP池,cookie池的搭建和自动化更新,维护,生存周期监控,保证spider高效调用池中参数;
12.熟练掌握MySQL,MariaDB,Postgre等关系型DB,同时对Redis,MongoDB,ElasticSearch等非关系DB有深入的理解和工程使用;
13.熟练掌握通过sitmap巧妙的实现全站数据的快速化抓取和数据的增量更新采集,对robots协议有深入的理解,并在工程中组合使用;
14.可以实现对数据字段的自动化提取,做到对采集数据的类型归类,开发基于网页特性或者视觉符号的智能化组件对海量数据进行提取;
15.熟练掌握海量数据的去重,清洗,存储,管理和多源异构数据的信息整合,包括但不限于文本,图文对,视频文本对等web主流数据;
加分项:有海量视频数据抓取,海量图片数据抓取,海量文本数据抓取经验者优先。(例如:抖音,工商总局,天猫,亚马逊,知乎,头条,微信公众号,谷歌关键词搜索采集经验者优先)
公司介绍
智谱AI致力于打造新一代认知智能大模型,专注于做大模型的中国创新。公司于2020年底开始研发 GLM 预训练架构,并训练了百亿参数模型GLM-10B,2021年利用MoE架构成功训练出万亿稀疏模型,于2022年合作研发了双语千亿级超大规模预训练模型GLM-130B,并基于此千亿基座模型打造大模型平台及产品矩阵。
公司践行Model as a Service(MaaS)的市场理念,推出大模型MaaS开放平台(https://open.bigmodel.cn/),基于领先的千亿级多语言、多模态预训练模型,打造高效率、通用化的“模型即服务”AI开发新范式,实现服务效率的提升。
2023年,智谱AI推出了千亿基座的对话模型ChatGLM,并开源单卡版模型ChatGLM-6B,使得研究者和个人开发者进行微调和部署成为可能。2023年6月,ChatGLM2正式发布,千亿基座对话模型全系升级,提供丰富尺寸,适用于多种场景。在细分领域方面,团队打造了AIGC模型及产品矩阵,包括高效率代码模型CodeGeeX、高精度文图生成模型CogView、多模态对话语言模型VisualGLM-6B等。
通过认知大模型链接物理世界的亿级用户,智谱AI基于完整的模型生态和全流程技术支持,为千行百业带来持续创新与变革,加速迈向通用人工智能的时代。官网请见(zhipuai.cn)
北京海淀区搜狐网络大厦11层
面试经验

匿名用户

面试智谱华章的数据分析师·北京

面试通过
面试:数据分析师。面试态度挺好的,有一定难度,收到offer了。
靠谱
查看更多面经(22)
相似职位