面经详情

python数据挖掘与数据分析
太难了 ,都是大牛  从语法开始 ,垃圾回收机制,  linux网络编程,   http协议,数据库, mysql redis mongodbweb框架,  falsk,mvt架构,数据结构 ,算法,最后爬虫的几种方式,解析页面的几种方式,正则表达式 , xpth,beautiSoup , 去重,清洗,etl数据分析  由细节到框架  边边角角全都有。
Q:如何开发爬虫框架。

相关推荐

匿名用户
数据挖掘
确定通过确定通过
8号上午,一面在酒店,技术面,一个小时,具体题目真的记不清了,大致记得主要的问题,先自我介绍,再介绍你的简历上的项目,根据项目会提问,比如你的项目用到了哪些机器学习算法,你怎么用的。再问你会不会文本处理的技术,我详细说了TF-IDF,LDA等(感谢social media group)。 再问你知道哪些机器学习算法聚类算法,我就自己说了一些,SVM,KNN,bayes,k-means,hirachical,dicision tree等等,说了他们的原理和过程以及优缺点、应用场景(这个可以讲好久,面试官会相应提问题,比如当数据量增大的时候,你说的某个算法应该怎么改进,k-means怎么自适应之类的)。 要面数据挖掘的童鞋,机器学习算法和分群法这两门课还是要掌握下。还问我聚类和分类的区别,这个很轻松。最后一块就是数据结构问你了不了解,让说了一些排序方法的步骤及优缺点、时间复杂度,并当场算出复杂度。当他问完一遍机器学习、分群法、文本处理、数据结构,就开始问语言了,问我平时用什么语言比较多,我大言不惭说matlab,大一学过C,为找工作准备了点C++,于是他就没再问C++的东西(大幸)。 最后他说你理论都没问题,那按照面试程序,我们来手写个代码吧。题目就是快排。这里感慨下,到找工作的后期,基本知道了数据挖掘会面什么,所以上述说的不管理论知识还是代码题,都有准备了。但是第一次面数据挖掘,真的快排都没写过。不过知道原理,写出来还是可以的。 8号下午通知二面。9号上午去二面,依然技术面,一个小时。换了个特别温柔的面试官姐姐。还是自我介绍,项目介绍,再针对项目提问。考察的主旨还是机器学习算法(监督学习有哪些,非监督学习有哪些等等及每样的原理)、分群法,你自己讲完每个的原理后,题目要看面试官问到哪里,这个姐姐在我说完各种分类分群算法后,问我他们之间最后分类出来的结果有什么区别,比如贝叶斯和SVM。当时愣了一下。还有些题目记不得了,最后手写代码题是要从一堆整数中,找出重复的数字,考虑时间空间复杂度。 惯例,9号下午通知三面。10号上午去三面,技术面,不到一小时。一个年轻的永远笑眯眯的大哥哥面试官。按照网上说的,应该是个部门经理。项目、机器学习、分群法、文本处理、数据结构,这些还是会挑着问,记不清具体题目了。 说点比较特别的,他问完那些基础知识后,问我有没有发现最近百度有什么变化。开动脑子,憋出来两个,一个是搜索窗变永远浮在最上面,还有一个就是会给你推荐相关的搜索关键字。他就问那怎么去评价你做出来的这个改变效果是好还是不好呢。第一反应就是用户问卷调查(弱爆了)。没敢说出来。之后说了些比如根据用户前后两次搜索所花的时间间隔长短之类的。他还问了个开放性的,给你一些用户的历史数据,你可以拿这些数据做什么。因为之前看过一些推荐系统的东西,所以此处就说出来五六条想法及原理。他好像挺满意。还问了我一个不是那么技术的问题,就是说你在百度做一个东西,影响的都是上亿的用户,要是受到领导及同事的质疑,你如何抵抗这种压力。后来好像还关心了我的台湾学习生活情况,遇到问题怎么解决之类的。还问我选择一家公司的准则是什么,我答平台和一群志同道合的人(好机智高尚)。 最后我提问。其实每轮最后都问你有没有问题想问他们。由于这个大哥一直笑眯眯的,所以我就有种错觉,觉得基本没问题了。这种错觉够折磨人的,就是明明一开始不抱希望的,最后给了你希望。于是就抱着这种希望度日如年。 15号下午当我面完华为在西湖边放空放空,看印象西湖的人在一遍遍彩排,觉得人生好累的时候,临近饭点接到了百度的offer。百度完美收官。百度是我和周围同学们一致觉得是面得最累的,如果没学过或者没记住,真的很难忽悠他们,百度重技术,里面的人肚子里都是有货的。每天回来等消息并且继续复习的身心煎熬,真是太爽了。 ...查看更多
2 年前 发布
匿名用户
数据挖掘
未通过感觉没戏
因为笔试我也没重视,花了一小时瞎做的,没想到过了。然后今天第一轮电面,先自我介绍刚开始问了你一堆问题,按照你的简历问你的,基本就是你的项目你是怎么做的,问题怎么解决,但是我有些项目是物流的,也问了。然后就是三道算法题,第一题很水说列出一个集合所有的子集,我搞了个二进制映射,打印出所有子集,但是呢他和我说复杂度可以小于2^n,我想了想想不出,他说可以n^2,我说那怎么做呢,他也不说。这部分感觉他还在嘲讽我,虽然我现在还是没想到n^2的算法。 第二题,说是要找出2.5亿个整数中所有不重复的整数,但是内存不够,然后我就搞了一个质数,2.5亿个分别求余,按余数分到本地磁盘的几个文件里,加入前看看文件里有没有重复的,我用python写的。面试官让我讲讲思路,我也就讲了。 第三题,判断两个二叉树是不是完全相同的,我大概五分钟写了个归并算法,他看了看问我能不能快一点,我说优先比较小子树,然后他顿了顿,问我,那你代码结构能优化一下吗。我直接就把if重复判断和优先判断德顺序搞了一下,删了一堆。然后就是他问我有没有什么要问他的,我说了一句第一题到底怎么写,还是说n^2就可以,没说怎么写。最后感觉因为这题面试官一直在无奈的叹气喝嘲讽,我还挺害怕的,我现在倒不是关心过没过,这个输出2^n个集合,如何小于2^n次复杂度我到是有点笨了,还没想到。 ...查看更多
2 年前 发布
1

进入微信小程序

前往微信小程序,查看更多结果

立即前往
看准网百度百度面试经验百度面试经验:python数据挖掘与数据分析
正在招聘搜索生态质量部高级测试开发工程师(大搜索)200 个岗位