大数据时代,许多工作都要依靠海量的数据,尤其是IT行业,那么做大数据工程师需要掌握哪些呢?以下就是一些大数据面试题:
1、怎么解决kafka的数据丢失
2、fsimage和edit的区别?
3、列举几个配置文件优化?
4、datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要namenode 执行格式化操作,这样处理的原因是?
5、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么?
6、hadoop的优化?
7、采集nginx产生的日志,日志的格式为user ip time url htmlId 每天产生的文件的数据量上亿条,请设计方案把数据保存到HDFS上,并提供一下实时查询的功能(响应时间小于3s)
8、有 10 个文件,每个文件 1G,每个文件的每一行存放的都是用户的 query,每个文件的query 都可能重复。要求你按照 query 的频度排序。 还是典型的 TOP K 算法,
9、在 2.5 亿个整数中找出不重复的整数,注,内存不足以容纳这 2.5 亿个整数。
10、腾讯面试题:给 40 亿个不重复的 unsigned int 的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那 40 亿个数当中?
相关推荐:
这篇关于“【大数据面试题】常见的大数据面试题(二) ” 已帮助112人,希望也能帮到你!
>>本文地址:http://qqw.761cw.com/jiaoxue/2020/57428.html
网站地图 | 申博太阳城直营现金网 | 百家乐怎么破解 | 彩多多 |
申博亚洲娱乐官网 | 菲律宾申博升级版 | 申博注册 | 菲律宾太阳城开户 |
皇冠真人娱乐 | 淘彩票时时彩 | 申博太阳城代理开户合作 | 彩鸿彩票是真的假的直营网 |
太阳城娱乐88登入 | 太阳城百家乐开户 | 百家乐怎么看路 | 新澳博娱乐新澳博国际 |
申博太阳城直营现金网 | 太阳城真人百家乐 | 申博在线正网开户 | 财富大赢家 |
S618C.COM | 787sunbet.com | 578DC.COM | 726SUN.COM | 398psb.com |
8YQS.COM | 153sun.com | 1115119.COM | 785DC.COM | XSB173.COM |
758jbs.com | XSB538.COM | 8NBS.COM | 134sun.com | S6183.COM |
DC927.COM | 761sj.com | 4444XSB.COM | 155TGP.COM | 222TGP.COM |