Mapreduce测试题
1、 描述下hdfs数据读写的流程。(10)
2、描述下wordcount程序中k-v的转换过程,并标出所属阶段 数据输入: hadoopwelcome javawelcome (10)
3、combine出现在哪个过程,举例说明什么情况下可以使用combiner,什么情况下不可以。(4、mapreduce的输出文件个数由什么决定。(10)
5、哪个程序负责HDFS数据存储,默认情况下数据有几个备份。(10)
6、通常集群的最主要瓶颈(程序优化的主要瓶颈),给出mapreduce优化的方法至少两种。(7、hadoop配置机架感知的下面哪项正确(10) a)如果一个机架出问题,不会影响数据读写 b)写入数据的时候会写到不同机架的DataNode中 c)MapReduce会根据机架获取离自己比较近的网络数据 8、上千万或上亿数据(有重复),找出其中最大的前N个数据。(N<1000,内存放的下)
写出设计思路。(15)
9、给定a、b两个文件,各存放50亿个url,每个url各占字节,内存是4G, 让你找出a、b文件共同的url?(15) 写出设计思路。
10)10)