已采纳回答 / _这个昵称已被占用了_
因为老师的例子种reduce的partition只有两个,输入有3个key,所以其中必须有两个key落到同一个partition内。所有相同的key汇聚到一个partition,没毛病。所有蓝色的key都在一个partition内,所有绿色的key都在一个partition内,所有黄色的也一样。只是可能有多个key公用一个partition而已。为什么蓝色和绿色的两个key会进入到一个partition呢,这个要看具体的key的值和shuffer算法。比如:蓝色key=1,绿色key=3,黄色key=2,...
2018-10-07
最新回答 / 麻雀加
连接HDFS的步骤// 准备连接HDFS的操作支持类Configuration conf = new Configuration();// 所要写入的路径,path要用于创建文件系统和创建连接hadoop的create路径Path path = new Path("hdfs://192.168.43.134:9000/input");// 创建文件系统对象FileSystem fs = path.getFileSystem(conf);// 通过文件系统来创建一个IO流,输出到ha...
2018-10-06
已采纳回答 / 珏子
出现了java.io.FileNotFoundException: matrix2 的错误 修改mapper2@Override protected void setup(Context context) throws IOException, InterruptedException { super.setup(context); //通过输入流将全局缓存变量中的 右侧矩阵 读入List<String>中 Configuration conf = context.getConfigur...
2018-05-15
已采纳回答 / 爱新觉罗_启星
没有,两个的侧重点不一样,mapReduce适合对实时性要求不高的计算(计算时中间结果溢写到磁盘),io消耗大,spark是基于内存的计算框架,计算速度是很快的。一个是 时间换空间 另一个是 空间换时间。
2018-05-10