-
关键点 :
查看全部 -
本次课程目标
查看全部 -
Hadoop大数据平台架构与实战
课程大纲
查看全部 -
MapReduce 即分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)。
查看全部 -
配置4个文件(三个xml文件,一个.sh文件)
mapred-site.xml
core-site.xml
hadoop-env.sh
hdfs-site.xml
查看全部 -
jdk查看全部
-
Linux查看全部
-
MapReduce容错机制
1、重复执行(有次数限制)
2、推测执行:在整个任务执行过程中,整个map端执行完毕后,reduce端开始执行。假如有一个节点计算非常缓慢(可能出现了问题),这个节点还继续进行计算,在另外找一个TaskTracker做同样的事情,哪个先算晚,就将另一个终止。不会因为某个TaskTracker出现问题,导致整个任务执行慢
查看全部 -
mapreduce可进行多轮
查看全部 -
MapReduce作业执行过程查看全部
-
TaskTracker的角色查看全部
-
JobTracker的角色查看全部
-
Job&Task:一个Job拆分为多个Task,Task分为MapTask和ReduceTask
JobTracker:将Job拆分为多个Map任务和Reduce任务,分发给TaskTracker来做
TaskTracker:MapTaskTracker、ReduceTaskTracker
查看全部 -
100GB的网站访问日志文件,找出访问次数最多的IP地址
1、将日志切分
2、统计每个日志中每个ip出现的次数
3、最后按照ip进行统计,将ip相同的放在一个reduce中
关键是进行交换
查看全部 -
扑克牌统计缺少哪张牌
1、将牌随机分为5份
2、统计每种牌,每个花色出现多少次(如:split0中红心A出现20次)
3、再次统计,将每份牌的中不同花色,不同牌,进行统计
4、筛选结果
查看全部
举报