Map过程
- 第一阶段把输入文件按照一定的标准分片(InputSplit),每个输入分片的大小是固定的,默认情况下,输入分片的大小和数据块(block)的大小是相同的,每一个分片由一个Map进程处理。
- 第二阶段是把输入分片的数据按照一定的规则解析成键值对,默认规则是以文件每一行的内容为值,每一行起始位置的字节作为键
- 第三阶段是调用Mapper的Map方法,第二阶段有多少键值对,Map方法就会调用多少次,把第二阶段的键值对按照Map实现的方法,产生0个或多个键值,在这个过程中,产生的数据首先会被存放到内存缓冲区当中,每个Map有一个环形缓冲区,默认大小为100M,当使用率达到80%后,将会把数据溢写到本地磁盘,溢写到磁盘前,会先经历以下第四和第五阶段
- 第四阶段是分区,对于每个键,会有一个partition值,该值是通过计算键的hash值后对reduce的数量进行取模获得,分区的数量决定了reduce任务运行的数量(注:这里指的是reduce任务运行的数量而不是reduce的数量,也就是说,reduce数量如果大于partition的数量,将会有部分reduce无法接收到数据)
- 第五阶段是对键值对进行排序,首先根据键排序,键相同的情况下按照值进行排序,然后将排序后的结果写到磁盘上,由于可能会出现多个溢写文件,在最后输出时,会把所有的溢写文件都合并成一个文件。
- 第六阶段是combiner,是可选的,默认是没有的,如果要开启第六阶段得实现代码,第六阶段在本地进行归约,就是一次小型的reduce,把本地键相同的数据合并到一块,减少网络IO
Reduce过程
- 第一阶段,reduce先从map端拉取数据
- 第二阶段,把拉取到本地的数据进行一次合并,把键相同的数据的值合并到一块,然后进行排序
- 第三阶段,对排完序的键值对调用Reduce方法,键相同的键值对调用一次reduce方法,最后把reduce的结果写入到hdfs。
reduce的详细过程如下:
reduce会在部分map已经完成的情况下,开始拉取这部分map的数据。由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition,所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。所以,为了优化reduce的执行时间,hadoop中是等job的第一个map结束后,所有的reduce就开始尝试从完成的map中下载该reduce对应的partition部分数据,因此map和reduce是交叉进行的。Reduce任务通过HTTP向各个Map任务拖取(下载)它所需要的数据(网络传输),Reducer是如何知道要去哪些机器取数据呢?一旦map任务完成之后,就会通过常规心跳通知应用程序的Application Master。reduce的一个线程会周期性地向master询问,直到提取完所有数据。数据被reduce提走之后,map机器不会立刻删除数据,这是为了预防reduce任务失败需要重做。因此map输出数据是在整个作业完成之后才被删除掉的。
reduce的每一个下载线程在下载某个map数据的时候,有可能因为那个map中间结果所在机器发生错误,或者中间结果的文件丢失,或者网络瞬断等等情况,这样reduce的下载就有可能失败,所以reduce的下载线程并不会无休止的等待下去,当一定时间后下载仍然失败,那么下载线程就会放弃这次下载,并在随后尝试从另外的地方下载(因为这段时间map可能重跑)。reduce下载线程的这个最大的下载时间段是可以通过mapreduce.reduce.shuffle.read.timeout(default180000秒)调整的。如果集群环境的网络本身是瓶颈,那么用户可以通过调大这个参数来避免reduce下载线程被误判为失败的情况。一般情况下都会调大这个参数。
reduce端在轮流拉取map端数据时,也是先把拉取的数据保存到reduce任务的JVM内存缓冲区当中,这个缓冲区的大小由mapreduce.reduce.shuffle.input.buffer.percent 这个参数指定,默认是0.7,意思是缓冲区的大小为reduce堆内存大小的70%,和map端一样,在map端当使用了0.8的内存后,将会进行溢写,reduce端同样也有溢写操作,通过mapreduce.reduce.shuffle.merge.percent这个参数指定开始溢写时的缓冲区使用比例(默认是0.66)。在reduce端也会进行conbiner操作(如果有设置的话),直到map端数据全部拉取完毕后,生成了多个溢写文件,会启动磁盘到磁盘的merge方式生成最终的文件。
Mapreduce调优:
从上面Map过程和reduce过程可以得出一些调优的方法:
Map端调优:
1、通过调整mapreduce.task.io.sort.mb参数,来设置map输出时所使用的内存缓冲区大小
2、设置maprduce.map.sort.spill.percent参数来改变溢写时的内存使用率,默认内存缓冲区使用0.8后开始溢写
3、mapreduce.task.io.sort.factor,排序文件时,一次最多合并的流数。由于map输出的结果中,可能会出现多个溢写文件,这个参数就是设置了可以同时合并溢写文件数量。
4、mapreduce.map.output.compress,设置压缩map输出
5、mapreduce.map.output.compress.codec,设置map输出的压缩编码器
6、mapreduce.map.combine.minspills 这个参数指定了运行combiner所需要的最少溢写文件数量(如果有指定combiner的话)
Reduce端调优:
1、mapreduce.reduce.shuffle.parallelcopies 该参数设置了reduce从map端拉取数据时,可以使用多少个线程同时拉取数据,默认是5,当map的数量比较多时,可以把该参数的值设置大一些
2、mapreduce.task.io.sort.factor,这个参数在Map端调优中也有,在Map端是是合并一个Map的多个溢写文件,但在reduce端合并的是多个Map中属于自己分区的溢写文件。
3、mapreduce.reduce.shuffle.input.buffer.percent 在shuffle的复制阶段,分配给存放map输出的缓冲区大小占reduce的JVM堆内存比例,默认是0.7
4、mapreduce.reduce.input.buffer.percent 该参数是reduce过程中,内存中保存map输出空间占内存缓冲区的比例,当达到这个比例时,会启动溢写。
5、mapreduce.reduce.merge.inmem 该参数和第四个参数一样,也是用于控制溢写条件,不过这个值指的是内存中map的输出键值对的个数,默认是1000,如果设置为0,那么溢写条件仅由mapreduce.reduce.input.buffer.percent 参数单独控制