Reduce端的Shuffle过程都是什么?自动机有如下概念?

2023-02-28 11:22:04 来源:创视网

Reduce端的Shuffle过程

1. Reduce任务向作业管理器询问Map任务是否已经完成。

• 若完成,则接收不同Map任务传来的数据。

• 如果Reduce任务接收的数据量相当小,则直接存储在缓存中,

• 如果数据量超过了该缓冲区大小的一定比例,则对数据合并后溢写到磁盘中。

2. 随着溢写文件的增多,后台线程会将它们归并成一个大文件。

• 归并的时候还会对键值对进行排序。

3. 磁盘中经过多轮归并后得到若干大文件,直接输入给Reduce任务。

• 这些大文件不会继续归并,而是直接输入给Reduce 任务,这样可以减少磁盘的读写开销。至此,整个Shuffle 过程结束。

自动机有如下基本概念:

符号 :有某种意义或在这个机器上有效的任意数据(datum)。符号有时就叫做“字母”。

字:通过一些符号串接而形成的有限字符串。

字母表 :符号的有限集合。字母表经常指示为Sigma ,它是在字母表中所有字母的集合。

语言 :字的集合,由给顶字母表中的符号形成。可以是也可以不是无限的。

Kleene闭包 :一个语言可以被认为是所有可能字的子集。所有可能字的集合可以被认为是所有可能的字符串串接的集合。形式上说,所有可能字符串的集合叫做自由幺半群。它被指示为 Sigma *},上标 * 被称为Kleene星号

x 广告
x 广告

Copyright   2015-2022 财富赢家网版权所有  联系邮箱:920 891 263@qq.com

京ICP备2022016840号-48