mapreduce&yarn笔记总结 01

Posted on 2020-08-19 Edited on 2023-02-20 In hadoop生态

为了体现分布式计算的优点,将数据分而治之再进行相应方面的计算.hadoop提出了mapreduce计算模型

map 端负责将拆分出来的数据进行映射,变换,过滤.体现在一进N出
reduce 端负责将数据整合归纳,缩小,分解,一般是一组数据进N出
不管是map还是reduce处理的数据结构基本都是<key,value>的形式划分的
最基本的数据格式确定后,会有数据迁移更加细致的流程
首先分布式计算是基于分布式文件系统的,而分布式文件系统的存储模型以块为单位,所以分布式的物理模型以split(分片)为的单位
默认每个split对应一个map进程
split的数据对应map计算之后并不会直接写入磁盘而是先写入环形缓冲区 || 因为每一次IO都会调用linux内核,所以不是一条记录IO一次,而是缓冲区写满后进行一次性IO
跳过中间阶段,看reduce,reduce会根据之前数据的partion数量对应开启reduce进程.
默认一个reduce进程对应一个partition,再次体现分而治之的理念
map段的数据经过buffer之后会为reduce分区作准备,所以会先进行分区,对key进行取模操作划分出partition,会将数据结构转换成<key,value,partition>的形式.
进行partition之后,为减少reduce的拉取IO操作(总不能一条数据拉取查找一次吧),会将partition按照进行再次分片(split).
数据进行分片之后,再按照partition进行小文件排序(sort),同时还会进行key的第二次排序,关于为什么还会进行key的排序,到reduce端会解释

1	(ps:因为找不到合适的图,就分开为client端和job端的架构)

计算模型出现后,就需要搭建整体的框架,首先我们说我们的主要角色有client,JobTracker,TaskTracker
clinet架构

我们client端主要做四件事:

job架构

这个是hadoop1.x的mapreduce的任务调度,到了hadoop2.x的时候这种架构被重新修改,why?

hadoop2.x后将JobTraker的资源调度功能抽出,封装为Yarn资源管理框架,并配置了高可用.
hadoop2.x的计算与资源管理架构如下
job架构
主要角色有client,ResourceManager,NodeManager,ApplicatioMaster以及Container

client与之前的流程一致
client会将job提交到ResourceManager
ResourceManger接收到job请求后,会在集群当中挑一台不忙的节点,在NodeManager中启动一个ApplicationMaster进程
ApplicationMaster进程启动之后,会去HDFS下载Splite清单以及配置文件,并将配置清单发送ResouceManager,申请Container
ResouceManager会根据清单计算出使用多少资源,并将根据现有资源通知NodeManager启动相应的Container容器
Container向App Mstr(Application Master)反向注册,此时App Mstr才知道有多少Container可以执行任务
App Mstr会向Container发送Map Task消息.
Container受到消息后,会从hdfs下载jar包,并通过反射取出对象执行MapReduce任务
相较于Hadoop1.x,2.x的框架很好的解决的1.x框架出现的问题:

App Mstr由ResouceManager监控管理,所以当App Mstr没有心跳时,RM(Resource Manager)会触发失败重试机制,ResourceManager会在其他节点重新启动个App Mstr
ResourceManager本身可以配置高可用
Container 也会有失败重试