Hadoop MapReduce 调优参数
文章目录
- MapReduce 调优参数详解
- MapReduce 调优参数一键复制
前言:
下列参数基于 hadoop v3.1.3
版本,共三台服务器,配置都为 4
核,4G
内存。
MapReduce 调优参数详解
这个参数定义了在 Reduce 阶段同时进行的拷贝操作的数量,用于从 Map 任务获取数据,增加此值可以加速 Shuffle 阶段的执行。
<property><name>mapreduce.reduce.shuffle.parallelcopies</name><value>10</value>
</property>
默认值: 5
建议配置: 10
定义了在 Reduce 阶段输入数据缓冲区的百分比,缓冲更多的数据可以减少磁盘 IO。
<property><name>mapreduce.reduce.shuffle.input.buffer.percent</name><value>0.8</value>
</property>
默认值: 0.7
建议配置: 0.8
定义了在 Reduce 阶段执行 merge 操作的阈值,决定何时将中间数据合并到较大的文件中以减少文件数目。
<property><name>mapreduce.reduce.shuffle.merge.percent</name><value>0.75</value>
</property>
默认值: 0.66
建议配置: 0.75
设置 Map 任务的 Java 堆内存大小。
<property><name>mapreduce.map.java.opts</name><value>-Xmx2048m</value>
</property>
默认值: 未指定(取决于集群的配置)。
建议配置:-Xmx2048m
,将堆内存大小设置为 2G
。
设置 Reduce 任务的 Java 堆内存大小。
<property><name>mapreduce.reduce.java.opts</name><value>-Xmx2048m</value>
</property>
默认值: 未指定(取决于集群的配置)。
建议配置: -Xmx2048m
,将堆内存大小设置为 2G
。
定义了每个 Map 任务使用的虚拟 CPU 核心数量。
<property><name>mapreduce.map.cpu.vcores</name><value>2</value>
</property>
默认值: 1
建议配置: 2
定义了每个 Reduce 任务使用的虚拟 CPU 核心数量。
<property><name>mapreduce.reduce.cpu.vcores</name><value>2</value>
</property>
默认值: 1
建议配置: 2
定义了 Map 任务最大的重试次数。
<property><name>mapreduce.map.maxattempts</name><value>4</value>
</property>
默认值: 4
建议配置: 4
(默认值),保持默认值即可。
定义了 Reduce 任务最大的重试次数。
<property><name>mapreduce.reduce.maxattempts</name><value>4</value>
</property>
默认值: 4
建议配置: 4
(默认值)。保持默认值即可。
定义了在 Reduce 阶段开始之前要完成的 Map 任务的比例。
<property><name>mapreduce.job.reduce.slowstart.completedmaps</name><value>0.2</value>
</property>
默认值: 0.05
建议配置: 0.2
。由于集群只有三台机器,提高此值有助于确保在进行 Reduce 阶段之前有足够的数据可供处理。
定义了任务的最大执行时间(以毫秒为单位)。如果任务执行超过此时间,将被认为失败。
<property><name>mapreduce.task.timeout</name><value>600000</value>
</property>
默认值: 600000
(10分钟)
建议配置: 600000
(默认值)。可以根据任务的复杂性和数据量适当调整。
定义了在 Map 阶段进行排序操作时的内存缓冲区大小(以MB为单位)。
<property><name>mapreduce.task.io.sort.mb</name><value>200</value>
</property>
默认值: 100
建议配置: 200
。适当增加这个值可以提高排序的性能,但不要超过可用内存的一半。
定义了在进行 Map 阶段排序操作时,达到多少内存使用比例时会触发溢写(spill)操作将数据写入磁盘。
<property><name>mapreduce.map.sort.spill.percent</name><value>0.85</value>
</property>
默认值: 0.8
建议配置: 0.85
对文件进行排序时一次合并的流数,这决定了打开文件句柄的数量。
<property><name>mapreduce.task.io.sort.factor</name><value>20</value>
</property>
默认值: 10
建议配置: 20
定义了每个 Map 任务使用的内存量(以MB为单位)。
<property><name>mapreduce.map.memory.mb</name><value>2048</value>
</property>
默认值: 1024
建议配置: 2048
定义了每个 Reduce 任务使用的内存量(以MB为单位)。
<property><name>mapreduce.reduce.memory.mb</name><value>2048</value>
</property>
默认值: 1024
建议配置: 2048
MapReduce 调优参数一键复制
下列配置参数基于 hadoop v3.1.3
版本,共三台服务器,配置都为 4
核,4G
内存,上方可以看相关参数的详细解释。
<property><name>mapreduce.reduce.shuffle.parallelcopies</name><value>10</value></property><property><name>mapreduce.reduce.shuffle.input.buffer.percent</name><value>0.8</value></property><property><name>mapreduce.reduce.shuffle.merge.percent</name><value>0.75</value></property><property><name>mapreduce.map.java.opts</name><value>-Xmx2048m</value></property><property><name>mapreduce.reduce.java.opts</name><value>-Xmx2048m</value></property><property><name>mapreduce.map.cpu.vcores</name><value>2</value></property><property><name>mapreduce.reduce.cpu.vcores</name><value>2</value></property><property><name>mapreduce.map.maxattempts</name><value>4</value></property><property><name>mapreduce.reduce.maxattempts</name><value>4</value></property><property><name>mapreduce.job.reduce.slowstart.completedmaps</name><value>0.2</value></property><property><name>mapreduce.task.timeout</name><value>600000</value></property><property><name>mapreduce.task.io.sort.mb</name><value>200</value></property><property><name>mapreduce.map.sort.spill.percent</name><value>0.85</value></property><property><name>mapreduce.task.io.sort.factor</name><value>20</value></property><property><name>mapreduce.map.memory.mb</name><value>2048</value></property><property><name>mapreduce.reduce.memory.mb</name><value>2048</value></property>
相关文章:
Hadoop MapReduce 调优参数
文章目录 MapReduce 调优参数详解MapReduce 调优参数一键复制 前言: 下列参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核,4G 内存。 MapReduce 调优参数详解 这个参数定义了在 Reduce 阶段同时进行的拷贝操作的数量&…...

springboot 与 Redis整合
SpringBoot 操作数据:Spring-data jpa jdbc mongodb redis! SpringData 也是和SpringBoot 齐名的项目! 说明:在SpringBoot2.X 之后,原来使用的jedis被替换成了lettuce jedis: 采用的直连,多个线程操作的话&…...

如何高效地设计测试用例并评审
编写出好的测试用例是每一个测试工程师的职责,但在实际工作中大家写的测试用例往往需要不断地修改才能使用,这不仅浪费了时间,还容易让测试工程师产生自我否定的情绪,甚至在团队中产生各种矛盾。 那如何高效地设计测试用例呢&…...
基于python+Django知识图谱的医疗问答系统设计与实现
摘 要 从信息技术的发展至今,各色各样的技术能够满足各类人群的需求,能够让各种业务行业的痛点变成能够可以解决的方法,随着我们经济的不断提高,越来越多的人都该关注健康,那么健康饮食、健康医疗是我们生活中所追求的…...
cuda编程常见问题
cuda环境配置 参考链接 https://blog.csdn.net/weixin_43788327/article/details/125823507?spm1001.2014.3001.5506 疑难问题 在学习《GPU高性能编程CUDA实战》这本书时,发现书里面的代码很多变量都没定义过,经过搜索发现这都是书上自带的代码。 代…...

QTday3
作业1:通过对话框实现保存文件 void burger::on_saveBtn_clicked() {//调用函数,获取文件路径QString filename QFileDialog::getSaveFileName(this,"选择文件夹","./","Text File(*.txt)");if(filename.isNull()){QMes…...
docker镜像是如何导入的?
镜像导入是由image/tarexport/load.go#tarexporter.Load()完成的 以下代码参考github.com/docker/docker版本v0.0.0-20181129155816-baab736a3649 主要是注册镜像信息以及解包镜像tar流到新root 导出和保存的区别在于 导出(export): 仅导出文件结构保存(save): 保存镜像历史和元…...
四川大学874考研真题00-23
22, 2022年硕士学位研究生入学考试试题回忆版 数据结构 1.一个时间复杂度为n2 的算法运行,m1算n个问题用时1秒,m2处理器是m1效率的64倍,则m2每秒能计算()个问题。 A. 64n B. 8n …...

openGauss学习笔记-58 openGauss 高级特性-资源池化
文章目录 openGauss学习笔记-58 openGauss 高级特性-资源池化58.1 特性简介58.2 架构介绍58.3 功能特点58.4 适用场景与限制58.5 手动安装示例58.6 OCK RDMA使用示例58.7 OCK SCRLock使用示例 openGauss学习笔记-58 openGauss 高级特性-资源池化 58.1 特性简介 资源池化特性主…...
centos升级cmake之相关问题解决
1. yum安装(仓库默认版本) # 查看可安装版本 yum --showduplicates list xxxx# 安装指定版本 yum install xxxx-1.23.1 2. 安装高版本cmake 2.1 一开始下载的是cmake-xxx.zip,在 ./bootstrap 一直会报错“missing terminating " character”,后来…...

vcs仿真教程(查看断言)
VCS是在linux下面用来进行仿真看波形的工具,类似于windows下面的modelsim以及questasim等工具,以及quartus、vivado仿真的操作。 1.vcs的基本指令 vcs的常见指令后缀 sim常见指令 2.使用vcs的实例 (1)新建文件夹: …...

2023开学礼新疆石河子大学图书馆藏八一新书《乡村振兴战略下传统村落文化旅游设计》许少辉新财经理工
2023开学礼新疆石河子大学图书馆藏八一新书《乡村振兴战略下传统村落文化旅游设计》许少辉新财经理工...
javaee spring aop 切入点表达式
1、切入点表达式:对指定的方法进行拦截,并且生成代理表达式。 表达式语法:execution([修饰符] 返回值类型 包名.类名.方法名(参数))execution( public void com.test.service.impl.UsersService.add() )2、表达式不同写法 1.匹配指定方法 …...
js 获得元素的offsetLeft
要获得元素相对于其offsetParent元素左侧边缘的距离(即offsetLeft),可以使用如下代码: var el document.getElementById(your-element-id); var offsetLeft el.offsetLeft;其中,el为要获取offsetLeft的元素对象&…...

【Spring面试题】IOC控制反转和DI依赖注入(详解)
IOC Inversion of Control 控制反转,是一种面向对象的思想。 控制反转就是把创建和管理 bean 的过程转移给了第三方。而这个第三方,就是 Spring IoC Container,对于 IoC 来说,最重要的就是容器。 通俗点讲,因为项目…...
LeetCode 2511. 最多可以摧毁的敌人城堡数目
【LetMeFly】2511.最多可以摧毁的敌人城堡数目 力扣题目链接:https://leetcode.cn/problems/maximum-enemy-forts-that-can-be-captured/ 给你一个长度为 n ,下标从 0 开始的整数数组 forts ,表示一些城堡。forts[i] 可以是 -1 ,…...

bazel远程缓存(Remote Cache)
原理 您可以将服务器设置为构建输出(即这些操作输出)的远程缓存。这些输出由输出文件名列表及其内容的哈希值组成。借助远程缓存,您可以重复使用其他用户的 build 中的构建输出,而不是在本地构建每个新输出。 增量构建极大的提升…...
算法竞赛入门经典习题2-6 排列(permutation)
排列(permutation)——算法竞赛入门经典_还记得樱花正开~的博客-CSDN博客 上面的代码很厉害,学习...我的代码水平就比较差了... #include <cstdio> #include <set>int main(){for(int i 123; i < 329; i){std::set<int&…...
队列的链表实现 题目(难度1/10)
C数据结构与算法 目录 队列介绍 队列这种容器,就像大家排队上公交车一样。 第一个来到的人排在最前面; 最后来的排在最后面; 第一个先上车(离开队列); 队列的接口 队列是有如下接口的容器࿱…...
SpringMVC常用的三种获取请求参数的方式
在Spring MVC中,可以使用多种方式来获取请求参数。下面我将介绍常用的几种方式,并提供相关的示例代码。 1. 使用RequestParam注解获取请求参数 RequestParam注解用于从请求中获取指定名称的参数值,并将其绑定到方法参数上。如果请求中没有找…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...

超短脉冲激光自聚焦效应
前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应,这是一种非线性光学现象,主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场,对材料产生非线性响应,可能…...

Appium+python自动化(十六)- ADB命令
简介 Android 调试桥(adb)是多种用途的工具,该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具,其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利,如安装和调试…...

React第五十七节 Router中RouterProvider使用详解及注意事项
前言 在 React Router v6.4 中,RouterProvider 是一个核心组件,用于提供基于数据路由(data routers)的新型路由方案。 它替代了传统的 <BrowserRouter>,支持更强大的数据加载和操作功能(如 loader 和…...

8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂
蛋白质结合剂(如抗体、抑制肽)在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上,高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术,但这类方法普遍面临资源消耗巨大、研发周期冗长…...

Linux相关概念和易错知识点(42)(TCP的连接管理、可靠性、面临复杂网络的处理)
目录 1.TCP的连接管理机制(1)三次握手①握手过程②对握手过程的理解 (2)四次挥手(3)握手和挥手的触发(4)状态切换①挥手过程中状态的切换②握手过程中状态的切换 2.TCP的可靠性&…...

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具
文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染 准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据 准备一个容器,例如: …...
AI编程--插件对比分析:CodeRider、GitHub Copilot及其他
AI编程插件对比分析:CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展,AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者,分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...
uniapp中使用aixos 报错
问题: 在uniapp中使用aixos,运行后报如下错误: AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...
Linux离线(zip方式)安装docker
目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1:修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本:CentOS 7 64位 内核版本:3.10.0 相关命令: uname -rcat /etc/os-rele…...