当前位置：首页 > news >正文

Hadoop集群配置

news 2025/10/27 16:21:19

一、系统文件配置

集群部署规划

NameNode和SecondaryNameNode不要安装在同一台服务器

ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode放在同一台机器上。

这里装了四台机器，ant151,ant152,ant153,ant154。

ant151	ant152	ant153	ant154
NameNode	NameNode
DataNode	DataNode	DataNode	DataNode
NodeManager	NodeManager	NodeManager	NodeManager
		ResourceManager	ResourceManager
JournalNode	JournalNode	JournalNode
DFSZKFController	DFSZKFController
zk0	zk1	zk2

配置文件说明

Hadoop配置文件分为默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件。

core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml四个配置文件放在$HADOOP_HOME/etc/hadoop路径下。

3.配置集群

core-site.xml

    <property><name>fs.defaultFS</name><value>hdfs://gky</value><description>逻辑名称，必须与hdfs-site.xml中的dfs.nameservices值保持一致</description></property><property><name>hadoop.tmp.dir</name><value>/opt/soft/hadoop313/tmpdata</value><description>namenode上本地的hadoop临时文件夹</description></property><property><name>hadoop.http.staticuser.user</name><value>root</value><description>默认用户</description></property><property><name>hadoop.proxyuser.root.hosts</name><value>*</value><description></description></property><property><name>hadoop.proxyuser.root.groups</name><value>*</value><description></description></property><property><name>io.file.buffer.size</name><value>131072</value><description>读写文件的buffer大小为：128K</description></property><property><name>ha.zookeeper.quorum</name><value>ant151:2181,ant152:2181,ant153:2181</value><description></description></property><property><name>ha.zookeeper.session-timeout.ms</name><value>10000</value><description>hadoop链接zookeeper的超时时长设置为10s</description></property>

hdfs-site.xml

    <property><name>dfs.replication</name><value>3</value><description>Hadoop中每一个block的备份数</description></property><property><name>dfs.namenode.name.dir</name><value>/opt/soft/hadoop313/data/dfs/name</value><description>namenode上存储hdfs名字空间元数据目录</description></property><property><name>dfs.datanode.data.dir</name><value>/opt/soft/hadoop313/data/dfs/data</value><description>datanode上数据块的物理存储位置</description></property><property><name>dfs.namenode.secondary.http-address</name><value>ant151:9869</value><description></description></property><property><name>dfs.nameservices</name><value>gky</value><description>指定hdfs的nameservice,需要和core-site.xml中保持一致</description></property><property><name>dfs.ha.namenodes.gky</name><value>nn1,nn2</value><description>gky为集群的逻辑名称，映射两个namenode逻辑名</description></property><property><name>dfs.namenode.rpc-address.gky.nn1</name><value>ant151:9000</value><description>namenode1的RPC通信地址</description></property><property><name>dfs.namenode.http-address.gky.nn1</name><value>ant151:9870</value><description>namenode1的http通信地址</description></property><property><name>dfs.namenode.rpc-address.gky.nn2</name><value>ant152:9000</value><description>namenode2的RPC通信地址</description></property><property><name>dfs.namenode.http-address.gky.nn2</name><value>ant152:9870</value><description>namenode2的http通信地址</description></property><property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://ant151:8485;ant152:8485;ant153:8485/gky</value><description>指定NameNode的edits元数据的共享存储位置(JournalNode列表)</description></property><property><name>dfs.journalnode.edits.dir</name><value>/opt/soft/hadoop313/data/journaldata</value><description>指定JournalNode在本地磁盘存放数据的位置</description></property>    <!-- 容错 --><property><name>dfs.ha.automatic-failover.enabled</name><value>true</value><description>开启NameNode故障自动切换</description></property><property><name>dfs.client.failover.proxy.provider.gky</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value><description>失败后自动切换的实现方式</description></property><property><name>dfs.ha.fencing.methods</name><value>sshfence</value><description>防止脑裂的处理</description></property><property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/root/.ssh/id_rsa</value><description>使用sshfence隔离机制时，需要ssh免密登陆</description></property>    <property><name>dfs.permissions.enabled</name><value>false</value><description>关闭HDFS操作权限验证</description></property><property><name>dfs.image.transfer.bandwidthPerSec</name><value>1048576</value><description></description></property>    <property><name>dfs.block.scanner.volume.bytes.per.second</name><value>1048576</value><description></description></property>

mapred-site.xml

    <property><name>mapreduce.framework.name</name><value>yarn</value><description>job执行框架： local, classic or yarn</description><final>true</final></property><property><name>mapreduce.application.classpath</name><value>/opt/soft/hadoop313/etc/hadoop:/opt/soft/hadoop313/share/hadoop/common/lib/*:/opt/soft/hadoop313/share/hadoop/common/*:/opt/soft/hadoop313/share/hadoop/hdfs/*:/opt/soft/hadoop313/share/hadoop/hdfs/lib/*:/opt/soft/hadoop313/share/hadoop/mapreduce/*:/opt/soft/hadoop313/share/hadoop/mapreduce/lib/*:/opt/soft/hadoop313/share/hadoop/yarn/*:/opt/soft/hadoop313/share/hadoop/yarn/lib/*</value></property><property><name>mapreduce.jobhistory.address</name><value>ant151:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>ant151:19888</value></property><property><name>mapreduce.map.memory.mb</name><value>1024</value><description>map阶段的task工作内存</description></property><property><name>mapreduce.reduce.memory.mb</name><value>2048</value><description>reduce阶段的task工作内存</description></property>

yarn-site.xml

    <property><name>yarn.resourcemanager.ha.enabled</name><value>true</value><description>开启resourcemanager高可用</description></property><property><name>yarn.resourcemanager.cluster-id</name><value>yrcabc</value><description>指定yarn集群中的id</description></property><property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2</value><description>指定resourcemanager的名字</description></property><property><name>yarn.resourcemanager.hostname.rm1</name><value>ant153</value><description>设置rm1的名字</description></property><property><name>yarn.resourcemanager.hostname.rm2</name><value>ant154</value><description>设置rm2的名字</description></property><property><name>yarn.resourcemanager.webapp.address.rm1</name><value>ant153:8088</value><description></description></property><property><name>yarn.resourcemanager.webapp.address.rm2</name><value>ant154:8088</value><description></description></property>    <property><name>yarn.resourcemanager.zk-address</name><value>ant151:2181,ant152:2181,ant153:2181</value><description>指定zk集群地址</description></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>运行mapreduce程序必须配置的附属服务</description></property><property><name>yarn.nodemanager.local-dirs</name><value>/opt/soft/hadoop313/tmpdata/yarn/local</value><description>nodemanager本地存储目录</description></property><property><name>yarn.nodemanager.log-dirs</name><value>/opt/soft/hadoop313/tmpdata/yarn/log</value><description>nodemanager本地日志目录</description></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>2048</value><description>resource进程的工作内存</description></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>2</value><description>resource工作中所能使用机器的内核数</description></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>256</value><description></description></property><property><name>yarn.log-aggregation-enable</name><value>true</value><description></description></property><property><name>yarn.log-aggregation.retain-seconds</name><value>86400</value><description>日志保留多少秒</description></property><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value><description></description></property><property><name>yarn.application.classpath</name><value>/opt/soft/hadoop313/etc/hadoop:/opt/soft/hadoop313/share/hadoop/common/lib/*:/opt/soft/hadoop313/share/hadoop/common/*:/opt/soft/hadoop313/share/hadoop/hdfs/*:/opt/soft/hadoop313/share/hadoop/hdfs/lib/*:/opt/soft/hadoop313/share/hadoop/mapreduce/*:/opt/soft/hadoop313/share/hadoop/mapreduce/lib/*:/opt/soft/hadoop313/share/hadoop/yarn/*:/opt/soft/hadoop313/share/hadoop/yarn/lib/*</value><description></description></property><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value><description></description></property>

hadoop-env.sh

export JAVA_HOME=/opt/soft/jdk180
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

workers

ant151
ant152
ant153
ant154

二、集群首次启动

启动zk集群

可以直接运行脚本文件

代码：

[root@ant151 shell]# ./zkop.sh start

启动ant151,ant152,ant153的journalnode服务：

[root@ant151 shell]# hdfs --daemon start journalnode

在ant151格式化hfds namenode:

[root@ant151 shell]# hdfs namenode -format

在ant151启动namenode服务：hdfs --daemon start namenode

[root@ant151 shell]# hdfs --daemon start namenode

在ant152机器上同步namenode信息

[root@ant151 shell]# hdfs namenode -bootstrapStandby

在ant152启动namenode服务：hdfs --daemon start namenode

[root@ant152 soft]# hdfs --daemon start namenode

查看namenode节点状态：hdfs haadmin -getServiceState nn1|nn2

[root@ant152 soft]# hdfs haadmin -getServiceState nn1

关闭所有dfs有关的服务

[root@ant151 soft]# stop-dfs.sh

格式化zk

[root@ant151 soft]# hdfs zkfc -formatZK

启动dfs

[root@ant151 soft]# start-dfs.sh

启动yarn: [root@ant151 soft]# start-yarn.sh

[root@ant151 soft]# start-yarn.sh

查看resourcemanager节点状态

[root@ant151 soft]# yarn rmadmin -getServiceState rm1

rm1状态：standby

rm2状态：active

当前进程状态：

kill掉active进程

尝试访问，无法链接

恢复ant152的namenode进程

Hadoop集群配置

一、系统文件配置集群部署规划NameNode和SecondaryNameNode不要安装在同一台服务器ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode放在同一台机器上。这里装了四台机器，ant151,ant152,ant153,ant154。ant151ant152ant153ant154NameNode…...

编程日记 2023/2/16 13:59:42

【C语言】程序环境和预处理|预处理详解|定义宏（下）

主页：114514的代码大冒 qq:2188956112（欢迎小伙伴呀hi✿(。◕ᴗ◕。)✿ ） Gitee：庄嘉豪 (zhuang-jiahaoxxx) - Gitee.com 文章目录目录文章目录前言 2.5带副作用的宏参数 2.6宏和函数的对比 3#undef 编辑 4 命令行定义…...

编程日记 2023/2/16 13:58:35

MySQL主从复制

操作流程准备两个服务器主服务器配置1>修改主配置文件 /etc/my.cnf[mysald] log-binmysql-bin //[必须]启用二进制日志server-id12>重启 mysql 服务3>创建mysql用户并授权mysql> GRANT REPLICATION SLAVE ON ** to slaver% identified by 123456;4>查看当前主服…...

编程日记 2023/2/16 13:57:29

做自媒体视频变现的三大要素！

大家都知道做自媒体可以赚钱，做得好的话收入会远超自己的工资！ 但有些关键点你真的知道吗？有几点是新手很容易忽略的！ 1、内容价值我们所创作的内容是否是用户所需要的？用户是不是有强烈的需求？这一点你…...

编程日记 2023/2/16 13:56:23

软件测试如何获得高薪？

软件测试如何获得高薪？ 目录：导读测试基础理论/测试设计能力业务知识行业技术知识数据库掌握编程语言搞定自动化测试质量流程管理下面谈谈不同level的测试工程师应具备的基本能力第一个：我们称之为测试员/测试工程师第二…...

编程日记 2023/2/16 13:55:16

《真象还原》读书笔记——第五章保护模式进阶，向内核迈进（特权级，更新）

5.4 特权级深入浅出 5.4.1 特权级哪点事计算机访问可分为访问者和被访问者。建立特权机制为了通过特权来检查合法性。 0、1、2、3级，数字越小，权力越大。 0特权级是系统内核特权级。用户程序是3特权级，被设计为“有需求就找操作系统”…...

编程日记 2023/2/16 13:54:05

艾德卡EDEKA EDI 需求分析

艾德卡Edeka 是德国最大的食品零售商，因其采用“指纹付款”的方式进行结算，成为德国超市付款方式改革的先驱。2022年8月，入选2022年《财富》世界500强排行榜，位列第256位。艾德卡EDEKA EDI需求分析传输协议在传输协议层面&a…...

编程日记 2023/2/16 13:53:00

python如何使用最简单的方式将PDF转换成Word？

由于PDF的文件大多都是只读文件，有时候为了满足可以编辑的需要通常可以将PDF文件直接转换成Word文件进行操作。看了网络上面的python转换PDF文件为Word的相关文章感觉都比较复杂，并且关于一些图表的使用还要进行特殊的处理。本篇文章主要讲解关于如何…...

编程日记 2023/2/16 13:51:52

HashMap如何避免内存泄露问题

HashMap对于Java开发人员来说，应该是一种非常非常熟悉的数据结构了，应用场景相当广泛。本文重点不在于介绍如何使用HashMap，而是关注在使用HashMap过程中，可能会导致内存泄露的情况，下面将以示例的形式展开具体介绍。…...

编程日记 2023/2/16 13:50:42

crontab -e定时任务

大家好，我是空空star，本篇带你了解下crontab -e定时任务。文章目录前言一、crontab介绍二、crontab文件的含义四、crontab用法1.每隔5分钟执行一次命令2.每个小时的第5分执行一次命令3.每天9:05执行一次命令4.每隔9小时在第5分执行一次命令5.每月5号9号…...

编程日记 2023/2/16 13:49:34

JavaSE学习day7_01 面向对象

1. 类和对象 1.1 类和对象的理解客观存在的事物皆为对象 ，所以我们也常常说万物皆对象。即各个对象的总称，比如学生是一个类，但是学生有很多个，每一个称之为对象。类类的理解类是对现实生活中一类具有共同属性和行为的事物的…...

编程日记 2023/2/16 13:48:29

有趣的HTML实例（十二）早安、晚安动画（css+js）

这话在我心里已经复习了几千遍。我深恨发明不来一个新鲜飘忽的说法，只有我可以说只有你可以听，我说过，我听过，这说法就飞了，过去、现在和未来没有第二个男人好对第二个女人这样说。 ——《围城》目录一、前言二、…...

编程日记 2023/2/16 13:47:22

入行测试已经4年了，进华为后迷茫了3个月，做完这个项目我决定离职....

转行测试我是大专非计科，我转行之前从事的工作是商场管理，努力了4年左右的时间才做到楼层经理，但是工资太低并且事情太多，薪资才6K。更多的是坚定了自己的想法，我要改变自己恰好有几个大学同学在互联网公司工作&a…...

编程日记 2023/2/16 13:46:15

【halcon】灰度直方图直观理解与应用

灰度直方图横坐标：是 0~255 表示灰度值的范围纵坐标：是在不同灰度值下像素的个数！ 那么灰度直方图的本质就是统计不同灰度下像素的个数！ 它的直观目的，就是查看灰度的分布情况！ 与之相关的函数&#xff…...

编程日记 2023/2/16 13:45:06

Android笔记：动画

文章目录1.View Animation（视图动画）1.1 Tween Animation（补间动画）Animation 继承属性透明度alpha缩放scale移动translate旋转rotateset标签Animation父类共有函数1.2Frame Animation （逐帧动画）2.Propert…...

编程日记 2023/2/16 13:43:55

Git学习总结

目录 Git工作的基本流程图 git基本配置配置SSH公钥查看提交日志（log） 版本回退为常用指令配置别名添加文件至忽略列表 Git操作的基本指令编辑 Git远程仓库的操作把黑马的Git视频看完了黑马程序员Git全套教程，完整的git项目管…...

编程日记 2023/2/16 13:42:50

第四天笔记

1. 简述自定义转换器的使用过程？ 第一步：定义一个类，实现 Converter 接口，该接口有两个泛型。第二步：在 spring配置文件中配置类型转换器。　Spring配置类型转换器的机制是将自定义的转换器注册到类型转换服务中去…...

编程日记 2023/2/16 13:41:42

《MySQL学习》全局锁和表锁

一.MySQL锁的分类二.全局锁全局锁对整个数据库加锁，可以执行如下命令，整个数据库都将处于只读状态。 Flush tables with read lock ;我们可以执行 unlock table进行解锁 unlock table ;读操作非读操作（阻塞） 全局锁的典型使…...

编程日记 2023/2/16 13:40:34

Altium Designer输出生产文件Gerber、IPC、NC Drill、坐标文件--AD

AD软件版本：22.2.1 gerber文件输出共有两部分： 1、Gerber Files:铜皮和外形分别导出 2、Nc Drill Files 分3次导出一、Gerber Files 导出2次设定原点 ** Edit->Origin->Set** 一般板边左下角为原点，可以根据自己板子形状确定导…...

编程日记 2023/2/16 13:39:26

用VSCode搭建Vue.js开发环境及Vue.js第一个应用

目录一、VSCode安装二、VSCode简单配置三、Vue.js的下载和引入四、Vue.js第一个应用一、VSCode安装 Visual Studio Code是一个轻量级但功能强大的源代码编辑器，可在您的桌面上运行，可用于Windows，macOS和Linux。它内置了对JavaScrip…...

编程日记 2023/2/16 13:38:19

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

编程新知 2025/10/27 0:14:06

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2025/10/24 2:18:04

[2025CVPR]DeepVideo-R1：基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈，在多个视频基准上实现SOTA性能一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战安全措施依赖问题 GRPO使用min和clip函数限制策略更新幅度，导致：梯度抑制：当新旧策略差异过大时梯度消失收敛困难：策略无法充分优化# 传统GRPO的梯…...

编程新知 2025/8/19 23:46:57

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录第一章概述第二章弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制第三章主要定义 …...

编程新知 2025/10/8 22:40:16

【HTTP三个基础问题】

面试官您好！HTTP是超文本传输协议，是互联网上客户端和服务器之间传输超文本数据（比如文字、图片、音频、视频等）的核心协议，当前互联网应用最广泛的版本是HTTP1.1，它基于经典的C/S模型，也就是客…...

编程新知 2025/9/27 18:25:59

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2025/10/19 15:13:54

Web 架构之 CDN 加速原理与落地实践

文章目录一、思维导图二、正文内容（一）CDN 基础概念1. 定义2. 组成部分 （二）CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 （三）CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 &#xf…...

编程新知 2025/9/13 16:17:01

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？

uni-app 中 Web-view 与 Vue 页面的通讯机制详解一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件，用于在原生应用中加载 HTML 页面： 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...

编程新知 2025/8/6 2:19:46

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例，其中使用的是 Module Federation 和 npx-build-plus 实现了主应用（Shell）与子应用（Remote）的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

编程新知 2025/6/15 10:41:11

浪潮交换机配置track检测实现高速公路收费网络主备切换NQA

浪潮交换机track配置项目背景高速网络拓扑网络情况分析通信线路收费网络路由收费汇聚交换机相应配置收费汇聚track配置项目背景在实施省内一条高速公路时遇到的需求，本次涉及的主要是收费汇聚交换机的配置，浪潮网络设备在高速项目很少，通…...

编程新知 2025/10/25 12:25:19

一、系统文件配置

集群部署规划

配置文件说明

3.配置集群

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

hadoop-env.sh

workers

二、集群首次启动

启动zk集群

启动ant151,ant152,ant153的journalnode服务：

在ant151格式化hfds namenode:

在ant151启动namenode服务：hdfs --daemon start namenode

在ant152机器上同步namenode信息

在ant152启动namenode服务：hdfs --daemon start namenode

关闭所有dfs有关的服务

格式化zk

启动dfs

启动yarn: [root@ant151 soft]# start-yarn.sh

查看resourcemanager节点状态

相关文章：