Hadoop伪分布式环境搭建
什么是Hadoop伪分布式集群?
Hadoop 伪分布式集群是一种在单个节点上模拟分布式环境的配置,用于学习、开发和测试 Hadoop 的功能和特性。它提供了一个简化的方式来体验和熟悉 Hadoop 的各个组件,而无需配置和管理一个真正的多节点集群。
在 Hadoop 伪分布式集群中,各个 Hadoop 组件(如 NameNode、DataNode、ResourceManager、NodeManager 等)在同一台机器上运行,并通过配置文件进行连接和通信。通过使用 Hadoop 伪分布式集群,你可以在单个节点上进行开发和测试,而无需配置和管理一个真正的多节点集群。这对于学习和熟悉 Hadoop 的基本概念、调试代码、运行作业和验证配置非常有用。
然而,需要注意的是,伪分布式集群并不能提供真正的分布式计算和数据处理能力,因为所有的组件都在同一台机器上运行。因此,在进行性能测试、负载均衡和规模扩展方面,它与真实的分布式集群可能存在一些差异。
也就是说,Hadoop可以在单节点上以伪分布的方式运行,Hadoop进程以分离的Java进程来运行,节点既是NameNode又是DataNode,并且读取的是HDFS中的文件。
一、基本环境配置
基本环境配置的 所有步骤与博主上一篇博客一致
传送门:Hadoop 分布式集群搭建教程(2023在校生踩坑版)-CSDN博客
1.修改主机名和设置固定IP
2.关闭防火墙和新建安装目录
3.安装配置JDK
4.配置主机映射(修改hosts文件)
5.配置SSH免密登录本地节点(hadoop0)
二、安装配置Hadoop
1.安装和解压
步骤与博主上一篇博客一致
传送门:Hadoop 分布式集群搭建教程(2023在校生踩坑版)-CSDN博客
接着进入“/opt/programs/hadoop-3.3.6/etc/hadoop”目录,依次修改配置文件 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves(又一个坑,Hadoop3.x版本之后,slaves文件更名为workers,所以很多同学会找不到这个文件)、hadoop-env.sh。
①修改配置文件core-site.xml
# vim core-site.xml
将 <configuration> 和 </configuration> 标签的内容修改如下:
<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop0:9000</value></property><property><name>hadoop.tmp.dir</name><value>/opt/programs/hadoop-3.3.6/tmp</value></property>
</configuration>
②修改配置文件hdfs-site.xml
# vim hdfs-site.xml
将 <configuration> 和 </configuration> 标签的内容修改如下:
<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>
③修改配置文件mapred-site.xml
# vim mapred-site.xml
将 <configuration> 和 </configuration> 标签的内容修改如下:
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>dfs.permissions</name><value>false</value></property>
</configuration>
④修改配置文件yarn-site.xml
# vim yarn-site.xml
将 <configuration> 和 </configuration> 标签的内容修改如下:
<configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop0</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>
⑤修改配置文件slaves(Hadoop3.x改名为workers)
将“localhost”修改为以下内容:
hadoop0
⑥修改配置文件hadoop-env.sh
将’expHADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/etc/hadoop"}”一行改为:
export HADOOP_CONF_DIR=/opt/programs/hadoop-3.3.6/etc/hadoop
并在文件末尾加入JAVA_HOME环境变量:
export JAVA_HOME=/opt/programs/jdk1.8.0_371
然后执行以下命令,刷新hadoop-env.sh文件,使修改生效:
# source hadoop-env.sh
2.配置Hadoop环境变量
接修改“ /etc/profile ”,配置Hadoop环境变量
# vim /etc/profile
在文件末尾加入以下内容:
export HADOOP_HOME=/opt/programs/hadoop-3.3.6
export PATH=$PATH:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后刷新profile文件,是修改生效:
# source /etc/profile
三、格式化HDFS
执行以下命令,格式化HDFS:
# hdfs namenode -format
出现以下信息则说明格式化成功:
四、启动HDFS和YARN
依次执行以下命令,启动HDFS和YARN:
# start-dfs.sh
# start-yarn.sh
若出现以下报错:
则需要在“ /etc/profile/ "文件中加入以下内容:
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root
更改完成后一定要刷新profile文件!
然后重启HDFS和YARN:
即可发现正常启动。
启动后可执行“ jps ”命令,查看启动的Hadoop相关进程:
除去jps外,共有五个进程:NameNode、SecondaryNameNode、DataNode、ResourceManager和NodeManager。如果发现有进程没有启动,可以先停止Hadoop集群(依次执行” stop-dfs.sh ”、“stop-yarn.sh”),然后重新格式化HDFS。
启动后在宿主机访问“ http://hadoop0的ip地址:9870/ ”,页面会显示“hadoo0:9000(active)”
(有小伙伴可能访问50070访问不了,那么不妨改为9870试试!)
对于Hadoop高可用集群和伪分布式集群,它们在配置上有一些差异,这可能导致了不同的端口配置。
在Hadoop高可用集群中,通常会使用Hadoop的HA(High Availability)功能来确保集群的可用性。HA集群中有多个NameNode实例,其中一个是Active状态的主NameNode,负责处理客户端请求。默认情况下,Active主NameNode的HTTP端口是50070,用于访问Web界面。
而在Hadoop伪分布式集群中,只有一个节点模拟了整个分布式环境,包括NameNode、DataNode、ResourceManager等。为了避免与默认的单节点模式端口冲突,Hadoop在伪分布式模式下将NameNode的HTTP端口更改为9870。
因此,当你搭建正常的Hadoop高可用集群时,可以通过50070端口访问NameNode的Web界面。而在伪分布式集群中,由于端口冲突的考虑,NameNode的HTTP端口被更改为9870。
这是Hadoop在不同配置下为了避免端口冲突而进行的默认设置。我们也可以通过相应的配置文件修改端口号,来满足需求。
相关文章:
Hadoop伪分布式环境搭建
什么是Hadoop伪分布式集群? Hadoop 伪分布式集群是一种在单个节点上模拟分布式环境的配置,用于学习、开发和测试 Hadoop 的功能和特性。它提供了一个简化的方式来体验和熟悉 Hadoop 的各个组件,而无需配置和管理一个真正的多节点集群。 在 Ha…...
javaee ssm框架项目添加分页控件
搭建ssm框架项目 参考上一篇博文 添加分页控件 引入依赖 <?xml version"1.0" encoding"UTF-8"?><project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schema…...
2023年中国非晶纳米晶竞争格局、产业链及行业产量分析[图]
非晶合金又称“液态金属、金属玻璃”,是一种新型软磁合金材料,主要包含铁、硅、硼等元素。其主要制品非晶合金薄带的制造工艺是采用急速冷却技术将合金熔液以每秒106℃的速度急速冷却,形成厚度约0.03mm的非晶合金薄带,物理状态表现…...
在业务开发中遇到的树形结构(部门、区域、职位),递归处理。
文章目录 概要对象结构示例完整示例小结 概要 本文主要记录在树形结构中会遇到的问题, 使用部门结构讲解,main方法进行演示。 1、获取部门树结构 2、根据部门id获取所有下级 3、根据部门id获取上级部门 4、根据部门id获取类似面包屑(总公司…...
张量-算术操作函数
tf.add(x,y,name None)求和函数 示例代码如下: import tensorflow.compat.v1 as tf tf.disable_v2_behavior()x 1 y 2a tf.add(x,y)with tf.Session() as sess:print(sess.run(a)) tf.subtract(x,y,name None)减法函数 示例代码如下: import tensorflow.compat.v1 as …...
虚拟展厅有什么重要意义,了解虚拟展厅在宣传中的应用
引言: 随着科技的不断进步,虚拟展厅已经逐渐成为展览行业的重要一环。虚拟展厅是一种数字化平台,为观众提供了与传统展览完全不同的体验。 一.虚拟展厅的定义 虚拟展厅是一个通过互联网和虚拟现实技术创建的数字展示空间&#x…...
华为OD机试真题-补种未成活胡杨(Java/C++/Go/Python)
华为OD机试真题-补种未成活胡杨(Java/C++/Go/Python) 题目描述 近些年来,我国防沙治沙取得显著成果。某沙漠新种植N棵胡杨(编号1-N),排成一排。 一个月后,有M棵胡杨未能成活。现可补种胡杨K棵,请问如何补种(只能补种,不能新种),可以得到最多的连续胡杨树? 输入…...
Java卷上天,可以转行干什么?
小刚是某名企里的一位有5年经验的高级Java开发工程师,每天沉重的的工作让他疲惫不堪,让他萌生出想换工作的心理,但是转行其他工作他又不清楚该找什么样的工作 因为JAVA 这几年的更新实在是太太太……快了,JAVA 8 都还没用多久&am…...
Pyside6 安装和简单界面开发
Pyside6 安装和简单界面开发 Pyside6介绍Pysied6开发环境搭建Python安装Pysied6安装 Pyside6界面开发简单界面设计界面设计界面编译 编写界面初始化代码软件打包 Pyside6介绍 对于Python的GUI开发来说,Python自带的可视化编程模块的功能较弱,PySide是跨…...
python读取vivo手机截图,将满屏图片文件移动别的路径
问题之初 python读取vivo手机截图, 将满屏图片文件移动别的路径好多这样的图片,占用手机大量的内存,食之无味弃之可惜!那么会复制粘贴👀代码的我们我们今天就把这些图片筛选清理掉。 这段代码 原有逻辑的基础上&…...
【一周安全资讯1007】多项信息安全国家标准10月1日起实施;GitLab发布紧急安全补丁修复高危漏洞
要闻速览 1.以下信息安全国家标准10月1日起实施 2.GitLab发布紧急安全补丁修复高危漏洞 3.主流显卡全中招!GPU.zip侧信道攻击可泄漏敏感数据 4.MOVEit漏洞导致美国900所院校学生信息发生大规模泄露 5.法国太空和国防供应商Exail遭黑客攻击,泄露大量敏感…...
2023年09月个人工作生活总结
本文为 2023 年 9 月工作生活总结。 研发编码 Alpine 容器 某工程部署于alpine镜像,当初看上是因为其体积小,其它微服务,在250MB左右,但那个工程只用50MB。最近发现时间戳转换不正确。对于同一时间字符串转时间戳函数࿰…...
现货白银图表分析的依据
现货白银的行情图表分析其实与股票的差不多,投资者可以结合均线、k线的变化,来分析实时的行情走势。当走势图的均线呈多头排列,即短期、中期、长期均线依次从上到下排列并向右上方运行,且白银价格沿各均线向右上方拉升,…...
python多线程与多进程
多线程与多进程 一, 什么是进程, 什么是线程? 进程: 运行中的程序. 每次我们执行一个程序, 咱们的操作系统对自动的为这个程序准备一些必要的资源(例如, 分配内存, 创建一个能够执行的线程. ) 线程: 程序内, 可以直接被CPU调度的执行过程. 是操作系统能够进行运算调度…...
62从零开始学Java之时间相关的类都有哪些?
作者:孙玉昌,昵称【一一哥】,另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 我们在开发时,除了数字、数学这样的常用API之外,还有日期时间类,更…...
【Leetcode】买卖股票系列
121. 买卖股票的最佳时机 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票,并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大利润。 返回你可以从这笔…...
SLAM面试笔记(8) — 计算机视觉面试题
目录 问题1:目标检测的算法分类 问题2:卷积神经网络的组成 问题3:输入层的作用 问题4:卷积层作用 问题5:卷积核类型 问题6:11卷积核作用 问题7:卷积核是否越大越好 问题8:棋…...
聊聊MySQL面试常问名词回表、索引覆盖,最左匹配
文章目录 1. 前言2. 回表操作 Index Lookup2.1 什么是回表2.2 回表的成本2.3 如何避免回表 3. 索引覆盖 Covering Index3.1 什么是索引覆盖3.2 索引覆盖的优点3.3 如何使用索引覆盖 4. 最左匹配原则(Leftmost Prefix Match)4.1 什么是最左匹配原则4.2 最…...
【面试】C/C++面试八股
C/C面试八股 编译过程的四个阶段C和C语言的区别简单介绍一下三大特性多态的实现原理虚函数的构成原理虚函数的调用原理虚表指针在什么地方进行初始化的?构造函数为什么不能是虚函数为什么建议将析构函数设为虚函数虚函数和纯虚函数的区别抽象类类对象的对象模型内存…...
学习记忆——数学篇——算术——无理数
谐音记忆法 2 \sqrt{2} 2 ≈1.41421:意思意思而已;意思意思; 3 \sqrt{3} 3 ≈1.7320:—起生鹅蛋;一起生儿; 5 \sqrt{5} 5 ≈2.2360679:两鹅生六蛋(送)六妻舅;儿儿生…...
python协程和任务
协程概念引入 协程是我要重点去讲解的一个知识点. 它能够更加高效的利用CPU. 其实, 我们能够高效的利用多线程来完成爬虫其实已经很6了. 但是, 从某种角度讲, 线程的执行效率真的就无敌了么? 我们真的充分的利用CPU资源了么? 非也~ 比如, 我们来看下面这个例子. 我们…...
visual studio code配置anaconda3的python虚拟环境
参考: Visual Studio Code配置anconda3虚拟环境 - 知乎...
【Unity3D编辑器开发】Unity3D编辑器开发基础性框架结构【全面总结】
推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址我的个人博客 大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有用记得一键三连哦。 一、前言 嗨,大家好,我是恬静的小魔龙。 同学们…...
一座“城池”:泡泡玛特主题乐园背后,IP梦想照亮现实
“更适合中国宝宝体质”的主题乐园,被泡泡玛特造出来了。 9月26日,位于北京朝阳公园内的国内首个潮玩行业沉浸式 IP 主题乐园,也是泡泡玛特首个线下乐园——泡泡玛特城市乐园 POP LAND正式开园。 约4万平方米的空间中,泡泡玛特使…...
【什么是闭包? 闭包产生的原因? 闭包有哪些表现形式?】
JS闭包 什么是闭包?闭包产生的原因?闭包有哪些表现形式? 什么是闭包? 闭包是指一个函数可以访问并操作在其作用域之外的变量的能力。在 JavaScript 中,每当函数被创建时,就会创建一个闭包。 以下是一个简单的闭包示例…...
JackJson和FastJson
前言: fastjson是一款强大的json格式转换工具,我个人在开发中就非常喜欢用fastjson;但是由于某些原因,导致fastjson会有一些漏洞,因此在漏洞扫描后需要修复都是要求我们升级版本,或者替换为jackjson&#…...
SpringCloud学习一
单体应用存在的问题 随着业务的发展,开发变得越来越复杂。 修改、新增某个功能,需要对整个系统进行测试、重新部署。 一个模块出现问题,很可能导致整个系统崩溃。 多个开发团队同时对数据进行管理,容易产生安全漏洞。 各个模块…...
SpringBoot, EventListener事件监听的使用
1、背景 在开发工作中,会遇到一种场景,做完某一件事情以后,需要广播一些消息或者通知,告诉其他的模块进行一些事件处理,一般来说,可以一个一个发送请求去通知,但是有一种更好的方式,…...
课题学习(三)----倾角和方位角的动态测量方法(基于陀螺仪的测量系统)
一、内容介绍 该测量系统基于三轴加速度和三轴陀螺仪,安装在钻柱内部,随钻柱一起旋转,形成捷联惯性导航系统,安装如下图所示: 假设三轴加速度和陀螺仪的输出为: f b [ f x f y f z ] T f^b\begin{bmatrix}f_{x} …...
广州建设网站/广东整治互联网霸王条款
好厉害的题啊QAQ,并不会做。 最大值最小想到是二分,然后就是一个混合图欧拉回路的问题。 混合图欧拉回路问题的解决: 我们首先想到有向图的欧拉回路,需满足的条件是每个点的入度等于出度。那么对于一个混合图来说,可…...
购物系统顺序图/北京谷歌seo公司
如果觉得我的算法分享对你有帮助,欢迎关注我的微信公众号“圆圆的算法笔记”,更多算法笔记、算法交流,以及世间万物的学习记录~ NLP中,预训练大模型Finetune是一种非常常见的解决问题的范式。利用在海量文本上预训练得到的Bert、GPT等模型,在下游不同任务上分别进行finet…...
在线定制/白帽seo
#!/bin/bash #################################################### # version:1.01 # # link:http://www.cnblogs.com/netsa # # qq:402151718 # # author:bekey …...
如何查询一个app的开发信息/aso优化重要吗
简介&如何使用HDLBits0 不会吧看不懂英文?1 简介1.1 刷题目录1.2 简介摘要(以官方给的讲解为例)2 使用2.1 界面2.2 开始刷题2.3 提交2.4 提交之后2.5 参考答案网站是这个 HDLBits.0 不会吧看不懂英文? 这是翻译过来的 . 非常…...
南宁网站设计多少钱/有没有推广app的平台
Package gp in the OpenCASCADE eryar163.com China 一、简介 Introduction to Package gp gp是几何处理程序包(Geometric Processor package),简称gp。包gp提供以下功能: 代数计算;如坐标计算、矩阵计算;…...
门户网站英文版建设/站长工具 站长之家
电容屏驱动调试先了解Linux电容屏驱动中几个常用的概念:中断下半部-工作队列; input机制; Linux与Android 多点触摸协议。一、中断下半部-工作队列 1、中断 先看一下宋宝华先生的《Linux设备驱动开发详解》里面…...