Hadoop3集群实战:从零开始的搭建之旅
目录=
一、概念
1.1 Hadoop是什么
1.2 历史
1.3 三大发行版本(了解)
1.4 优势
1.5 组成💗
1.6 HDFS架构
1.7 YARN架构
1.8 MapReduce概述
1.9 HDFS\YARN\MapReduce关系
二、环境准备
2.1 准备模版虚拟机
2.2 安装必要软件
2.3 安装xshell
2.4 创建用户并赋予root权限
2.5 克隆虚拟机
2.6 时间同步
2.7 ssh免密登录
2.8 xsync脚本分发
2.9 安装JDK和Mysql
安装jdk(三个节点)
安装mysql(主节点)目前不需要
三、完全分布式集群搭建
3.1 安装hadoop(三台)
3.2 集群部署
3.2.1 部署规划
3.2.2 配置文件(三台)
3.2.3 启动集群
参考:
一、概念
1.1 Hadoop是什么
- apache的分布式系统基础架构
- Hadoop实际上是一个生态圈,里面有多个组件,主要解决海量数据存储和分析计算问题
1.2 历史
- Hadoop是Apache Lucene创始人 Doug Cutting 创建的。最早起源于Nutch,它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。
- 2003年Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
- 2004年 Google发表论文向全世界介绍了谷歌版的MapReduce系统。
- 同时期,以谷歌的论文为基础,Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP
- 到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
- 2006年Google发表了论文是关于BigTable的,这促使了后来的Hbase的发展。
因此,Hadoop及其生态圈的发展离不开Google的贡献。
1.3 三大发行版本(了解)
- Apache 最基础的版本,完全开源免费
- CDH,集成了大数据框架 发行版本
- HDP,Ambari是HDP的安装工具和管理界面
Cloudera公司已经正式终止了对CDH的支持。分别在2021年12月、2022年3月,Cloudera正式终止了对HDP(Hortonworks Data Platform)及CDH的支持
后续推出CDP,新一代数据平台产品,它整合了HDP和CDH的功能并进行了优化和扩展。
1.4 优势
- 高可靠性:底层维护多个数据副本,避免故障时数据丢失
- 高扩展性:集群间分配任务数据,方便扩展节点,动态扩容缩减
- 高效性:并行工作
- 高容错性:自动将失败的任务重新分配
1.5 组成💗
Hadoop1.x、2.x、3.x的区别
- Hadoop1.*中MapReduce中计算和资源调度同时处理,耦合性比较大
- Hadoop2.*新增了YARN进行资源调度,MapReduce只用来计算
- Hadoop2和3在组成上没有区别
1.6 HDFS架构
分布式文件系统
- NameNode 数据存储位置(存储文件元数据,如:文件名 目录结构 文件属性 所在位置),相当于目录
- DataNode 存储数据,相当于内容
- 2NN 辅助NameNode工作(每隔一段时间对NameNode做数据备份)
1.7 YARN架构
资源管理器
- Resource Manager 集群资源管理(内存、cup)
- Node Manager 单节点资源管理
- Container 容器,相当于一台独立服务器
- ApplicationMaster,单个任务资源管理
1.8 MapReduce概述
- map阶段,并行处理输入数据
- reduce阶段,对map结果汇总
1.9 HDFS\YARN\MapReduce关系
大数据技术生态体系
二、环境准备
目标:需要准备3台虚拟机(本次使用Ubuntu24.04,但是教程大多是Centos,大差不差),机器名为hadoop102、hadoop103、hadoop104,对应ip:192.168.10.102、192.168.10.103、192.168.10.104
2.1 准备模版虚拟机
软件操作系统安装参考:(这部分没有详细记录,一般使参考视频和博客,要细心)
VMware 虚拟机图文安装和配置 Ubuntu Server 22.04 LTS 教程_00-installer-config.yaml-CSDN博客
19_尚硅谷_Hadoop_入门_Centos7.5软硬件安装_哔哩哔哩_bilibili
- 配置静态ip 192.168.10.100,nat桥接模式
- 配置文件修改/etc/netplan
- 配置主机名称和ip映射:修改服务器hosts文件 192.168.10.100 hadoop100
- 修改一些配置虚拟机和windows上的
2.2 安装必要软件
安装vim、iputils-ping、net-tools、rsync(一般安装最小体积的server版本才需要安装这些)
- sudo apt install vim
- sudo apt update
- sudo apt-get update
- sudo apt install iputils-ping
- sudo apt install net-tools
- sudo apt install rsync
测试网络:ping www.baidu.com
测试:ip ifconfig
2.3 安装xshell
c21_尚硅谷_Hadoop_入门_Xshell远程访问工具_哔哩哔哩_bilibili参考:21_尚硅谷_Hadoop_入门_Xshell远程访问工具_哔哩哔哩_bilibili
主要是做本机和虚拟机的交互和文件上传。因为本地安装了termius就不需要这个了,感觉termius更好用
2.4 创建用户并赋予root权限
给用户mlj root权限:vim /etc/sudoers
mlj ALL=(ALL:ALL) NOPASSWD:ALL
2.5 克隆虚拟机
- 在vmware上克隆模版虚拟机
- 修改ip和主机名分别为hadoop102 hadoop103 hadoop104
- 修改ip和主机名的映射:vim /etc/hosts
192.168.10.102 hadoop102192.168.10.103 hadoop103192.168.10.104 hadoop104
报错:使用termius进行root用户登录时报错:SSH配置不允许root登录
- 修改/etc/ssh/sshd_config PermitRootLogin:yes
- 重启生效sudo systemctl restart sshd
2.6 时间同步
如果服务器在公网环境(能连接外网),可以不采用集群时间同步
- 安装ntp时间同步服务器(所有节点):apt install ntp
- 查看状态、启动、设置开机自启
systemctl status ntpdsecsystemctl start ntpsecsystemctl enable ntpsec
- 重启服务器:reboot
- 所有节点设置时区:中国上海 timedatectl set-timezone Asia/Shanghai
- 修改配置同步时间的机器 vim /etc/ntpsec/ntp.conf
#注释(主节点需要,子节点注释掉)
#集群在局域网中,不使用其他互联网上的时间
pool 0.ubuntu.pool.ntp.org iburst
pool 1.ubuntu.pool.ntp.org iburst
pool 2.ubuntu.pool.ntp.org iburst
pool 3.ubuntu.pool.ntp.org iburst
#pool ntp.ubuntu.com#(子节点配置,使用102作为时间同步机器)
server hadoop102#当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
#(所有节点需要)
server 127.127.1.0fudge
127.127.1.0 stratum 10#授权网段(主节点需要)
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
- ntpq -p 查看同步情况
问题:时间和windows实践不一致
(1)安装ntpdate工具:sudo apt-get install ntpdate
(2)同步系统时间与网络时间:sudo ntpdate cn.pool.ntp.org
(3)其他节点同步hadoop102的时间: sudo ntpdate hadoop102
2.7 ssh免密登录
~/.ssh/
(1)102生成公私钥 三次回车 ssh-keygen -t rsa
(2)copy公钥到102 103 104 (本机也要配置)ssh-copy-id hadoop103
(3)103、104执行相同的步骤
(4)验证:ssh hadoop103
2.8 xsync脚本分发
(1)编写分发脚本xsync
注意:每台机器都要有rsync才能分发成功
/home/mlj/bin目录下,新建xsync
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
doecho ==================== $host ====================#3. 遍历所有目录,挨个发送for file in $@do#4 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done
(2)修改xsync环境变量,否则找不到该命令
export PATH=$PATH:/home/mlj/bin
注意:rsync基于ssh服务需要配置秘钥,免密登录
2.9 安装JDK和Mysql
安装jdk(三个节点)
(1)下载上传到虚拟机:scp .\jdk-8u202-linux-x64.tar.gz root@192.168.10.104:/opt/soft/
(2)解压缩:sudo tar -zxvf jdk-8u202-linux-x64.tar.gz -C /opt/module/
(3)环境变量配置
#JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_202export PATH=$PATH:$JAVA_HOME/bin
(4)验证:java-version
安装mysql(主节点)目前不需要
步骤:
- 安装docker
- 使用docker安装mysql
- docker-compose启动mysql
问题:
(1)docker-compose报错,缺少python的一个包setuptools
- 安装pipx :sudo apt install pipx
- 安装包setuptools :sudo pipx install setuptools
- docker-compose -version
(2)拉取镜像报错修复:Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
使用第三方镜像库:
AtomHub 可信镜像仓库平台 · OpenAtom Foundation
三、完全分布式集群搭建
3.1 安装hadoop(三台)
(1)上传hadoop包:tar -zxvf hadoop-3.4.1.tar.gz -C /opt/module
(2)解压缩 tar -zxvf hadoop-3.4.1.tar.gz -C /opt/module
(3)环境变量配置
#hadoop环境变量
export HADOOP_HOME=/opt/module/hadoop-3.4.1 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
(4)集群配置
3.2 集群部署
3.2.1 部署规划
- NameNode和SecondaryNameNode不要安装同一台
- ResourceManager也很消耗内存,不要和NameNode和SecondaryNameNode配置在一台机器
3.2.2 配置文件(三台)
自定义配置文件 4个
配置core-site.xml
<!-- 指定 NameNode 的地址 --><property><name>fs.defaultFS</name><value>hdfs://hadoop102:8020</value></property><!-- 指定 hadoop 数据的存储目录 --><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.4.1/data</value></property><!-- 配置 HDFS 网页登录使用的静态用户为 mlj --><property><name>hadoop.http.staticuser.user</name><value>mlj</value></property>
hdfs-site.xml
<!-- nn web 端访问地址-->
<property><name>dfs.namenode.http-address</name><value>hadoop102:9870</value>
</property>
<!-- 2nn web 端访问地址-->
<property><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value>
</property>
<!--HDFS 中是否启用权限检查-->
<property><name>dfs.permissions</name><value>false</value>
</property>
yarn-site.xml
<!-- Site specific YARN configuration properties -->
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
<!-- 指定 ResourceManager 的地址-->
<property><name>yarn.resourcemanager.hostname</name><value>hadoop10</value>
</property>
<!--是否将对容器实施虚拟内存限制-->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>
mapred-site.xml
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
配置works(不能有空格换行!)
hadoop102hadoop103hadoop104
3.2.3 启动集群
- 配置目录权限
sudo chmod -R a+w /opt/module/hadoop-3.4.1/
- 初次启动初始化(初始化失败可能是没有权限,执行上一步)
hdfs namenode -format
- 修改hadoop的环境变量hadoop-env.sh:vim /opt/module/hadoop-3.4.1/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_202
- 脚本分发(文件夹需要修改权限),xsync 脚本
- 启动dfs集群:sbin/start-dfs.sh
- jps 验证
- 访问hdfs web页面 http://192.168.10.102:9870/
- 启动yarn sbin/start-yarn.sh
- 登录yarn web页面 http://192.168.10.103:8088/
参考:
尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放_哔哩哔哩_bilibili
Hadoop3.1.4完全分布式集群搭建_hadoop 3.1.4-CSDN博客
相关文章:

Hadoop3集群实战:从零开始的搭建之旅
目录 一、概念 1.1 Hadoop是什么 1.2 历史 1.3 三大发行版本(了解) 1.4 优势 1.5 组成💗 1.6 HDFS架构 1.7 YARN架构 1.8 MapReduce概述 1.9 HDFS\YARN\MapReduce关系 二、环境准备 2.1 准备模版虚拟机 2.2 安装必要软件 2.3 安…...

Kotlin设计模式之桥接模式
桥接模式用于将抽象部分与实现部分分离,使它们可以独立变化。Kotlin中可以通过接口和抽象类来实现桥接模式。以下是桥接模式的实现方法: 一. 基本桥接模式 在这种模式中,定义一个抽象部分和一个实现部分,通过组合将它们连接起来…...

详解组合模式
引言 有一种情况,当一组对象具有“整体—部分”关系时,如果我们处理其中一个对象或对象组合(区别对待),就可能会出现牵一发而动全身的情况,造成代码复杂。这个时候,组合模式就是一种可以用一致的…...

【系统架构设计师论文】云上自动化运维及其应用
随着云计算技术的迅猛发展,企业对云资源的需求日益增长。为了应对这一挑战,云上自动化运维(CloudOps)应运而生,它结合了DevOps理念和技术,通过自动化工具和流程来提高云环境的管理效率和服务质量。本文将探讨云上自动化运维的主要衡量指标,并详细介绍一个实际项目中如何…...

交换排序----快速排序
快速排序 快速排序是一种高效的排序算法,它采用分治法策略,将数组分为较小和较大的两个子数组,然后递归排序两个子数组。 快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法,其基本思想为:任取待排序元素序…...

ES 与 MySQL 在较大数据量下查询性能对比
在进行数据查询性能测试的过程中,我的同事幺加明对 ES(Elasticsearch)和 MySQL 进行了相对较大数据量的测试,并整理了相关结果。在得到其授权的情况下,我将此对比案例分享给大家,在此再次向幺加明表示感谢。…...

C# 新语法中的字符串内插$和{}符号用法详解
自C#6.0开始提供一个新的语法糖,即"$" 符号,配合“{}”使用,它的作用除了是对String.format的简化,还可设置其格式模板,实现了对字符串的拼接优化。 语法格式: $"string {变量表达式}” 语…...

Nacos源码学习-本地环境搭建
本文主要记录如何在本地搭建Nacos调试环境来进一步学习其源码,如果你也刚好刷到这篇文章,希望对你有所帮助。 1、本地环境准备 Maven: 3.5.4 Java: 1.8 开发工具:idea 版本控制工具: git 2、下载源码 官方仓库地址 :https://git…...

windows 好工具
Windows文件夹目录大小分析工具WizTree...

计算机运行时提示错误弹窗“由于找不到 quazip.dll,无法继续执行代码。”是什么原因?“quazip.dll文件缺失”要怎么解决?
计算机运行时错误解析:解决“quazip.dll缺失”问题指南 在软件开发和日常计算机使用中,我们经常会遇到各种运行时错误。今天,我们将深入探讨一个常见的错误提示:“由于找不到quazip.dll,无法继续执行代码。”这一弹窗…...

创造未来:The Sandbox 创作者训练营如何赋能全球创造者
创作者训练营让创造者有能力打造下一代数字体验。通过促进合作和提供尖端工具,The Sandbox 计划确保今天的元宇宙是由一个个创造者共同打造。 2024 年 5 月,The Sandbox 推出了「创作者训练营」系列,旨在重新定义数字创作。「创作者训练营」系…...

R语言对简·奥斯汀作品中人物对话的情感分析
项目背景 客户是一家文学研究机构,他们希望通过对简奥斯汀作品中人物对话的情感分析,深入了解作品中人物的情感变化和故事情节的发展。因此,他们委托你进行一项情感分析项目,利用“janeaustenr”包中的数据集来构建情感分析模型。…...

股指期货基差为正数,这是啥意思?
在股指期货的世界里,有个挺重要的概念叫“基差”。说白了,基差就是股指期货的价格和它对应的现货价格之间的差价。今天,咱们就来聊聊当这个基差为正数时,到底意味着啥。 基差是啥? 先复习一下,基差 股指…...

黑马程序员MybatisPlus/Docker相关内容
Day01 MP相关知识 1. mp配置类: 2.条件构造器: 具体的实现例子: ①QuerryWapper: ②LambdaQueryWrapper: 3.MP的自定义SQL 4.MP的Service层的实现 5.IService下的Lambda查询 原SQL语句的写法: Lambda 查询语句的…...

使用 Vue 和 Canvas-Confetti 实现烟花动画特效
在开发中,为用户提供具有视觉冲击力的反馈是一种提升用户体验的好方法。今天,我们将结合 Vue 框架、canvas-confetti 和 Lottie 动画,创建一个动态对话框动画,其中包含炫酷的烟花特效。 效果图: 效果简介 当用户触发…...

【银河麒麟操作系统真实案例分享】内存黑洞导致服务器卡死分析全过程
了解更多银河麒麟操作系统全新产品,请点击访问 麒麟软件产品专区:https://product.kylinos.cn 开发者专区:https://developer.kylinos.cn 文档中心:https://documentkylinos.cn 现象描述 机房显示器连接服务器后黑屏ÿ…...

如何加强游戏安全,防止定制外挂影响游戏公平性
在现如今的游戏环境中,外挂始终是一个困扰玩家和开发者的问题。尤其是定制挂(Customized Cheats),它不仅复杂且隐蔽,更能针对性地绕过传统的反作弊系统,对游戏安全带来极大威胁。定制挂通常是根据玩家的需求…...

SpringBoot整合knife4j,以及会遇到的一些bug
这篇文章主要讲解了“Spring Boot集成接口管理工具Knife4j怎么用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Spring Boot集成接口管理工具Knife4j怎么用”吧! 一…...

城电科技|光伏廊道是什么?安装光伏廊道有什么好处?
光伏廊道是什么?光伏廊道专门设计用于集中安装太阳能光伏发电系统的建筑物或构筑物,它可以将光伏转换成可以用于供电的清洁绿电。光伏廊道通常由阳能电池板、太阳能电池、控制器、逆变器、混凝土、钢材等材料组成,具备发电、坚固、耐用、防水…...

当DHCP服务器分配了同一个IP地址
当DHCP服务器分配了同一个IP地址给多个设备时,这通常会导致网络问题,如IP地址冲突,进而影响设备的网络连接。以下是详细的分析和解决步骤: 原因分析: IP地址租约未过期: 租约管理:DHCP服务器维…...

储能能量自动化调配装置功能介绍
随着可再生能源的快速发展,光伏发电已成为全球能源结构转型的关键技术之一。与此同时,储能技术作为实现光伏发电稳定输出的核心技术,得到了广泛关注。在企业电网中,光伏储能系统的运维管理不仅关乎能源利用效率,还涉及…...

vite5+vue3+Ts5 开源图片预览器上线
images-viewer-vue3:一款Vue3的轻量级图像查看器,它基于Flip动画技术,支持PC和h5移动网页预览照片,如果它是Vue3开发的产品。 npm开源地址:https://www.npmjs.com/package/images-viewer-vue3?activeTabreadme Flip 动画 < …...

【深度学习】深入解析长短期记忆网络(LSTMs)
长短期记忆网络(Long Short-Term Memory networks, LSTMs)是一种特殊的递归神经网络(RNN),专门设计用来解决标准 RNN 在处理长序列数据时的梯度消失和梯度爆炸问题。LSTMs 在许多序列数据任务中表现出色,如…...

从Web3到智能合约:探索新一代数据交互模式
随着互联网技术的不断演进,Web3的到来标志着互联网的一个新纪元。与传统的Web2相比,Web3倡导去中心化、更加开放和透明的网络架构,而智能合约则是其中的核心技术之一。本文将介绍Web3与智能合约的概念、应用以及它们如何改变数据交互模式&…...

排查bug的通用思路
⭐️前言⭐️ APP点击某个按钮没有反应/PC端执行某个操作后,响应较慢,通用的问题排查方法: 从多个角度来排查问题 🍉欢迎点赞 👍 收藏 ⭐留言评论 🍉博主将持续更新学习记录收获,友友们有任何问题可以在评…...

如何利用Python爬虫获得商品类目
在当今数字化时代,获取和分析数据的能力对于任何希望在市场上保持竞争力的企业来说都是至关重要的。对于电子商务平台和市场研究公司而言,获取商品类目数据尤为重要,因为这些数据可以帮助他们更好地理解市场趋势、优化产品目录并制定有效的营…...

如何通过 Windows 自带的启动管理功能优化电脑启动程序
在日常使用电脑的过程中,您可能注意到开机后某些程序会自动运行。这些程序被称为“自启动”或“启动项”,它们可以在系统启动时自动加载并开始运行,有时甚至在后台默默工作。虽然一些启动项可能是必要的(如杀毒软件)&a…...

大模型学习有什么发展前景?
前景人工智能大模型是指拥有超大规模参数(通常在十亿个以上)、复杂计算结构的机器学习模型。它通常能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。 2024年政府工作报告提出“发展新质生产力”,并将…...

Excel技巧:如何批量调整excel表格中的图片?
插入到excel表格中的图片大小不一,如何做到每张图片都完美的与单元格大小相同?并且能够根据单元格来改变大小?今天分享,excel表格里的图片如何批量调整大小。 方法如下: 点击表格中的一个图片,然后按住Ct…...

独著与编著的区别是?
独著和编著主要有以下区别: 一、创作性质 - 独著 - 独著是作者完全独立进行创作的作品。其内容是作者自己的研究成果、观点见解或者经验总结。作者从最初的选题构思,到资料收集、分析研究,再到内容撰写、修改润色等全过程都是独立完成的。…...