当前位置：首页 > news >正文

《Hadoop篇》------大数据及Hadoop入门

news 2026/2/8 11:40:15

一、大数据及Hadoop入门

1.1 单节点、分布式、集群

1.1.1 大数据的概念

1.1.2 大数据的本质

二、HDFS Shell命令

2.1、常用相关命令

2.2、上传文件

2.2.1、上传文件介绍

2.2.2上传文件操作

2.3、下载文件

2.4、删除文件

2.5、创建目录

2.6、查看文件系统

2.7、拷贝文件

三、分布式系统原理

3.1、数据块

四、HDFS架构

五、Datanode服役（上线）和退役（下线）

5.1分发到其他节点

5.2、格式化并启动HDFS

5.3、更新hdfs

六、Centos权限管理

6.1、权限介绍

6.2、修改权限

七、HDFS进程启动流程

八、Hadoop配置文件解释

8.1 hadoop内核和环境配置

8.2、mapreduce配置

8.3、yarn配置

8.4、slaves配置

九、hdfs及yarn启动验证：进程启动命令

一、大数据及Hadoop入门

1.1 单节点、分布式、集群

1.1.1 大数据的概念

大数据的5v特点

Volume：大量

Velocity：高速

Variety：多样

Value：价值

Veracity：真实性

1.1.2 大数据的本质

大数据的本质就是利用计算机集群来处理大批量的数据，大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。

✳ 1）单台计算机存储这些数据都是很困难的，那怎么办？

答：分发到不同的计算机存储。

✳ 2）只存储有没有意义？

答：无意义，存储是需要投入场地，投入服务器硬件设施，都需要钱维护。

✳ 3）那存储后需要什么？怎么样让存储变得有意义？

答：认真分析，真正地把数据转换成有价值的虚拟产品。

二、HDFS Shell命令

2.1、常用相关命令

hdfs dfs-cat  //查看
hdfs dfs-copyFromLocal  //从本地复制
hdfs dfs-copyToLocal  //复制至本地
hdfs dfs-cp  //复制
hdfs dfs-get  //获取
hdfs dfs-ls  //查看
hdfs dfs-mkdir  //创建文件
hdfs dfs-put  //传输
hdfs dfs-rm  //删除

2.2、上传文件

2.2.1、上传文件介绍

（1）全称形式

hdfs dfs-put ./file hdfs://hadoop1:9000/

hdfs dfs-copyfromlocal ./file hdfs://hadoop1:9000/

（2）省略写法

hdfs dfs-put ./file /

hdfs dfs-copyfromlocal ./file /

问题：为什么能够省略具体hdfs对应ip地址呢？

答：配置了core-site.xml

2.2.2上传文件操作

-put方式上传

[root@hadoop1 ~]# cd /home/java

[root@hadoop1 java]# ls

jdk jdk_1.8.0_131.tar.gz

[root@hadoop1 java]# hdfs dfs -put ./jdk_1.8.0_131.tar.gz hdfs://hadoop1:9000/

-copyFromLocal方式上传

[root@hadoop1 ~]# cd /home/java

[root@hadoop1 java]# ls

jdk jdk_1.8.0_131.tar.gz

[root@hadoop1 java]# hdfs dfs -put ./jdk_1.8.0_131.tar.gz hdfs://hadoop1:9000/

2.3、下载文件

hdfs dfs -get HDFS的根路径下的文件本地的文件系统

hdfs dfs -get hdfs://hadoop1:9000/hadoop-2.6.1.tar.gz ./

hdfs dfs -copyToLocal /jdk_1.8.0_131.tar.gz ./

前面一个/代表HDFS的根路径，后面一个/代表Linux的根路径

2.4、删除文件

rm -rf dir 删除Linux本地文件系统中对应目录

hdfs dfs -rm /hadoop-2.6.1.tar.gz 删除hdfs文件系统中的内容

hdfs dfs -rm -r /dir 删除目录和子目录

2.5、创建目录

hdfs dfs -mkdir /dir 一个目录，不是递归目录

hdfs dfs -mkdir -p /dir1/dir2 递归目录

2.6、查看文件系统

hdfs dfs -ls /

2.7、拷贝文件

cp jdk_1.8.0_131.tar.gz jdk_1 将后者拷贝到前者所在的文件夹中 Linux本地执行

hdfs dfs -cp /jdk_1.8.0_131.tar.gz /jdk1 HDFS文件系统中

三、分布式系统原理

3.1、数据块

把数据切分成一个个固定大小的块（物理切分，不是逻辑切分），将这些块存储到分布式文件系统上

四、HDFS架构

HDFS的文件是在物理上分块存储的（hadoop2.x版本它的默认blocksize大小128M）

五、Datanode服役（上线）和退役（下线）

5.1分发到其他节点

scp /home/hadoop/hadoop-2.6.1/etc/hadoop/slaves hadoop2:/home/hadoop/hadoop-2.6.1/etc/hadoop/ 分发到其他节点

5.2、格式化并启动HDFS

hdfs namenode -format

start-dfs.sh

格式化，并启动HDFS

5.3、更新hdfs

hdfs dfsadmin -refreshNodes

六、Centos权限管理

6.1、权限介绍

每一组信息如“rwx”，每一个字符都有它自己的特定含义且先后位置是固定的，其中r是读权限、w是写权限、x是可执行权限、-没有对应字符的权限

Linux里面对这些字符设置对应的数值，r是4，w是2，x是1，-是0。“rwx”则是7（=4+2+1）

6.2、修改权限

修改文件夹及子文件夹所有文件

chown 或 chomd -R “权限”或“名：组” 文件夹名称

七、HDFS进程启动流程

DataNode：负责数据块的存储，它是HDFS的小弟

Namenode：负责元数据的存储，接收客户端的请求，维护整个HDFS集群的目录树

Secondary：辅助namenode管理，分担namenode压力

八、Hadoop配置文件解释

8.1 hadoop内核和环境配置

（1）hadoop-env.sh：配置JDK的路径

（2）core-site.xml：配置Hadoop集群的元数据存储路径，配置主节点在哪一台机器上

<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://hadoop1:9000</value>

指定namenode将来在哪一台节点启动，通信端口是9000，是fileSystem默认的端口号

        </property>

<property>

        <name>hadoop.tmp.dir </name>

        <value>/usr/hadoop-2.6.1/hdpdata</value>

指定元数据存储的路径，hdpdata是在执行 hdfs namenode -format后才会自动生成

</property>

</configuration>

8.2、mapreduce配置

主要配置mapred-site.xml

MR资源调度用Yarn

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

8.3、yarn配置

配置yarn-site.xml

<configuration>

<property>

<name>yarn.resourceManager.hostname</name>

<value>hadoop1</value>

配置Yarn老大【resourceManager】将来在哪一台节点启动，注意是自己的master

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

yarn的子服务，必须使用mapreduce_shuffle

</property>

</configuration

8.4、slaves配置

[root@hadoop1 hadoop]# cat /home/hadoop/hadoop-2.6.1/etc/hadoop/slaves

hadoop1

hadoop2

hadoop3

指定datanode将来在哪台节点启动

注：在一台节点上的相关配置修改，要分发到全部集群上

例：

[root@hadoop1 hadoop]#scp mapred-site.xml hadoop2:/home/hadoop/hadoop-2.6.1/etc/hadoop

九、hdfs及yarn启动验证：进程启动命令

namenode -format

格式化HDFS的作用是初始化集群

（1）HDFS的相关进程：

Namenode（老大）

Datanode（小弟）

SecondaryNameNode（checkpoint节点）

（2）Yarn相关进程

Resourcemanager（老大）

Nodemanager（小弟）

hdfs和yarn相关进程都启动后，hdfs集群管理页面和yarn管理界面才可访问成功

start-dfs.sh

start-yarn.sh

这两个命令等效于start-all.sh

kill - 9

强制杀死该进程

hadoop-daemon.sh start namenode

单独启动HDFS相关的进程

《Hadoop篇》------大数据及Hadoop入门

目录一、大数据及Hadoop入门 1.1 单节点、分布式、集群 1.1.1 大数据的概念 1.1.2 大数据的本质二、HDFS Shell命令 2.1、常用相关命令 2.2、上传文件 2.2.1、上传文件介绍 2.2.2上传文件操作 2.3、下载文件 2.4、删除文件 2.5、创建目录 2.6、查看文件系统 2.…...

编程日记 2023/2/16 1:43:46

TCP核心机制详解（三）

目录前言： 滑动窗口滑动窗口处理丢包问题流量控制拥塞控制延时应答捎带应答面向字节流异常情况小结： 前言： 前两篇文章讲述了，TCP十种核心机制的前三种。这篇文章详细介绍其他的一些核心机制，让我们…...

编程日记 2023/2/16 1:42:37

最易上手的爬虫请求库：Requests核心功能速览（下）

上一个章节我们讲了如何快速使用Requests发送网络请求、处理URL参数和提取响应内容，这些是最基本的操作。然而还有很多场景下，我们的网络请求更加复杂。比如我们必须要定制请求头来假装成浏览器，不然可能会被网站识别为机器并且被屏蔽；又比如我们需要在发送请求时以表单形…...

编程日记 2023/2/16 1:41:30

生产故障｜Kafka ISR频繁伸缩引发性能急剧下降

生产故障｜Kafka ISR频繁伸缩引发性能急剧下降-阿里云开发者社区本文是笔者双十一系列第二弹，源于一个双十一期间一个让笔者猝不及防的生产故障，本文将详细剖析Kafka的副本机制，以及ISR频繁变更(扩张与伸缩)为什么会导致集群不可…...

编程日记 2023/2/16 1:40:18

c++终极螺旋丸：₍˄·͈༝·͈˄*₎◞ ̑̑“类与对象的结束“是结束也是开始

文章目录前言一.构造函数中的初始化列表拷贝对象时的一些编译器优化二.static成员三.友元四.内部类总结前言前两期我们将类和对象的重点讲的差不多了，这一篇文章主要进行收尾工作将类和对象其他的知识点拉出来梳理一遍，并且补充前两篇没有讲过的…...

编程日记 2023/2/16 1:39:08

【Python--torch.nn.functional】F.normalize用法 + 代码说明

【Python–torch.nn.functional】F.normalize介绍代码说明文章目录【Python--torch.nn.functional】F.normalize介绍代码说明1. 介绍2. 代码说明2.1 一维Tensor2.2 二维Tensor2.3 三维Tensor3. 总结1. 介绍 import torch.nn.functional as F F.normalize(input: Tensor, …...

编程日记 2023/2/16 1:37:56

【算法题】1887. 使数组元素相等的减少操作次数

插： 前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。坚持不懈，越努力越幸运，大家一起学习鸭~~~ 题目： 给你一个整数数组 nums &#xff0…...

编程日记 2023/2/16 1:36:47

GD库图片裁剪指定形状解决办法（PHP GD库海报）

需求描述：需要把图片裁剪成一个指定的平行四边形，目的是使用GD库，把裁剪后的图片放在底图上面，使最终合成的图片看起来是一个底图平行四边形的样子提示：可以结合本作者的其他文章，来生成一个定制化的海报&a…...

编程日记 2023/2/16 1:35:37

redis的简介及应用场景

1、基本信息 Redis英文官网介绍： Redis is an open source (BSD licensed), in-memory data structure store, used as a database, cache and message broker. It supports data structures such as strings, hashes, lists, sets, sorted sets with range queri…...

编程日记 2023/2/16 1:34:28

2、HAL库利用滴答定时器systick（1ms中断）实现时间计数戳

文档说明：通过滴答定时器的1ms中断实现时间计数，标记需要的时间标志，在主函数中查询标志，避免延时函数消耗CPU 1、HAL库systick定时器说明在CubeMx生成的代码main()函数首先执行的函数为HAL_Init();里面会进行滴答定时器初始化…...

编程日记 2023/2/16 1:33:17

Spring入门学习

Spring入门学习文章目录Spring入门学习Spring概述Spring FrameworkIOCIOC容器DIIOC容器的实现类①FileSystemXmlApplicationContext②ClassPathXmlApplicationContext基于XML管理bean入门案例创建类创建xml在Spring配置文件中配置bean测试Spring概述 Spring 是最受欢迎的企业级…...

编程日记 2023/2/16 1:32:09

webpack（4版本）使用

webpack简介：webpack 是一种前端资源构建工具，一个静态模块打包器(module bundler)。在 webpack 看来, 前端的所有资源文件(js/json/css/img/less/...)都会作为模块处理。它将根据模块的依赖关系进行静态分析，打包生成对应的静态资源(bundle)…...

编程日记 2023/2/16 1:30:59

Linux安装ElasticSearch

下载地址：https://www.elastic.co/cn/downloads/past-releases#elasticsearch 1 版本选择 ElasticSearch 7 及以上版本都是自带的 jdk，假如需要配置指定的 jdk 版本的话，可以在 es 的 bin 目录下找到elasticsearch-env.bat 这个文件&#x…...

编程日记 2023/2/16 1:29:48

Linux中C语言编程经验总结

修改记录版本号日期更改理由V1.02022-03-15MD化总则仅总结一些常用且实用的编程规范和技巧，且避免记忆负担，聚焦影响比较大的20% ! 编译器打开全warning编译器开关正例 gcc -W -Wall -g -o someProc main.c反例 gcc -g -o someProc main…...

编程日记 2023/2/16 1:28:35

jvisualvm工具使用

jdk自带的工具jvisualvm，可以分析java内存使用情况，jvm相关的信息。 1、设置jvm启动参数设置jvm参数**-Xms20m -Xmx20m -XX:PrintGCDetails** 最小和最大堆内存，打印gc详情 2、测试代码 TestScheduleClassGc package com.core.schedule;…...

编程日记 2023/2/16 1:27:24

redis五大IO网络模型、内存回收

目录1.0用户空间和内核态空间1.1 网络模型-阻塞IO1.2 网络模型-非阻塞IO1.3 网络模型-IO多路复用1.3.1 网络模型-IO多路复用-select方式1.3.2 网络模型-IO多路复用模型-poll模式1.3.3 网络模型-IO多路复用模型-epoll函数1.3.4 网络模型-epoll中的ET和LT1.3.5 网络模型-基于epol…...

编程日记 2023/2/16 1:26:13

【C/C++】内存管理详解

目录内存布局思维导图1.C/C内存分布数据段：栈：代码段：堆:2.C语言中动态内存管理方式3.C内存管理方式3.1new/delete操作内置类型3.2new和delete操作自定义类型4.operator new 与 operator delete函数5.new和delete的实现原理5.1内置类型5.2自定…...

编程日记 2023/2/16 1:25:04

Android ProcessLifecycleOwner 观察进程生命周期

文章目录简介使用依赖用法1，结合 LiveData用法2，获取 owner的 lifecycle 实例，并对 lifecycle 添加观察者简介 ProcessLifecycleOwner 直译，就是，进程生命周期所有者。通过 DOC 注释了解到： Lifecycle.E…...

编程日记 2023/2/16 1:23:56

如何编写一个 npm 插件？

提到写 npm 插件，很多没搞过的可能第一感觉觉得很难，无从下手，其实不然。我们甚至写个简单的 console.log(hello word)，都是可以当成一个插件发布上去的。其实无从下手的主要难点还是在于你的具体要做的功能逻辑，这…...

编程日记 2023/2/16 1:22:45

mapstruct- 让VO，DTO，ENTITY转换更加便捷

mapstruct- 让VO，DTO，ENTITY转换更加便捷 1. 简介 MapStruct是一个代码生成器，简化了不同的Java Bean之间映射的处理，所谓映射指的就是从一个实体变化成一个实体。例如我们在实际开发中，DAO层的实体和一些数据传输对…...

编程日记 2023/2/16 1:21:35

挑战杯推荐项目

“人工智能”创意赛 - 智能艺术创作助手：借助大模型技术，开发能根据用户输入的主题、风格等要求，生成绘画、音乐、文学作品等多种形式艺术创作灵感或初稿的应用，帮助艺术家和创意爱好者激发创意、提高创作效率。 - 个性化梦境…...

编程新知 2025/11/6 5:46:16

Spark 之入门讲解详细版（1）

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处&…...

编程新知 2026/2/5 4:17:31

Spring Boot 实现流式响应（兼容 2.7.x）

在实际开发中，我们可能会遇到一些流式数据处理的场景，比如接收来自上游接口的 Server-Sent Events（SSE） 或流式 JSON 内容，并将其原样中转给前端页面或客户端。这种情况下，传统的 RestTemplate 缓存机制会…...

编程新知 2025/8/11 8:18:44

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂（如抗体、抑制肽）在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上，高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术，但这类方法普遍面临资源消耗巨大、研发周期冗长…...

编程新知 2026/1/25 13:18:12

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/11/30 16:55:29

Spring Boot面试题精选汇总

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

编程新知 2025/9/24 23:08:17

uniapp微信小程序视频实时流+pc端预览方案

方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器纯前端实现高延迟高流量帧率极低个人demo测试超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 （部分有免费额度&#x…...

编程新知 2026/1/31 6:12:33

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23

Mysql中select查询语句的执行过程

目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析（Parser） 2.4、执行sql 1. 预处理（Preprocessor） 2. 查询优化器（Optimizer） 3. 执行器…...

编程新知 2026/2/7 5:16:05

掌握 HTTP 请求：理解 cURL GET 语法

cURL 是一个强大的命令行工具，用于发送 HTTP 请求和与 Web 服务器交互。在 Web 开发和测试中，cURL 经常用于发送 GET 请求来获取服务器资源。本文将详细介绍 cURL GET 请求的语法和使用方法。一、cURL 基本概念 cURL 是 "Client URL" 的缩写…...

编程新知 2025/7/9 20:52:19

一、大数据及Hadoop入门

1.1 单节点、分布式、集群

1.1.1 大数据的概念

1.1.2 大数据的本质

二、HDFS Shell命令

2.1、常用相关命令

2.2、上传文件

2.2.1、上传文件介绍

2.2.2上传文件操作

2.3、下载文件

2.4、删除文件

2.5、创建目录

2.6、查看文件系统

2.7、拷贝文件

三、分布式系统原理

3.1、数据块

四、HDFS架构

五、Datanode服役（上线）和退役（下线）

5.1分发到其他节点

5.2、格式化并启动HDFS

5.3、更新hdfs

六、Centos权限管理

6.1、权限介绍

6.2、修改权限

七、HDFS进程启动流程

八、Hadoop配置文件解释

8.1 hadoop内核和环境配置

8.2、mapreduce配置

8.3、yarn配置

8.4、slaves配置

九、hdfs及yarn启动验证：进程启动命令

相关文章：