当前位置：首页 > news >正文

Hadoop三大组件之MapReduce（一）

news 2026/2/8 10:02:34

Hadoop之MapReduce

1. MapReduce是什么

MapReduce是一个分布式运算程序的编程框架，旨在帮助用户开发基于Hadoop的数据分析应用。它的核心功能是将用户编写的业务逻辑代码与自带的默认组件整合，形成一个完整的分布式运算程序，并并发运行在一个Hadoop集群上。

2. MapReduce的优点

1) 易于编程

MapReduce框架只需实现几个简单的接口，用户便可以快速开发出一个分布式程序。这使得编写分布式程序的复杂性大大降低，从而促进了MapReduce的普及。

2) 良好的扩展性

随着计算需求的增加，用户只需简单地增加机器即可提升计算能力，Hadoop会自动将任务分配到新增的节点上。

3) 高容错性

Hadoop设计时考虑到了在廉价PC机器上运行的需求，因此具备高容错性。如果某个节点宕机，Hadoop会自动将计算任务转移到其他节点上，无需人工干预。

4) 适合PB级以上海量数据的离线处理

Hadoop可以实现大规模服务器集群的并发工作，提供高效的数据处理能力。

3. MapReduce的缺点

1) 不擅长实时计算

MapReduce无法像MySQL或Oracle那样，在毫秒或秒级内快速返回查询结果，适合批处理场景而非实时应用。

2) 不擅长流式计算

MapReduce的输入数据集是静态的，无法处理动态输入数据，因此不适合流式计算场景。

3) 不擅长DAG（有向无环图）计算

对于存在依赖关系的多个应用程序，MapReduce在处理时会导致大量的磁盘IO，影响性能。

4. MapReduce核心思想

以统计单词出现次数为例，MapReduce程序通常分为两个阶段：Map阶段和Reduce阶段。
在这里插入图片描述

Map阶段

读取输入数据并按行处理。
按空格切分每一行，生成键值对（KV对）。
将KV对按键分区，分发到不同的Reduce任务。

Reduce阶段

每个Reduce任务接收并处理来自Map阶段的输出数据。
统计以特定字母开头的单词数量。
将结果输出到文件。

案例流程

输入数据：一个包含多个单词的文本文件。
Map阶段将这些单词分为不同的分区，例如：
- 分区1：以a-p开头的单词
- 分区2：以q-z开头的单词
Reduce阶段统计每个分区的单词数量，输出结果到文件。

假设我们有一个文本文件，内容如下：

apple banana grape
orange kiwi banana
apple orange peach
kiwi banana zebra
grape orange

1. InputFormat

InputFormat 将读取这个文本文件，并将其分割成多个Splits。假设每行作为一个Split。
- Split 1: apple banana grape
- Split 2: orange kiwi banana
- Split 3: apple orange peach
- Split 4: kiwi banana zebra
- Split 5: grape orange

2. Map阶段

在Map阶段，Mapper会处理每个Split，并将每个单词映射为键值对（KV对）。

2.1 Mapper处理

对于每个Split中的每一行，Mapper会按空格分隔单词，并生成中间的KV对。例如：

对于Split 1: apple banana grape
- 生成 KV 对：
  - (apple, 1)
  - (banana, 1)
  - (grape, 1)
对于Split 2: orange kiwi banana
- 生成 KV 对：
  - (orange, 1)
  - (kiwi, 1)
  - (banana, 1)
对于Split 3: apple orange peach
- 生成 KV 对：
  - (apple, 1)
  - (orange, 1)
  - (peach, 1)
对于Split 4: kiwi banana zebra
- 生成 KV 对：
  - (kiwi, 1)
  - (banana, 1)
  - (zebra, 1)
对于Split 5: grape orange
- 生成 KV 对：
  - (grape, 1)
  - (orange, 1)

2.2 生成的中间KV对

经过Mapper处理，所有中间的数据可能如下所示：

(apple, 1)
(banana, 1)
(grape, 1)
(orange, 1)
(kiwi, 1)
(banana, 1)
(apple, 1)
(orange, 1)
(peach, 1)
(kiwi, 1)
(banana, 1)
(zebra, 1)
(grape, 1)
(orange, 1)

3. Shuffle阶段

Shuffle阶段负责将这些中间的KV对根据键进行分组和排序。

3.1 分区逻辑

将相同键的所有中间KV对聚集到一起，并根据字母范围进行分区：

分区1（a-q）:
- apple: (apple, 1), (apple, 1)
- banana: (banana, 1), (banana, 1), (banana, 1)
- grape: (grape, 1), (grape, 1)
- kiwi: (kiwi, 1), (kiwi, 1)
- orange: (orange, 1), (orange, 1)
- peach: (peach, 1)
分区2（r-z）:
- zebra: (zebra, 1)

4. Reduce阶段

Reduce阶段会有两个Reducer，分别处理这两个分区的数据。

4.1 ReduceTask处理

ReduceTask 1（处理分区1 a-q）

输入：

(apple, 1)
(apple, 1)
(banana, 1)
(banana, 1)
(banana, 1)
(grape, 1)
(grape, 1)
(kiwi, 1)
(kiwi, 1)
(orange, 1)
(orange, 1)
(peach, 1)

处理统计数量，输出：

apple: 2
banana: 3
grape: 2
kiwi: 2
orange: 2
peach: 1

ReduceTask 2（处理分区2 r-z）
- 输入：
```
(zebra, 1)
```
- 处理输出：
```
zebra: 1
```

5. 输出

最终结果将被写入到HDFS中的指定文件，格式如下：

apple: 2
banana: 3
grape: 2
kiwi: 2
orange: 2
peach: 1
zebra: 1

5. MapReduce运行三大进程

MapReduce运行时的进程包括：

MrAppMaster：负责整体程序的调度和状态协调。
MapTask：负责Map阶段的数据处理流程。
ReduceTask：负责Reduce阶段的数据处理流程。

Hadoop三大组件之MapReduce（一）

Hadoop之MapReduce 1. MapReduce是什么 MapReduce是一个分布式运算程序的编程框架，旨在帮助用户开发基于Hadoop的数据分析应用。它的核心功能是将用户编写的业务逻辑代码与自带的默认组件整合，形成一个完整的分布式运算程序，并并发运行在一…...

编程日记 2024/10/1 19:21:53

SQL Server 分页查询的学习文章

SQL Server 分页查询的学习文章一、SQL Server 分页查询1. 什么是分页查询？2. SQL Server 的分页查询方法2.1 使用 OFFSET 和 FETCH NEXT语法：示例： 2.2 使用 ROW_NUMBER() 方法语法：示例： 2.3 性能考虑3. 总结一、S…...

编程日记 2024/10/1 19:20:52

告别PDF大文件困扰！4款PDF在线压缩工具助你轻松优化！

嘿，档案员小伙伴们，今天咱们来聊聊那些让咱们在档案堆里游刃有余的神器。这些工具啊，简直就是咱们档案员的得力助手，特别是在PDF压缩这块儿，简直就是神器中的神器！ 1、福昕转换大师网址：http…...

编程日记 2024/10/1 19:19:51

Find My汽车钥匙|苹果Find My技术与钥匙结合，智能防丢，全球定位

随着科技的发展，传统汽车钥匙向智能车钥匙发展，智能车钥匙是一种采用先进技术打造的汽车钥匙，它通过无线控制技术来实现对车门、后备箱和油箱盖等部件的远程控制。智能车钥匙的出现，不仅提升了汽车的安全性能，同时也让…...

编程日记 2024/10/1 19:18:50

mysql学习教程，从入门到精通，SQL UNION 运算符（27）

1、SQL UNION 运算符 UNION 运算符在 SQL 中用于合并两个或多个 SELECT 语句的结果集，并默认去除重复的行。如果你想要包含所有重复行，可以使用 UNION ALL。下面是一个使用 UNION 运算符的示例，假设我们有两个表：employees_2020 …...

编程日记 2024/10/1 19:15:47

PKCE3-PKCE实现(SpringBoot3.0)

在 Spring Boot 3.0 JDK 17 的环境下，实现 PKCE 认证的核心步骤包括： 1）引入依赖：使用 Spring Security OAuth 2.0 客户端进行授权码流程。 2）配置 OAuth 2.0 客户端：在 Spring Boot 中配置 OAuth 2.0 客…...

编程日记 2024/10/1 19:14:46

C++详解vector

目录构造和拷贝构造赋值运算符重载： vector的编辑函数： assign函数： push_back和pop_back函数： insert函数： erase函数： swap函数： clear函数： begin函数： e…...

编程日记 2024/10/1 19:10:44

Redis实战--Redis的数据持久化与搭建Redis主从复制模式和搭建Redis的哨兵模式

Redis作为一个高性能的key-value数据库，广泛应用于缓存、消息队列、排行榜等场景。然而，Redis是基于内存的数据库，这意味着一旦服务器宕机，内存中的数据就会丢失。为了解决这个问题，Redis提供了数据持久化的机制&#…...

编程日记 2024/10/1 19:08:41

World of Warcraft [CLASSIC] Engineering 421-440

工程学421-440 World of Warcraft [CLASSIC] Engineering 335-420_魔兽世界宗师级工程学需要多少点-CSDN博客【萨隆邪铁锭】421-425 学习新技能，其他都不划算，只能做太阳瞄准镜【太阳瞄准镜】426、427、428、429 【随身邮箱】430 这个基本要做的&am…...

编程日记 2024/10/1 19:07:41

VUE3.5版本解读

官网：Announcing Vue 3.5 | The Vue Point 2024年9月1日，宣布 Vue 3.5“天元突破：红莲螺岩”发布！ 反应系统优化在 3.5 中，Vue 的反应系统经历了另一次重大重构，在行为没有变化的情况下实现了更好的性能…...

编程日记 2024/10/1 19:06:39

spark计算引擎-架构和应用

一Spark 定义：Spark 是一个开源的分布式计算系统，它提供了一个快速且通用的集群计算平台。Spark 被设计用来处理大规模数据集，并且支持多种数据处理任务，包括批处理、交互式查询、机器学习、图形处理和流处理。核心架构&#x…...

编程日记 2024/10/1 19:05:38

VUE 开发——AJAX学习（二）

一、Bootstrap弹框功能：不离开当前页面，显示单独内容，供用户操作步骤： 引入bootstrap.css和bootstrap.js准备弹框标签，确认结构通过自定义属性，控制弹框显示和隐藏在<head>部分添加&#xff1a…...

编程日记 2024/10/1 19:04:38

机器学习-KNN分类算法

1.1 KNN分类 KNN分类算法（K-Nearest-Neighbors Classification），又叫K近邻算法。它是概念极其简单，而效果又很优秀的分类算法。1967年由Cover T和Hart P提出。 KNN分类算法的核心思想：如果一个样本在特征空间中的k个最…...

编程日记 2024/10/1 19:00:35

云计算 Cloud Computing

文章目录 1、云计算2、背景3、云计算的特点4、云计算的类型：按提供的服务划分5、云计算的类型：按部署的形式划分 1、云计算定义： 云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可…...

编程日记 2024/10/1 18:59:34

【算法】DFS 系列之穷举/暴搜/深搜/回溯/剪枝（上篇）

【ps】本篇有 9 道 leetcode OJ。目录一、算法简介二、相关例题 1）全排列 .1- 题目解析 .2- 代码编写 2）子集 .1- 题目解析 .2- 代码编写 3）找出所有子集的异或总和再求和 .1- 题目解析 .2- 代码编写 4）全排列 II…...

编程日记 2024/10/1 18:57:32

怎么绕开华为纯净模式安装软件

我是标题众所周不知，华为鸿蒙系统自带纯净模式，而且没法关闭 : ) 我反正没找到关闭键以前或许会有提示，无视风险，“仍要安装”。但我这次遇到的问题是，根本没有这个选项，只有“应用市场”和“取消”&…...

编程日记 2024/10/1 18:53:29

CentOS7 离线部署docker和docker-compose环境

一、Docker 离线安装 1. 下载docker tar.gz包下载地址： Index of linux/static/stable/x86_64/ 本文选择版本：23.0.6 2.创建docker.service文件 vi docker.service文件内容如下： [Unit] DescriptionDocker Application Container Engi…...

编程日记 2024/10/1 18:47:24

Vue 自定义组件实现 v-model 的几种方式

前言在 Vue 中，v-model 是一个常用的指令，用于实现表单元素和组件之间的双向绑定。当我们使用原生的表单元素时，直接使用 v-model 是很方便的，但是对于自定义组件来说，要实现类似的双向绑定功能就需要一些额外的处理…...

编程日记 2024/10/1 18:43:20

Python Pandas数据处理效率提升指南

大家好，在数据分析中Pandas是Python中最常用的库之一，然而当处理大规模数据集时，Pandas的性能可能会受到限制，导致数据处理变得缓慢。为了提升Pandas的处理速度，可以采用多种优化策略，如数据类型优化、向量…...

编程日记 2024/10/1 18:41:18

最大正方形 Python题解

最大正方形题目描述在一个 n m n\times m nm 的只包含 0 0 0 和 1 1 1 的矩阵里找出一个不包含 0 0 0 的最大正方形，输出边长。输入格式输入文件第一行为两个整数 n , m ( 1 ≤ n , m ≤ 100 ) n,m(1\leq n,m\leq 100) n,m(1≤n,m≤100)，接…...

编程日记 2024/10/1 18:40:17

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/12/6 1:56:35

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2026/1/28 15:17:32

el-switch文字内置

el-switch文字内置效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

编程新知 2026/1/26 10:00:16

VTK如何让部分单位不可见

最近遇到一个需求，需要让一个vtkDataSet中的部分单元不可见，查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行，是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示，主要是最后一个参数，透明度…...

编程新知 2025/12/12 4:55:21

智能分布式爬虫的数据处理流水线优化：基于深度强化学习的数据质量控制

在数字化浪潮席卷全球的今天，数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具，在大规模数据获取中发挥着关键作用。然而，传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时，常出现数据质…...

编程新知 2026/2/6 1:04:23

AI书签管理工具开发全记录（十九）：嵌入资源处理

1.前言 📝 在上一篇文章中，我们完成了书签的导入导出功能。本篇文章我们研究如何处理嵌入资源，方便后续将资源打包到一个可执行文件中。 2.embed介绍 🎯 Go 1.16 引入了革命性的 embed 包，彻底改变了静态资源管理的…...

编程新知 2026/1/30 16:24:23

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子： 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

编程新知 2026/1/31 2:13:57

【从零学习JVM|第三篇】类的生命周期(高频面试题)

前言： 在Java编程中，类的生命周期是指类从被加载到内存中开始，到被卸载出内存为止的整个过程。了解类的生命周期对于理解Java程序的运行机制以及性能优化非常重要。本文会深入探寻类的生命周期，让读者对此有深刻印象。目录 …...

编程新知 2026/1/26 8:42:13

宇树科技，改名了！

提到国内具身智能和机器人领域的代表企业，那宇树科技（Unitree）必须名列其榜。最近，宇树科技的一项新变动消息在业界引发了不少关注和讨论，即： 宇树向其合作伙伴发布了一封公司名称变更函称，因…...

编程新知 2026/1/28 9:44:45

Vite中定义@软链接

在webpack中可以直接通过符号表示src路径，但是vite中默认不可以。如何实现： vite中提供了resolve.alias：通过别名在指向一个具体的路径在vite.config.js中 import { join } from pathexport default defineConfig({plugins: [vue()],//…...

编程新知 2026/1/24 13:26:57