当前位置：首页 > news >正文

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

news 2026/2/8 7:38:50

一需求

这个案例的需求很简单

现在这里有一个文本wordcount.txt，内容如下

现要求你使用 mapreduce 框架统计每个单词的出现个数

这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架

二准备工作

（1）创建一个 maven 工程，maven 工程框架可以选择quickstart

（2）在properties中添加 hadoop.version，导入依赖，pom.xml内容如下

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>org.example</groupId><artifactId>maven_hadoop</artifactId><version>1.0-SNAPSHOT</version><dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency></dependencies><properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target><hadoop.version>3.1.3</hadoop.version></properties></project>

（3）准备数据，创建两个文件夹 in，out（一个是输入文件，一个是输出文件），输入文件放在 in 文件夹中

三编写 WordCountMapper 类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//                                              <0,       hello java, hello, 1       >
//                                              <0,       hello java, java, 1       >
//  alt + ins
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {Text text = new Text();IntWritable intWritable =  new IntWritable();@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {System.out.println("WordCountMap stage Key:"+key+"  Value:"+value);String[] words = value.toString().split(" ");  // "hello java"--->[hello,java]for (String word :words) {text.set(word);intWritable.set(1);context.write(text,intWritable);   //<hello,1>,<java,1>}}
}

四编写 WordCountReducer 类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class WordCountReduce extends Reducer<Text, IntWritable, Text, LongWritable> {@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {System.out.println("Reduce stage Key:" + key + "  Values:" + values.toString());int count = 0;for (IntWritable intWritable :values) {count+=intWritable.get();}LongWritable longWritable = new LongWritable(count);System.out.println("ReduceResult key:"+key+" resultValue:"+longWritable.get());context.write(key,longWritable);}
}

五编写WordCountDriver 类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class WordCountDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(WordCountDriver.class);// 设置job的map阶段 工作任务job.setMapperClass(WordCountMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);// 设置job的reduce阶段 工作任务job.setReducerClass(WordCountReduce.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);// 指定job map阶段的输入文件的路径FileInputFormat.setInputPaths(job, new Path("D:\\bigdataworkspace\\kb23\\hadoopstu\\in\\wordcount.txt"));// 指定job reduce阶段的输出文件路径Path path = new Path("D:\\bigdataworkspace\\kb23\\hadoopstu\\out1");FileSystem fileSystem = FileSystem.get(path.toUri(), conf);if (fileSystem.exists(path))fileSystem.delete(path,true);FileOutputFormat.setOutputPath(job, path);// 启动jobjob.waitForCompletion(true);}
}

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

一需求这个案例的需求很简单现在这里有一个文本wordcount.txt，内容如下现要求你使用 mapreduce 框架统计每个单词的出现个数这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架二准备工作 （1）创建一个 maven 工…...

编程日记 2023/8/30 17:30:15

vue2项目中el-input单独使用max和maxlength不生效问题

vue2项目中el-input单独使用max和maxlength不生效问题今天在vue2的项目中使用element中的<el-input>组件，因为没有使用form所以max和maxlength属性没有生效，下面是解决办法 <el-input placeholder"请输入" v-model"holeDat…...

编程日记 2023/8/30 17:29:14

源码角度看待线程池的执行流程

文章目录前言一、线程池的相关接口和实现类1.Executor接口2.ExecutorService接口3.AbstractExecutorService接口4.ThreadPoolExecutor 实现类二、ThreadPoolExecutor源码解析1.Worker内部类2.execute()方法3.addWorker()方法总结前言线程池内部维护了若干个线程&#xff…...

编程日记 2023/8/30 17:28:13

我们的第一个 Qt 窗口程序

Qt 入门实战教程（目录） Windows Qt 5.12.10下载与安装为何使用Qt Creator开发QT 本文介绍用Qt自带的集成开发工具Qt Creator创建Qt默认的窗口程序。本文不需要你另外安装Visual Studio 2022这样的集成开发环境，也不需要你再在Visual St…...

编程日记 2023/8/30 17:27:11

Linux 8 下的容器引擎Podman概述

一、前言最近在进行OS国产化交流中，了解到部分业务迁移到BClinux 8.2或Anolis 8.2时，原有docker业务需要迁移到新的容器平台：Podman，来完成容器的新的管理。Podman（全称 Pod Manager）是一款用于在 Linux 系…...

编程日记 2023/8/30 17:26:10

PDFWriter是一个易于使用的C创建、修改PDF文档的库 1.创建一个PDF文件 #include #include “PDFWriter.h” int main() { std::cout << “Hello World!\n”; PDFWriter pdfWriter; int retpdfWriter.StartPDF(“D:\mytestwriterpdf.pdf”, ePDFVersion13); if (ret eS…...

编程日记 2023/8/30 17:25:08

数据倾斜优化

数据倾斜发生的原因有哪些？ map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特性、建表时考虑不周等原因造成的reduce 上的数据量差异过大。数据倾斜解决方式有哪些 group by 导致的数据倾斜 1.开启Map-Side聚合后&#x…...

编程日记 2023/8/30 17:24:06

Acwing796.子矩阵的和

理解二维前缀和： #include <iostream>using namespace std;const int N 1010;int a[N][N], s[N][N];int main() {int n, m, q;cin >> n >> m >> q;for (int i 1; i < n; i)for (int j 1; j < m; j) {scanf("%d", &a…...

编程日记 2023/8/30 17:23:05

【ELK日志收集系统】

目录一、概述 1.作用 2.为什么使用？ 二、组件 1.elasticsearch 1.1 作用 1.2 特点 2.logstash 2.1 作用 2.2 工作过程 2.3 INPUT 2.4 FILETER 2.5 OUTPUTS 3.kibana 三、架构类型 1.ELK 2.ELKK 3.ELFK 4.ELFKK 四、案例 - 构建ELK集群 1.环境…...

编程日记 2023/8/30 17:22:04

Java项目中实现信号的连续接收

系列文章目录文章目录系列文章目录前言一、监听信号二、信号处理逻辑三、停止信号监听总结前言在Java项目中，信号的连续接收是一项重要的任务，特别是在处理异步事件或者需要对外部事件做出响应时。本篇博客将介绍如何在Java项目中实现信号的连续接收…...

编程日记 2023/8/30 17:21:02

vue权限管理——按钮控制

1.按钮根据后端返回数据决定展示与否根据right中的数据对应增删改查按钮 const menuList [{id: 1, path:/uploadSpec,authName: "上传spec", icon: User, children:[], rights:[view,add,edit,delete]},{id: 2, path:/showSpec, authName: "Spec预览",…...

编程日记 2023/8/30 17:20:01

jvm的内存区域

JVM 内存分为线程私有区和线程共享区，其中方法区和堆是线程共享区，虚拟机栈、本地方法栈和程序计数器是线程隔离的数据区。 1）程序计数器程序计数器（Program Counter Register）也被称为 PC 寄存器，是一块…...

编程日记 2023/8/30 17:18:59

即时通讯开发中的性能优化技巧

即时通讯开发在如今的数字化社会中扮演着重要角色，然而，随着用户对即时通讯应用的需求不断增长，开发者们面临着使其应用保持高性能和可靠性的挑战。本文将探讨即时通讯开发中关键的性能优化技巧，帮助开发者们提升应用的用户体验和…...

编程日记 2023/8/30 17:17:58

flinkcdc同步完全量数据就不同步增量数据了

flinkcdc同步完全量数据就不同步增量数据了使用flinkcdc同步mysql数据，使用的是全量采集模型 startupOptions(StartupOptions.earliest()) 全量阶段同步完成之后，发现并不开始同步增量数据，原因有以下两个： 原因1： …...

编程日记 2023/8/30 17:16:57

VBA：Application.GetOpenFilename打开指定文件夹里的excel类型文件（xls、xlsx）

GetOpenFilename相当于Excel打开窗口，通过该窗口选择要打开的文件，并可以返回选择的文件完整路径和文件名。 Application.GetOpenFilename(“文件类型筛选规则(就是说明)”,“优先显示第几个类型的文件”,“标题”,“是否允许选择多个文件名”) 打开类型…...

编程日记 2023/8/30 17:15:56

利用R作圆环条形图

从理念上看，本质就是增加了圆环弧度的条形图。如上图2。需要以下步骤： 数据处理，将EXCEL中的数据做成3*N的表格导入系统，代码如下：library(tidyverse) library(stringr)library(ggplot2)library(viridis) stuper &…...

编程日记 2023/8/30 17:14:55

JavaScript（笔记）

目录 Hello World JavaScript 的变量 JavaScript 动态类型隐式类型转换 JavaScript 数组 JavaScript 函数 JavaScript 中变量的作用域对象 DOM 选中页面元素事件获取 / 修改元素内容获取 / 修改元素属性获取 / 修改表单元素属性获取 / 修改样式属性新…...

编程日记 2023/8/30 17:13:53

软件工程(九) UML顺序-活动-状态-通信图

顺序图和后面的一些图，要求没有用例图和类图那么高，但仍然是比较重要的，我们也需要按程度去了解。 1、顺序图顺序图(sequence diagram, 顺序图)，顺序图是一种交互图（interaction diagram），它强调的是对象之间消息发送的顺序，同时显示对象之间的交互。下面以一个简…...

编程日记 2023/8/30 17:12:52

JVM 是怎么设计来保证new对象的线程安全

1、采用 CAS 分配重试的方式来保证更新操作的原子性 2、每个线程在 Java 堆中预先分配一小块内存，也就是本地线程分配缓冲（Thread Local AllocationBuffer，TLAB），要分配内存的线程，先在本地缓冲区中分配&a…...

编程日记 2023/8/30 17:11:50

【JavaEE基础学习打卡00】该专栏知识大纲在这里！

目录前言一、为什么有该教程二、教程内容介绍1.JavaEE2.JDBC3.JSP编程4.JavaBean5.Servlet6.综合案例7.拦截器、过滤器三、学习前置要求四、课程服务总结前言 📜 本系列教程适用于 Java Web 初学者、爱好者，小白白。我们的天赋并不高，可贵…...

编程日记 2023/8/30 17:10:49

UE5 学习系列（二）用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇，在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下： 【Note】：如果你已经完成安装等操作，可以只执行第一篇博客中 2. 新建一个空白游戏项目章节操作，重…...

编程新知 2026/2/8 4:37:41

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端，它允许HTTP与Elasticsearch 集群通信，而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点轻量级&#xff…...

编程新知 2025/11/30 15:33:36

边缘计算医疗风险自查APP开发方案

核心目标：在便携设备（智能手表/家用检测仪）部署轻量化疾病预测模型，实现低延迟、隐私安全的实时健康风险评估。一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

编程新知 2026/1/28 10:02:54

聊聊 Pulsar：Producer 源码解析

一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台，以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中，Producer（生产者） 是连接客户端应用与消息队列的第一步。生产者…...

编程新知 2026/2/5 21:34:41

UDP(Echoserver)

网络命令 Ping 命令检测网络是否连通使用方法: ping -c 次数网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法：netstat [选项] 功能：查看网络状态常用选项： n 拒绝显示别名&#…...

编程新知 2026/1/24 7:56:15

pam_env.so模块配置解析

在PAM（Pluggable Authentication Modules）配置中， /etc/pam.d/su 文件相关配置含义如下： 配置解析 auth required pam_env.so1. 字段分解字段值说明模块类型auth认证类模块，负责验证用户身份&am…...

编程新知 2025/10/5 8:09:39

CentOS下的分布式内存计算Spark环境部署

一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架，相比 MapReduce 具有以下核心优势： 内存计算：数据可常驻内存，迭代计算性能提升 10-100 倍（文档段落：3-79…...

编程新知 2026/2/5 1:30:05

华为OD机试-食堂供餐-二分法

import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...

编程新知 2026/1/28 11:11:03

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

编程新知 2025/10/3 17:30:30

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码五、报告文件爬取5.1 提…...

编程新知 2026/2/4 12:52:32

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

一需求

二准备工作

三编写 WordCountMapper 类

四编写 WordCountReducer 类

五编写WordCountDriver 类

相关文章：

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

vue2项目中el-input单独使用max和maxlength不生效问题

源码角度看待线程池的执行流程

我们的第一个 Qt 窗口程序

Linux 8 下的容器引擎Podman概述

C++编辑修改PDF

数据倾斜优化

Acwing796.子矩阵的和

【ELK日志收集系统】

Java项目中实现信号的连续接收

vue权限管理——按钮控制

jvm的内存区域

即时通讯开发中的性能优化技巧

flinkcdc同步完全量数据就不同步增量数据了

VBA：Application.GetOpenFilename打开指定文件夹里的excel类型文件（xls、xlsx）

利用R作圆环条形图

JavaScript（笔记）

软件工程(九) UML顺序-活动-状态-通信图

JVM 是怎么设计来保证new对象的线程安全

【JavaEE基础学习打卡00】该专栏知识大纲在这里！

UE5 学习系列（二）用户操作界面及介绍

RestClient

边缘计算医疗风险自查APP开发方案

聊聊 Pulsar：Producer 源码解析

UDP(Echoserver)

pam_env.so模块配置解析

CentOS下的分布式内存计算Spark环境部署

华为OD机试-食堂供餐-二分法

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

selenium学习实战【Python爬虫】

一 需求

二 准备工作

三 编写 WordCountMapper 类

四 编写 WordCountReducer 类

五 编写WordCountDriver 类

相关文章：

一需求

二准备工作

三编写 WordCountMapper 类

四编写 WordCountReducer 类

五编写WordCountDriver 类