当前位置：首页 > news >正文

Hadoop3教程（十六）：MapReduce中的OutputFormat

news 文章来源：https://blog.csdn.net/wlh2220133699/article/details/133871153 2025/2/12 10:54:46

文章目录

（105）OutputFormat概述
（106）自定义OutputFormat案例需求分析
（107/108）自定义OutputFormat案例实现
- 自定义Mapper
- 自定义Reducer
- 自定义OutputFormat
- Driver
参考文献

（105）OutputFormat概述

我们之前讲过了Map阶段的InputFormat，对应的，Reduce阶段也有自己的OutputFormat。

Reducer在执行完reduce()之后，接下来就会通过OutputFormat来将处理结果输出至外界环境。

Hadoop里默认使用的是TextOutputFormat，即将reduce()的处理结果，按行输出到文件。

而OutputFormat是MapReduce输出的基类，所有实现了MR输出的程序，都必须实现OutputFormat接口。

OutputFormat有几种官方自带的实现类（具体功能就不展开了）：

NullOutputFormat
FileOutputFormat
- MapFileOutputFormat
- SequenceFileOutputFormat
- TextOutputFormat（默认）
FilterOutputFormat
- LazyOutputFormat
DBOutputFormat

OutputFormat类的核心方法：public abstract RecordWriter<K,V> getRecordWriter(...)

最终结果怎么写，以什么形式写，写到哪儿，等等这些，都是在getRecordWriter()里控制的。

当然，这些自带的实现类在日常的生产中肯定是不足以满足各种情况的，所以多数情况下，我们会实现自定义的OutputFormat类。

自定义OutputFormat实现类需要：

继承FileOutputFormat；
改写RecordWriter，具体改写输出数据的方法write()

（106）自定义OutputFormat案例需求分析

需求：输入是一个日志文件，即log.txt，里面是罗列了一些访问过的网站，现在需要把其中包含atguigu的网站输出到a.log，不包含atguigu的网站输出到b.log。

输入数据形如：

http://www.baidu.com
http://www.atguibu.com
...

我们需要自定义一个OutputFormat类，即创建一个类LogRecordWriter继承RecordWriter，然后创建两个文件输出流，一个是atguiguOut，一个是otherOut。如果输入数据包含atguigu，就输出到atguiguOut，反之则输出到otherOut流。

最后还需要在驱动类里注册一下：

job.setOutputFormatClass(LogOutputFormat.class);

附注：

其实这个需求从直观上来讲，是可以通过分区来实现类似功能的，但是很遗憾，分区的话无法控制输出文件的名字，所以没法严格符合需求。

（107/108）自定义OutputFormat案例实现

这里直接复制了教程里的代码，来介绍一下，如何针对上一小节提出的需求，自定义OutputFormat。

自定义Mapper

首先需要创建一个自定义的Mapper类，如class LogMapper extends Mapper<LongWritable, Text, Text, NullWritable>

package com.atguigu.mapreduce.outputformat;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class LogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//不做任何处理,直接写出一行log数据context.write(value,NullWritable.get());}
}

自定义Reducer

然后新建一个自定义Reducer类：

package com.atguigu.mapreduce.outputformat;import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class LogReducer extends Reducer<Text, NullWritable,Text, NullWritable> {@Overrideprotected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {// 防止有相同的数据,迭代写出for (NullWritable value : values) {context.write(key,NullWritable.get());}}
}

自定义OutputFormat

这里是最重要的一步，就是自定义一个OutputFormat类，继承RecordWriter：

创建两个文件的输出流：atguiguOut、otherOut；
如果输入数据中含有atguigu，则输出至atguiguOut，反之则输出到otherOut;

首先自定义OutputFormat类，重写RecordWriter方法，将我们自定义的LogRecordWriter放进去。

package com.atguigu.mapreduce.outputformat;import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {@Overridepublic RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {//创建一个自定义的RecordWriter返回LogRecordWriter logRecordWriter = new LogRecordWriter(job);return logRecordWriter;}
}

然后编写LogRecordWriter类，：

package com.atguigu.mapreduce.outputformat;import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;import java.io.IOException;public class LogRecordWriter extends RecordWriter<Text, NullWritable> {private FSDataOutputStream atguiguOut;private FSDataOutputStream otherOut;public LogRecordWriter(TaskAttemptContext job) {try {//获取文件系统对象FileSystem fs = FileSystem.get(job.getConfiguration());//用文件系统对象创建两个输出流对应不同的目录atguiguOut = fs.create(new Path("d:/hadoop/atguigu.log"));otherOut = fs.create(new Path("d:/hadoop/other.log"));} catch (IOException e) {e.printStackTrace();}}@Overridepublic void write(Text key, NullWritable value) throws IOException, InterruptedException {String log = key.toString();//根据一行的log数据是否包含atguigu,判断两条输出流输出的内容if (log.contains("atguigu")) {atguiguOut.writeBytes(log + "\n");} else {otherOut.writeBytes(log + "\n");}}@Overridepublic void close(TaskAttemptContext context) throws IOException, InterruptedException {//关流IOUtils.closeStream(atguiguOut);IOUtils.closeStream(otherOut);}
}

Driver

最后编写LogDriver驱动类，把我们前面自定义的的类统统在驱动类里注册上：

package com.atguigu.mapreduce.outputformat;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class LogDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(LogDriver.class);job.setMapperClass(LogMapper.class);job.setReducerClass(LogReducer.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(NullWritable.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);//设置自定义的outputformatjob.setOutputFormatClass(LogOutputFormat.class);FileInputFormat.setInputPaths(job, new Path("D:\\input"));//虽然我们自定义了outputformat，但是因为我们的outputformat继承自fileoutputformat//而fileoutputformat要输出一个_SUCCESS文件，所以在这还得指定一个输出目录FileOutputFormat.setOutputPath(job, new Path("D:\\logoutput"));boolean b = job.waitForCompletion(true);System.exit(b ? 0 : 1);}
}

至此需求完成。

参考文献

【尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调优，百万播放】

Hadoop3教程（十六）：MapReduce中的OutputFormat

文章目录 （105）OutputFormat概述（106）自定义OutputFormat案例需求分析（107/108）自定义OutputFormat案例实现自定义Mapper自定义Reducer自定义OutputFormatDriver 参考文献 （105）Outp…...

编程日记 2023/10/19 10:34:27

通过表查询 sm37 排程运行情况 JOB 数据保存在表TBTCP 和 TBTCO中

sm36 设置排程 sm37 查看排程 se11 查表 Values for TBTCO-STATUS: A - Cancelled F - Completed P - Scheduled R - Active S - Released JOB 数据保存在表TBTCP 和 TBTCO中参考 https://blog.51cto.com/u_15680210/5757746?articleABtest0 https://answers.sap.co…...

编程日记 2023/10/19 10:33:25

append_ocr_trainf

read_image (Image, D:/图像文件/字符识别/1-1.bmp) access_channel (Image, Image1, 1) * draw_rectangle2 (3600, Row, Column, Phi, Length1, Length2) gen_rectangle2 (Rectangle, 96.0436, 715.9526, 0.0173917050943654, 110.186941, 18.041084) reduce_domain (Image1, …...

编程日记 2023/10/19 10:32:24

小程序原生代码转uniapp

写了一份小程序原生代码，想转为uniapp 再转为其他平台发布 1、在命令行里，运行【 npm install miniprogram-to-uniapp -g 】进行安装，因为这个包是工具，要求全局都能使用&#x…...

编程日记 2023/10/19 10:31:23

云原生微服务第五章 Spring Cloud Netflix Eureka集成负载均衡组件Ribbon

系列文章目录第一章 Java线程池技术应用第二章 CountDownLatch和Semaphone的应用第三章 Spring Cloud 简介第四章 Spring Cloud Netflix 之 Eureka 第五章 Spring Cloud Netflix 之 Ribbon 文章目录系列文章目录[TOC](文章目录) 前言1、负载均衡1.1、服务端负载均衡1.2、…...

编程日记 2023/10/19 10:30:22

七大排序 (9000字详解直接插入排序，希尔排序，选择排序，堆排序，冒泡排序，快速排序，归并排序）

一：排序的概念及引入 1.1 排序的概念 1.1 排序的概念排序：所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。稳定性：假定在待排序的记录序列中，存在…...

编程日记 2023/10/19 10:29:20

一、nginx配置

一、nginx配置配置简介 1）nginx相关目录工作目录：/etc/nginx 执行文件：/usr/sbin/nginx 日志目录：/var/log/nginx 启动文件：/etc/init.d/nginx web目录：/var/www/html/，首页文件是index.ng…...

编程日记 2023/10/19 10:28:18

win32汇编-LEA指令是将一个内存地址加载到一个寄存器中

LEA (Load Effective Address) 指令是用来将一个内存地址加载到一个寄存器中的指令。其语法为： lea destination, source 其中，destination 是目标寄存器，source 是一个内存地址（即一个存储器操作数）。举个例子…...

编程日记 2023/10/19 10:26:16

leetcode做题笔记189. 轮转数组

给定一个整数数组 nums，将数组中的元素向右轮转 k 个位置，其中 k 是非负数。示例 1: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4] 解释: 向右轮转 1 步: [7,1,2,3,4,5,6] 向右轮转 2 步: [6,7,1,2,3,4,5] 向右轮转 3 步: [5,6,7,1,2,3,4…...

编程日记 2023/10/19 10:25:15

数据库第七章作业

本篇用于日常记录和分享第7章作业.xls 题量: 25 满分: 100 一. 单选题（共25题） 1. (单选题)二级封锁协议不能保证消除（ ）这一不一致现象。 A. 读取脏数据B. 死锁C. 不可重复读D. 丢失修改我的答案: C :不可重复读; 2. (单…...

编程日记 2023/10/19 10:24:14

使用服务器训练模型的注意事项

一、图像展示 1.1、用VS Code远程连接服务器时，当我们想用matplotlib库来进行图像展示的时候，需要设置DISPLAY变量。 # 用终端工具（XShell）SSH远程服务器，在终端上输入下列语句 # 如果使用了anaconda的虚拟环境&…...

编程日记 2023/10/19 10:23:12

Linux性能优化--性能追踪3：系统级迟缓（prelink）

12.0 概述本章包含的例子说明了如何用Linux性能工具寻找并修复影响整个系统而不是某个应用程序的性能问题。阅读本章后，你将能够： 追踪是哪一个进程导致了系统速度的降低。用strace调查一个不受CPU限制的进程的性能表现。用strace调查一个应用程序是如…...

编程日记 2023/10/19 10:22:11

SpringBoot2.x简单集成Flowable

环境和版本 window10 java1.8 mysql8 flowable6 springboot 2.7.6 配置使用IDEA创建一个SpringBoot项目 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.…...

编程日记 2023/10/19 10:20:08

微信小程序一键获取位置

需求有个表单需要一键获取对应位置并显示出来效果如下： 点击一键获取获取对应位置显示在 picker 默认选中前端代码如下: <view class"box_7 {{ showChange1? change-style: }}"><view class"box_11"><view class"…...

编程日记 2023/10/19 10:19:07

Linux性能优化--使用性能工具发现问题

9.0 概述本章主要介绍综合运用之前提出的性能工具来缩小性能问题产生原因的范围。阅读本章后，你将能够： 启动行为异常的系统，使用Linux性能工具追踪行为异常的内核函数或应用程序。启动行为异常的应用程序，使用Linux性能工具追…...

编程日记 2023/10/19 10:18:05

【Proteus仿真】【STM32单片机】路灯控制系统

文章目录一、功能简介二、软件设计三、实验现象联系作者一、功能简介本项目使用Proteus8仿真STM32单片机控制器，使用LCD1602显示模块、人体红外传感器、光线检测模块、路灯继电器控制等。主要功能： 系统运行后，LCD1602显示时间、工作模…...

编程日记 2023/10/19 10:17:04

Flutter笔记：发布一个Flutter头像模块 easy_avatar

Flutter笔记发布一个头像Flutter模块 easy_avatar 作者：李俊才 （jcLee95）：https://blog.csdn.net/qq_28550263 邮箱 ：291148484163.com 本文地址：https://blog.csdn.net/qq_28550263/article/details/1339…...

编程日记 2023/10/19 10:15:03

标准化助推开源发展丨九州未来参编开源领域4项团体标准正式发布

在数字中国及数字经济时代的大背景下，开源逐步成为各行业数字化发展的关键模式。在开源产业迅速发展的同时，如何评估、规范开源治理成为行业极度关注的问题。近日，中电标2023年第27号团体标准公告正式发布，九州未来作为起草单位…...

编程日记 2023/10/19 10:14:02

ChatGPT对于留学生论文写作有哪些帮助？

2022年11月，OpenAI公司的智能聊天产品ChatGPT横空出世，并两个月之内吸引了超过1亿用户，打破了TikTok（抖音国际版）9个月用户破亿的纪录。划时代的浪潮 ChatGPT的火爆立即引起了全球关注并成为热门话题，它…...

编程日记 2023/10/19 10:13:00

【yolov8目标检测】使用yolov8训练自己的数据集

目录准备数据集 python安装yolov8 配置yaml 从0开始训练从预训练模型开始训练准备数据集首先得准备好数据集，你的数据集至少包含images和labels，严格来说你的images应该包含训练集train、验证集val和测试集test，不过为了简单说…...

编程日记 2023/10/19 10:10:57

【vue+nestjs】gitee第三方授权登录【超详细】

项目场景： 前端使用vue3ts 后端使用nestjs 1.配置gitee第三方设置 1.找到账号设置 2.找到数据管理下的第三方应用 3.点击创建，进入配置 2.代码演示特别注意: 如果你跟我一样是前后端分离的模式开发的，应用回调地址填写的应该是你的前…...

编程日记 2023/10/19 10:09:56

node 第八天使用前后端不分离的方式实现cookie登录验证

实现cookie登录, 第一次登录成功后, cookie由服务端设置并保存在客户端, 后续访问在cookie过期前 (过期时间由后端设置) 将不需要登录cookie出现的背景是 HTTP是无连接的，无状态的, 半双工(http2.0以下), 所以需要一个媒介存在http中, 服务端可以操作, 客户端也可以…...

编程日记 2023/10/19 10:08:54

Ubuntu系统如何进行网络连接-连接电脑局域网-物联网开发-Ubuntu系统维护

一、前言在Ubuntu系统的维护中，我们常常需要对VMware中的Ubuntu虚拟机配置网络连接，以连接服务器下载或安装软件包以及进行网络通信等。基于上述问题，本文将着重分享Ubuntu配置网络链接的若干方法。二、网络连接模式打开VM，右…...

编程日记 2023/10/19 10:07:52

STL库——Vector常见使用接口

一、介绍 1. vector是表示可变大小数组的序列容器，就像数组一样，vector也采用的连续存储空间来存储元素。也就是意味着可以采用下标对vector的元素进行访问，和数组一样高效。但是又不像数组，它的大小是可以动态改变的&#xff0…...

编程日记 2023/10/19 10:06:51

将文件（File 对象）分割成多个块

如果要将文件（File 对象）分割成多个块，可以使用 JavaScript 中的 Blob 和 File 构造函数以及数组的 slice 方法。以下是一个示例： // 创建一个 File 对象，例如从文件输入框获取的文件 const file document.getElemen…...

编程日记 2023/10/19 10:04:49

若要对多态类进行深拷贝，应使用虚函数的clone,而不是公开的拷贝构造赋值

拷贝一个多态类可能会导致切片问题，为了解决这个问题，应覆盖一个虚clone函数，让他根据实际类型进行复制并返回一个到新对象的所有权的指针（std::unique_ptr）,在派生类，通过使用所谓的协变返回类型来返回派生…...

编程日记 2023/10/19 10:02:47

同构字符串（C++解法）

题目给定两个字符串 s 和 t ，判断它们是否是同构的。如果 s 中的字符可以按某种映射关系替换得到 t ，那么这两个字符串是同构的。每个出现的字符都应当映射到另一个字符，同时不改变字符的顺序。不同字符不能映射到同一个字符上&#xf…...

编程日记 2023/10/19 10:01:45

『Linux升级路』基本指令

🔥博客主页：小王又困了 📚系列专栏：Linux 🌟人之为学，不日近则日退 ❤️感谢大家点赞👍收藏⭐评论✍️ 目录一、认识操作系统 📒1.1什么是操作系统 📒1.2操作系统…...

编程日记 2023/10/19 10:00:44

python argparse解析参数

用法比较简单，直接看代码 import argparseargparser argparse.ArgumentParser(descriptionthis is a hello argparser program) argparser.add_argument(--arg1, -a, typestr, helparg1 has value) argparser.add_argument(--arg2, typestr, default"value2&q…...

编程日记 2023/10/19 9:59:42

【数据挖掘】数据挖掘、关联分析、分类预测、决策树、聚类、类神经网络与罗吉斯回归

目录一、简介二、关于数据挖掘的经典故事和案例2.1 正在影响中国管理的10大技术2.2 从数字中能够得到什么？2.3 一个网络流传的笑话(转述)2.4 啤酒与尿布2.5 网上书店关联销售的案例2.6 数据挖掘在企业中的应用2.7 交叉销售三、数据挖掘入门3.1 什么激发了数据挖掘…...

编程日记 2023/10/19 9:58:41

品牌网站方案/注册百度账号免费

# codingutf-8import sysimport xlrdimport random#打开菜单excelworkbook xlrd.open_workbook(D:\\menu.xls)#计数器为0counters 0#默认继续YesOrNo ywhile 1:#判断计数器，最多能选择3次if counters<3:#判断继续还是退出，默认是继续的if YesOrNoy…...

编程日记 2025/2/12 10:52:26

为网站添加注册功能/整站多关键词优化

前言 Redis作为基于键值对的NoSQL数据库，具有高性能、丰富的数据结构、持久化、高可用、分布式等特性，同时Redis本身非常稳定，已经得到业界的广泛认可和使用。因此，作为一个Java开发者，掌握Redis早就成了一项必备技能…...

编程日记 2025/2/12 8:33:34

做网站图片路径做缓存吗/今日热点新闻视频

上海最近搞活动调休，要搞深度学习，win上还是不方便，准备弄个ubuntu。于是有以下回忆文字。在机器上装了个双系统。花了两天。再也不想玩了。准备用ubuntu来做深度学习的。本文写于2019年11月4日。机器是神舟Z7-KP7D2，i7-7700HQGTX…...

编程日记 2025/2/12 7:55:02

建一个动物网站怎么做/百度网盟推广官方网站

Minimum Vagrant Version 可以在Vagrantfile中指定一组vagrant版本需求，以强制人们使用带有Vagrantfile文件的vagrant特定版本。这可以帮助解决使用带有Vagrantfile的旧版本或新版本时可能出现的兼容性问题。 vagrant版本要求应该在Vagrantfile文件的顶部使用 Vagra…...

编程日记 2025/2/12 6:39:09

达州网站建设qinsanw/郑州网络营销公司哪个好

这个 Python 库 Text2Human 仅通过提供有关性别和衣服的文本描述来生成一个人的图像。原始数据集 DeepFashion-MultiModal，具有丰富多模态注释的大规模高质量人体数据集。它具有以下属性：总共有44,096张高分辨率人体照片，12,701张全身图像。我们为每张完整的人体图片手…...

编程日记 2025/2/12 4:54:50

南昌哪里网站建设专业/如何在百度发布短视频

Photon是一个由s0md3v开源的情报搜集爬虫，其主要功能有：1.爬取链接(内链、外链)。2.爬取带参数的链接，如(pythondict.com/test?id2)。3.文件(pdf, png, xml)。4.密钥(在前端代码中不小心被释放出来的)。5.js文件和Endpoint(spring中比较重要…...

编程日记 2025/2/11 23:05:26