当前位置：首页 > news >正文

Hadoop3教程（二十一）：MapReduce中的压缩

news 文章来源：https://blog.csdn.net/wlh2220133699/article/details/133896349 2025/4/30 6:07:37

文章目录

（123）压缩概述
- 在Map阶段启用
- 在Reduce阶段启用
（124）压缩案例实操
- 如何在Map输出端启用压缩
- 如何在Reduce端启用压缩
参考文献

（123）压缩概述

压缩也是MR中比较重要的一环，其可以应用于Map阶段，比如说Map端输出的文件，也可以应用于Reduce阶段，如最终落地的文件。

压缩的好处，是减少磁盘的IO以及存储空间。缺点也很明显，就是极大增加了CPU的开销（频繁计算带来的频繁压缩与解压缩）。

压缩的基本原则：

对运算密集型job，少用压缩；（计算时需要解压缩，计算完需要压缩，受不了）
对IO密集型Job，多用压缩。

MR支持很多种压缩算法，常用的有以下几个：

压缩格式	Hadoop自带？	算法	文件扩展名	是否可切片	换成压缩格式后，原来的程序是否需要修改
DEFLATE	是，直接使用	DEFLATE	.deflate	否	和文本处理一样，不需要修改
Gzip	是，直接使用	DEFLATE	.gz	否	和文本处理一样，不需要修改
bzip2	是，直接使用	bzip2	.bz2	是	和文本处理一样，不需要修改
LZO	否，需要安装	LZO	.lzo	是	需要建索引，还需要指定输入格式
Snappy	是，直接使用	Snappy	.snappy	否	和文本处理一样，不需要修改

支持切片的话，使用上会更方便很多。

压缩性能的比较如下：

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

据说最好的还是Google开发的snappy，其官网介绍它的压缩速度是250MB/s，解压缩速度是500MB/s。

那在生产环境下，该如何选择合适的压缩方式呢？

一般是重点考虑以下几点：

压缩/解压缩速度；
压缩率，即压缩后的文件大小；
压缩后是否还支持切片。

结合这几点，我们再回头看这几种压缩算法。

Gzip压缩：压缩率比较高，但是压缩/解压缩速度一般，且不支持切片；

Bzip2压缩，压缩率非常高，且支持切片，但是压缩/解压缩速度极慢；

Lzo压缩，压缩/解压缩速度非常快，且支持切片，但是压缩率一般；不过Lzo需要额外创建索引之后，才能支持切片。

Snappy压缩，压缩和解压缩速度极快，但不支持切片，压缩率一般。

压缩可以在MapReduce的任意阶段启用，一共三个阶段，即Map的输入端、Map到Reduce部分、Reduce的输出端。

在Map阶段启用

在Map的输入端启用压缩时：

不需要显式指定使用的编解码方式，Hadoop会自动通过文件扩展名，来选择合适的编解码方式。

同时，需要注意，如果数据量小于块大小的话，则可以考虑压缩、解压缩速度比较快的算法，如LZO、snappy；如果数据量大于块大小的话，则可以重点考虑支持切片的算法，如Bzip2和LZO。

在Mapper的输出端启用压缩时：

这里启用压缩，主要是为了减少MapTask和ReduceTask之间的网络IO，所以可以选择重点考虑压缩和解压缩快的LZO、snappy等。

在Reduce阶段启用

在Reducer的输出端启用压缩时：

如果输出的数据是需要永久保存，那么可以采用压缩率比较高的算法，以减少存储的空间；

如果是作为下一个MapReduce的输入，那么可以考虑数据量和是否支持切片。

（124）压缩案例实操

讲怎么写压缩代码的，此处只做了解，所以基本是直接复制教程文档。

为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

要在Hadoop中启用压缩，可以配置如下参数

参数	默认值	阶段	建议
io.compression.codecs （在core-site.xml中配置）	无，这个需要在命令行输入hadoop checknative查看	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress（在mapred-site.xml中配置）	false	mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec（在mapred-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec	mapper输出	企业多使用LZO或Snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress（在mapred-site.xml中配置）	false	reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec（在mapred-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec	reducer输出	使用标准工具或者编解码器，如gzip和bzip2

抄一下案例。

如何在Map输出端启用压缩

假如想Mapper输出端启用压缩，只需要调整驱动类即可，Mapper和Reducer类不需要做特殊处理，跟正常一样就可以。

package com.atguigu.mapreduce.compress;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.BZip2Codec;	
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WordCountDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {Configuration conf = new Configuration();// 开启map端输出压缩conf.setBoolean("mapreduce.map.output.compress", true);// 设置map端输出压缩方式conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class,CompressionCodec.class);Job job = Job.getInstance(conf);job.setJarByClass(WordCountDriver.class);job.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReducer.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));boolean result = job.waitForCompletion(true);System.exit(result ? 0 : 1);}
}

如何在Reduce端启用压缩

假如想Reducer输出端启用压缩：

package com.atguigu.mapreduce.compress;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.BZip2Codec;
import org.apache.hadoop.io.compress.DefaultCodec;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.io.compress.Lz4Codec;
import org.apache.hadoop.io.compress.SnappyCodec;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WordCountDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(WordCountDriver.class);job.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReducer.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));// 设置reduce端输出压缩开启FileOutputFormat.setCompressOutput(job, true);// 设置压缩的方式FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class); 
//	    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class); 
//	    FileOutputFormat.setOutputCompressorClass(job, DefaultCodec.class); boolean result = job.waitForCompletion(true);System.exit(result?0:1);}
}

参考文献

【尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调优，百万播放】

Hadoop3教程（二十一）：MapReduce中的压缩

文章目录 （123）压缩概述在Map阶段启用在Reduce阶段启用 （124）压缩案例实操如何在Map输出端启用压缩如何在Reduce端启用压缩参考文献 （123）压缩概述压缩也是MR中比较重要的一环，其可以应用于M…...

编程日记 2023/10/18 6:55:16

04、RocketMQ -- 核心基础使用

目录核心基础使用1、入门案例生产者消费者 2、消息发送方式方式1：同步消息方式2：异步消息方式3：一次性消息管控台使用过程中可能出现的问题 3、消息消费方式集群模式（默认）广播模式 4、顺序消息分析图：代码…...

编程日记 2023/10/18 6:54:15

mysql中date/datetime类型自动转go的时间类型time.Time

在DSN中需要加入parseTimetrue&&locLocal，或 charsetutf8mb4&locAsia%2FShanghai&parseTimetrue。 package main_testimport ("database/sql""fmt""testing""time"_ "github.com/go-sql-driver/mysq…...

编程日记 2023/10/18 6:53:14

MATLAB算法实战应用案例精讲-【图像处理】机器视觉（基础篇）

目录前言几个高频面试题目如何选择合适的面扫相机如何选择光学滤波器知识储备...

编程日记 2023/10/18 6:52:13

LDAP协议工作原理

LDAP，全称Lightweight Directory Access Protocol，译为轻量目录访问协议，是一个在互联网中广泛使用的协议，主要用于实现网络中的信息查找和检索。在身份认证方面，LDAP起着重要的作用。 LDAP的工作原理主要包括以下几个…...

编程日记 2023/10/18 6:51:13

【Jetpack Compose】BOM是什么？

前言本篇旨在帮助小伙伴们了解和使用Compose中BOM相关的知识，在Compose的开发过程中更加便捷、统一的管理相关依赖信息。 BOM基础知识 Compose推出的BOM为物料清单的意思，BOM全称为Bill Of Materials，Compose推出BOM的意义旨在通过指定的…...

编程日记 2023/10/18 6:49:11

多域名SSL数字证书是什么呢

多域名SSL数字证书是众多SSL数字证书中最灵活的一款SSL证书产品。一般一张SSL证书只能保护一个域名，即使能保护多个域名站点，证书保护的域名类型也有限制(通配符SSL数字证书)。多域名SSL数字证书既能用一张SSL证书保护多个域名网站，又不限制域…...

编程日记 2023/10/18 6:47:08

杭电oj--求奇数的乘积

Problem Description 给你n个整数，求他们中所有奇数的乘积。 Input 输入数据包含多个测试实例，每个测试实例占一行，每行的第一个数为n，表示本组数据一共有n个，接着是n个整数，你可以假设每组数据必定至少存…...

编程日记 2023/10/18 6:46:07

E053-web安全应用-Brute force暴力破解初级

课程分类： web安全应用实验等级: 中级任务场景: 【任务场景】小王接到磐石公司的邀请，对该公司旗下的网站进行安全检测，经过一番检查发现该论坛的后台登录页面上可能存在万能密码漏洞，导致不知道账号密码也能登录后台&am…...

编程日记 2023/10/18 6:45:05

外汇天眼；VT Markets 赞助玛莎拉蒂MSG Racing电动方程式世界锦标赛

随着国际汽联电动方程式世界锦标赛第十赛季的到来，外汇经纪商 VT Markets 和玛莎拉蒂 MSG Racing 宣布了一项为期多年的全球合作。外汇天眼温馨提醒：在做外汇交易之前，一定要审核清楚外汇平台的资质以及官网信息，以防上当受骗&am…...

编程日记 2023/10/18 6:44:05

使用vscode + vite + vue3+ element3 搭建vue3脚手架

技术栈开发工具：VSCode 代码管理：Git 前端框架：Vue3 构建工具：Vite 路由：vue-router 状态管理：vuex AJAX：axios UI库：element-ui 3 数据模拟：mockjs css预处理&#xf…...

编程日记 2023/10/18 6:43:03

竞赛深度学习+opencv+python实现车道线检测 - 自动驾驶

文章目录 0 前言1 课题背景2 实现效果3 卷积神经网络3.1卷积层3.2 池化层3.3 激活函数：3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络 4 YOLOV56 数据集处理7 模型训练8 最后 0 前言 🔥 优质竞赛项目系列，今天要分享的是 &am…...

编程日记 2023/10/18 6:42:02

spring boot 下载resources下的静态文件为流格式

废话不多说，直接上代码一、下载逻辑 public void downAppApk(HttpServletResponse response){ClassPathResource classPathResource new ClassPathResource("app/xxxxxx.apk");if (!classPathResource.exists()) {throw new BusinessException("安…...

编程日记 2023/10/18 6:40:59

HTML渲染过程

整个渲染过程： 将 URL 对应的各种资源，通过浏览器渲染引擎的解析，输出可视化的图像。基本概念： HTML 解释器：解析html语言、将html文本翻译成dom树； CSS 解释器：解析css语言，给…...

编程日记 2023/10/18 6:39:58

[已解决]llegal target for variable annotation

llegal target for variable annotation 问题变量注释的非法目标思路复制时编码错误，自己敲一遍后正常运行 #** 将垂直知识加入prompt，以使其准确回答 **# prompt_templates { # "recommand":"用户说：__INPUT__ …...

编程日记 2023/10/18 6:38:57

nodejs基于vue小型企业银行账目管理系统

这就产生了以台式计算机为核心的管理信息系统在大规模的事务处理和对工作流的管理等方面的应用，在银行帐目管理之中的应用日益增加且会出现信息的重复传递问题，因此该过程需要进行信息化,以利用计算机进行帐目管理。 3.1 银行帐目管理系统功能模块 …...

编程日记 2023/10/18 6:37:56

pointnet和pointnet++点云分割和分类

目录 1. pointnet 1.1 点云数据的特点 1.2 模型功能 1.3 网络结构 1.3.1 分类网络 1.3.2 分割网络 2. pointnet 2.1 模型 2.2 sampling layer组件 2.3 grouping layer 2.4 pointnet 1. pointnet 1.1 点云数据的特点 （1）无序性&#xff1a…...

编程日记 2023/10/18 6:36:55

Docker-compose和Consul

目录 1、docker-compose 简介 1.1 Docker-compose 简介 2、compose 部署 2.1 Docker Compose 环境安装 2.2 YAML 文件格式及编写注意事项 * * * * 2.3 Docker Compose配置常用字段 2.4 Docker Compose 常用命令 2.5 Docker Compose 文件结构 3、Consul 3.1 什么是…...

编程日记 2023/10/18 6:35:53

AFL模糊测试+GCOV覆盖率分析

安全之安全(security)博客目录导读覆盖率分析汇总目录一、代码示例二、afl-cov工具下载三、编译带覆盖率的版本并启动afl-cov 四、AFL编译插桩并运行afl-fuzz 五、结果查看 AFL相关详见AFL安全漏洞挖掘 GCOV相关详见GCOV覆盖率分析现将两者结合，即进…...

编程日记 2023/10/18 6:34:51

leetcode 965.单值二叉树

/*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ //遍历判断函数 bool TreeCompare(struct TreeNode* root,int x) {if(root NULL)return true;if(root->val ! x)return false…...

编程日记 2023/10/18 6:33:50

云计算：掌控未来，一触即发！

🎉🎉欢迎来到我的CSDN主页！🎉🎉 🏅我是尘缘，一个在CSDN分享笔记的博主。📚📚 👉点击这里，就可以查看我的主页啦！👇&#x…...

编程日记 2023/10/18 6:32:49

Mybatis对数据库进行增删查改以及单元测试

这篇写的草率了，是好几天前学到，以后用来自己复习 UserInfo import lombok.Data;Data public class UserInfo {private int id;private String name;private int age;private String email;//LocalDateTime可用于接收时间}Mapper UserMapper pack…...

编程日记 2023/10/18 6:31:48

.bat 批处理 - 查看 MySQL 状态然后启动或关闭

我的 MySQL 服务名为 MySQL80，具体的以实际为准： echo off setlocal:check_status cls sc query MySQL80 | find "RUNNING" > nul 2>&1 if %errorlevel%0 (echo Current status of MySQL service: Running ) else (echo Current st…...

编程日记 2023/10/18 6:29:46

跳转传参有几种方式

在Vue Router中，实现路由跳转并传参有以下几种方式： 1. 路由参数（Route Params）： 可以通过在路由配置中定义动态的占位符（即路由参数），并在跳转时通过URL路径来传递参数。这种方式适…...

编程日记 2023/10/18 6:27:43

DVWA靶场Medium难度部分解析

前言好久没做题，不想吹牛逼了，消停做点题QAQ Vulnerability: Command Injection 这题不咋难，老Ping题了输个分号ls试试，没回显即被Ban了，试试别的，例如|或者&& 出了，看看源代码把…...

编程日记 2023/10/18 6:26:42

SVG图形

什么是SVG SVG（Scalable Vector Graphics）是一种用于描述二维矢量图形的XML 格式文件。它是一种用于在网络上显示图形的开放标准，旨在与Web上的其他技术（如HTML和CSS）集成，并支持在不失真的情况下缩放和调…...

编程日记 2023/10/18 6:25:41

冒泡排序和简答选择排序

冒泡排序一种典型的交换排序类似水冒泡，大元素经不断的交换由水底慢慢的浮出从头到尾，循环比较两相邻的元素大的元素移到后面，小的放前面-每次循环，大的元素会排到最后代码如下： #include<stdio.h> …...

编程日记 2023/10/18 6:24:41

leetcode3. 无重复字符的最长子串 [滑动窗口]

题目给定一个字符串 s ，请你找出其中不含有重复字符的最长子串的长度。示例 1: 输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc"，所以其长度为 3。示例 2: 输入: s "bbbbb" 输出: 1 解释:…...

编程日记 2023/10/18 6:23:40

软件工程与计算总结（十六）详细设计的设计模式

一.设计模式基础某种意义上来说，设计模式就是设计经验的总结~ 设计模式不是简单的经验总结，更不是无中生有，它是经过实践反复检验、能解决关键技术难题、有广泛应用前景和能够显著提高软件质量的有效的经验总结。每个模式都不是独立的&a…...

编程日记 2023/10/18 6:22:38

List集合拆分为多个List

list 拆分目录概述需求： 设计思路实现思路分析1.list 拆分是2.用stream的parallel实现list的分批处理3.使用stream的parallel实现list的分批处理参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full bus…...

编程日记 2023/10/18 6:20:36