当前位置：首页 > news >正文

Hadoop3教程（八）：MapReduce中的序列化概述

news 2025/7/1 9:08:37

文章目录

（79）MR序列化概述
（80）自定义序列化步骤
（81）序列化案例需求分析
（82）序列化案例代码
参考文献

（79）MR序列化概述

什么是序列化，什么是反序列化？

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。

反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。

为什么要序列化呢？

因为存活在内存里的对象，关机断电之后就没有了，要持久化保存的话，必须先序列化；
本地内存里的对象，只能供本地进程使用，如果想发送到另外一台计算机上使用，也必须先序列化。

那两台节点之间的内存数据传输，具体可以怎么做呢。

需要先序列化节点A中需要传输的内存数据，然后将序列化的结果传输到节点B中，然后节点B进行一个加载（反序列化）到内存，就实现了不同节点间，内存到内存的数据传输。

为什么不用java自带的序列化，而是Hadoop自己有一套序列化呢？

原因很简单，java的序列化中，待传输数据块后面都是跟了一大堆校验信息的。这对Hadoop来讲，有些过于繁重了，不便于在网络中高效传输，Hadoop里可能并不需要这么多的校验位，它只需要做简单校验就可以了。

基于这种需求，Hadoop就自己搞了一套序列化。主要是为了轻量

Hadoop的这套序列化，有什么好处呢？

结构紧凑；
存储空间占用相对少；
传输快；
互操作性；多种语言都可以反序列化（竟然有这个使用需求么还。。。）

（80）自定义序列化步骤

一般来讲，Hadoop里提供的那几种序列化类型，往往不能满足企业的要求，这时候企业就需要自定义一个bean对象，用于在Hadoop内部传递。

如果要自定义一个序列化对象的话，需要实现Writable接口，并重写以下方法：

void write(DataOutput out);                # 序列化
void readFields(DataInput in);        # 反序列化

注意，序列化时元素的顺序要跟反序列化的顺序完全一致。（这个很好理解，相当于位置参数嘛）

如：

@Override
public void write(DataOutput out) throws IOException {out.writeLong(upFlow);out.writeLong(downFlow);out.writeLong(sumFlow);
}@Override
public void readFields(DataInput in) throws IOException {upFlow = in.readLong();downFlow = in.readLong();sumFlow = in.readLong();
}

同时，如果想把结果显示在文件里（或者打印出来），都需要重写toString()，否则显示出来的是个内存地址值。

最后，如果想把自定义的bean放在key中传输，还需要实现Comparable接口，因为Map阶段需要对数据做shuffle，这意味着数据的key必须是能排序的。

@Override
public int compareTo(FlowBean o) {// 倒序排列，从大到小return this.sumFlow > o.getSumFlow() ? -1 : 1;
}

（81）序列化案例需求分析

需求案例：统计每个手机号耗费的总上行流量、总下行流量和总流量。

输入数据是每个手机号对每个网站的流量消耗情况。

输出数据是每个手机号的总上行流量、总下行流量和总流量。

需求设计的重点在于，明确map阶段输入输出的KV类型，reduce阶段输入输出的KV类型。

其中，map阶段输入的KV类型不需要操心，K相当于就是行号，V就是每行的内容；

而map阶段输出的KV跟reduce阶段输入的KV是一样的。

结合本次需求，考虑到要聚合的是手机号，所以map输出的K就应该设置成手机号，而value就只能设置成一个bean对象，包含了该条数据中的上行流量字段、下行流量字段，以及加和得到的总流量。

以以上形式，输入到reduce。

这里需要注意，bean对象如果想在不同节点（从map的节点传到reduce的节点）传输，就必须实现序列化接口。

（82）序列化案例代码

直接原样贴一下教程的代码，这块仅做了解，我也并没有实操，主要是考虑结合代码可能更好理解原理，所以还是在这里直接复制了。

1）编写自定义Bean对象：

package com.atguigu.mapreduce.writable;import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;//1 继承Writable接口
public class FlowBean implements Writable {private long upFlow; //上行流量private long downFlow; //下行流量private long sumFlow; //总流量//2 提供无参构造public FlowBean() {}//3 提供三个参数的getter和setter方法public long getUpFlow() {return upFlow;}public void setUpFlow(long upFlow) {this.upFlow = upFlow;}public long getDownFlow() {return downFlow;}public void setDownFlow(long downFlow) {this.downFlow = downFlow;}public long getSumFlow() {return sumFlow;}public void setSumFlow(long sumFlow) {this.sumFlow = sumFlow;}public void setSumFlow() {this.sumFlow = this.upFlow + this.downFlow;}//4 实现序列化和反序列化方法,注意顺序一定要保持一致@Overridepublic void write(DataOutput dataOutput) throws IOException {dataOutput.writeLong(upFlow);dataOutput.writeLong(downFlow);dataOutput.writeLong(sumFlow);}@Overridepublic void readFields(DataInput dataInput) throws IOException {this.upFlow = dataInput.readLong();this.downFlow = dataInput.readLong();this.sumFlow = dataInput.readLong();}//5 重写ToString@Overridepublic String toString() {return upFlow + "\t" + downFlow + "\t" + sumFlow;}
}

2）编写Mapper类：

package com.atguigu.mapreduce.writable;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean> {private Text outK = new Text();private FlowBean outV = new FlowBean();@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//1 获取一行数据,转成字符串String line = value.toString();//2 切割数据String[] split = line.split("\t");//3 抓取我们需要的数据:手机号,上行流量,下行流量String phone = split[1];String up = split[split.length - 3];String down = split[split.length - 2];//4 封装outK outVoutK.set(phone);outV.setUpFlow(Long.parseLong(up));outV.setDownFlow(Long.parseLong(down));outV.setSumFlow();//5 写出outK outVcontext.write(outK, outV);}
}

3）编写Reducer类：

package com.atguigu.mapreduce.writable;import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean> {private FlowBean outV = new FlowBean();@Overrideprotected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {long totalUp = 0;long totalDown = 0;//1 遍历values,将其中的上行流量,下行流量分别累加for (FlowBean flowBean : values) {totalUp += flowBean.getUpFlow();totalDown += flowBean.getDownFlow();}//2 封装outKVoutV.setUpFlow(totalUp);outV.setDownFlow(totalDown);outV.setSumFlow();//3 写出outK outVcontext.write(key,outV);}
}

4）编写Driver驱动类：

package com.atguigu.mapreduce.writable;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;public class FlowDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {//1 获取job对象Configuration conf = new Configuration();Job job = Job.getInstance(conf);//2 关联本Driver类job.setJarByClass(FlowDriver.class);//3 关联Mapper和Reducerjob.setMapperClass(FlowMapper.class);job.setReducerClass(FlowReducer.class);//4 设置Map端输出KV类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(FlowBean.class);//5 设置程序最终输出的KV类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(FlowBean.class);//6 设置程序的输入输出路径FileInputFormat.setInputPaths(job, new Path("D:\\inputflow"));FileOutputFormat.setOutputPath(job, new Path("D:\\flowoutput"));//7 提交Jobboolean b = job.waitForCompletion(true);System.exit(b ? 0 : 1);}
}

参考文献

【尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调优，百万播放】

Hadoop3教程（八）：MapReduce中的序列化概述

文章目录 （79）MR序列化概述（80）自定义序列化步骤（81）序列化案例需求分析（82）序列化案例代码参考文献 （79）MR序列化概述什么是序列化，什么是反序…...

编程日记 2023/10/16 5:23:48

Flash-Attention

这是一篇硬核的优化Transformer的工作。众所周知，Transformer模型的计算量和储存复杂度是 O ( N 2 ) O(N^2) O(N2) 。尽管先前有了大量的优化工作，比如LongFormer、Sparse Transformer、Reformer等等，一定程度上减轻了Transformer的资源消耗…...

编程日记 2023/10/16 5:22:47

发布npm包质量分测试

查询质量分接口 https://registry.npmjs.org/-/v1/search?textcanvas-plus v0.0.1 quality 0.2987 新建文件夹 canvas-plus 执行命令 npm init 生成package.json {"name": "3r/canvas-plus","version": "0.0.1","descript…...

编程日记 2023/10/16 5:21:46

基于适应度相关优化的BP神经网络（分类应用） - 附代码

基于适应度相关优化的BP神经网络（分类应用） - 附代码文章目录基于适应度相关优化的BP神经网络（分类应用） - 附代码1.鸢尾花iris数据介绍2.数据集整理3.适应度相关优化BP神经网络3.1 BP神经网络参数设置3.2 适应度相关算法应用 4…...

编程日记 2023/10/16 5:20:45

复杂网络 | 利用复杂网络预测城市空间流量

文章目录效果一览文章概述导入必要的包读取时间序列数据,并使用日期做索引将时间序列进行可视化展示取一年的数据进行分析将数据分布进行可视化展示画移动平均图n 代表滑动窗口的大小向前差分法去趋势化线性回归方法去趋势化拟合模型的线性趋势将拟合得到趋势进行可视化detren…...

编程日记 2023/10/16 5:19:44

【1】c++11新特性（稳定性和兼容性）—＞原始字面量

在C11中添加了定义原始字符串的字面量，定义方式为：R “xxx(原始字符串)xxx”其中（）两边的字符串可以省略。原始字面量R可以直接表示字符串的实际含义，而不需要额外对字符串做转义或连接等操作。编程过程中&#xff0c…...

编程日记 2023/10/16 5:18:43

学习pytorch13 神经网络-搭建小实战Sequential的使用

神经网络-搭建小实战&Sequential的使用官网模型结构根据模型结构和数据的输入shape，计算用在模型中的超参数coderunning log网络结构可视化 B站小土堆pytorch视频学习官网 https://pytorch.org/docs/stable/generated/torch.nn.Sequential.html#torch.nn.Se…...

编程日记 2023/10/16 5:17:42

TCP发送接口(如send(),write()等)的返回值与成功发送到接收端的数据量无直接关系

1. TCP发送接口：send() TCP发送数据的接口有send，write，sendmsg。在系统内核中这些函数有一个统一的入口，即sock_sendmsg()。由于TCP是可靠传输，所以对TCP的发送接口很容易产生误解，比如sn send(...); 错误…...

编程日记 2023/10/16 5:16:41

【Python、Qt】使用QItemDelegate实现单元格的富文本显示+复选框功能

主打一个折磨坑多陪伴。代码为Python，C的就自己逐条语句慢慢改吧。 Python代码： import sys from types import MethodType from PyQt5.QtCore import Qt,QPoint,QSize,QRect,QEvent from PyQt5.QtGui import QStandardItemModel, QStandardItem,QTe…...

编程日记 2023/10/16 5:15:40

【JVM】JVM类加载机制

JVM类加载机制加载双亲委派模型验证准备解析初始化 JVM的类加载机制,就是把类,从硬盘加载到内存中 Java程序,最开始是一个Java文件,编译成.class文件,运行Java程序,JVM就会读取.class文件,把文件的内容,放到内存中,并且构造成.class类对象加载这里的加载是整个类加载的一…...

编程日记 2023/10/16 5:14:38

【面试经典150 | 区间】汇总区间

文章目录 Tag题目来源题目解读解题思路方法一：一次遍历复杂度分析其他语言python3C 写在最后 Tag 【一次遍历】【数组】【字符串】题目来源 228. 汇总区间题目解读给定一个无重复的升序数组 nums，需要将这个数组按照以下规则进行汇总&#xff1…...

编程日记 2023/10/16 5:13:37

主流接口测试框架对比

公司计划系统的开展接口自动化测试，需要我这边调研一下主流的接口测试框架给后端测试（主要测试接口）的同事介绍一下每个框架的特定和使用方式。后端同事根据他们接口的特点提出一下需求，看哪个框架更适合我们。需求 1、接口编写…...

编程日记 2023/10/16 5:12:37

LeetCode 150.逆波兰表达式求值

题目链接力扣（LeetCode）官网 - 全球极客挚爱的技术成长平台题目解析首先我们需要知道什么是逆波兰表达式，像我们平常遇到的都是中缀表达式，然而逆波兰确实后缀表达式，因此这个题目隐含的意思就是将一个后缀表达式转…...

编程日记 2023/10/16 5:11:36

华为---企业WLAN组网基本配置示例---AC+AP组网

ACAP组网所需的物理条件 1、无线AP---收发无线信号； 2、无线控制器(AC)---用来控制管理多个AP； 3、PoE交换机---能给AP实现网络连接和供电的交换机； 4、授权：默认AC管理的AP数量有限，买授权才能管控更多AP。 WLAN创建…...

编程日记 2023/10/16 5:10:35

循环结构的运用

乘法口诀起源于中国，是古代人进行乘法、除法、开方等运算的基本法则，距今已经有两千多年的历史了，如何运用现代计算机技术快速写出九九乘法表呢？ 循环结构可以用来重复执行一条或者多条语句，利用循环结构可以减少源程序…...

编程日记 2023/10/16 5:09:34

深度强化学习第 1 章机器学习基础

1.1线性模型线性模型（linear models）是一类最简单的有监督机器学习模型，常被用于简单的机器学习任务。可以将线性模型视为单层的神经网络。本节讨论线性回归、逻辑斯蒂回归（logistic regression）、 softmax 分类器等…...

编程日记 2023/10/16 5:08:33

第一章 STM32 CubeMX （CAN通信发送）基础篇

第一章 STM32 CubeMX （CAN通信）基础篇文章目录第一章 STM32 CubeMX （CAN通信）基础篇STM32中文手册简介简介stm32f1系列CAN的特点CAN连接网络示意图硬件电路CAN波特率计数一、 STM32 CubeMX设置设置波特率工程目录结构添加CAN驱…...

编程日记 2023/10/16 5:07:32

原子性操作

原子性操作是指一个操作在执行过程中不会被中断，要么全部执行成功，要么全部不执行，不会出现部分执行的情况。原子性操作对于多线程并发编程至关重要，因为它可以确保多个线程之间不会出现竞态条件或数据不一致性。在计算机科学中…...

编程日记 2023/10/16 5:06:31

论文阅读：Segment Any Point Cloud Sequences by Distilling Vision Foundation Models

目录概要 Motivation 整体架构流程技术细节小结论文地址：[2306.09347] Segment Any Point Cloud Sequences by Distilling Vision Foundation Models (arxiv.org) 代码地址：GitHub - youquanl/Segment-Any-Point-Cloud: [NeurIPS23 Spotlight]…...

编程日记 2023/10/16 5:05:29

Netty 入门 — 亘古不变的Hello World

这篇文章我们正式开始学习 Netty，在入门之前我们还是需要了解什么是 Netty。什么是 Netty 为什么很多人都推崇 Java boy 去研究 Netty？Netty 这么高大上，它到底是何方神圣？ 用官方的话说：Netty 是一款异步的、基于事…...

编程日记 2023/10/16 5:04:27

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2025/7/1 8:39:56

React Native 开发环境搭建（全平台详解）

React Native 开发环境搭建（全平台详解） 在开始使用 React Native 开发移动应用之前，正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南，涵盖 macOS 和 Windows 平台的配置步骤，如何在 Android 和 iOS…...

编程新知 2025/6/20 17:53:24

无法与IP建立连接，未能下载VSCode服务器

如题，在远程连接服务器的时候突然遇到了这个提示。查阅了一圈，发现是VSCode版本自动更新惹的祸！！！ 在VSCode的帮助->关于这里发现前几天VSCode自动更新了，我的版本号变成了1.100.3 才导致了远程连接出…...

编程新知 2025/6/22 2:57:08

基于服务器使用 apt 安装、配置 Nginx

🧾 一、查看可安装的 Nginx 版本首先，你可以运行以下命令查看可用版本： apt-cache madison nginx-core输出示例： nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

编程新知 2025/6/25 2:27:15

条件运算符

C中的三目运算符（也称条件运算符，英文：ternary operator）是一种简洁的条件选择语句，语法如下： 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true，则整个表达式的结果为“表达式1”…...

编程新知 2025/6/23 2:49:19

macOS多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用

文章目录问题现象问题原因解决办法问题现象 macOS启动台（Launchpad）多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。问题原因很明显，都是Google家的办公全家桶。这些应用并不是通过独立安装的…...

编程新知 2025/6/24 5:52:48

从零开始打造 OpenSTLinux 6.6 Yocto 系统（基于STM32CubeMX）（九）

设备树移植和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下源码修改及编译修改arch/arm/boot/dts/st/Makefile，新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...

编程新知 2025/6/24 6:22:14

听写流程自动化实践，轻量级教育辅助

随着智能教育工具的发展，越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式，也迎来了更高效的解决方案。这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建，…...

编程新知 2025/6/24 6:55:24

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

文章目录基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例（带样式）应用场景在数据科学和可视化领域，三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...

编程新知 2025/6/16 21:06:50

CRMEB 中 PHP 短信扩展开发：涵盖一号通、阿里云、腾讯云、创蓝

目前已有一号通短信、阿里云短信、腾讯云短信扩展扩展入口文件文件目录 crmeb\services\sms\Sms.php 默认驱动类型为：一号通 namespace crmeb\services\sms;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use crmeb\services\sms\…...

编程新知 2025/6/15 16:44:42