当前位置：首页 > news >正文

大数据课程K2——Spark的RDD弹性分布式数据集

news 2026/2/8 12:54:10

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 了解Spark的RDD结构；

⚪ 掌握Spark的RDD操作方法；

⚪ 掌握Spark的RDD常用变换方法、常用执行方法；

一、Spark最核心的数据结构——RDD弹性分布式数据集

1. 概述

初学Spark时，把RDD看做是一个集合类型（类似于Array或List），用于存储数据和操作数据，但RDD和普通集合的区别：

1. RDD有分区机制，可以分布式，并行的处理同一个RDD数据集，从而极大提高处理效率。分区数量由程序员自己定。

2. RDD由容错机制。即数据丢失后，可以进行恢复。

2. 创建RDD方法

RDD就是带有分区的集合类型

弹性分布式数据集（RDD），特点是可以并行操作，并且是容错的。有两种方法可以创建RDD：

1. 执行Transform操作（变换操作）。即将一个普通集合（Array或List）转变为一个RDD。

例如：val r1 = sc.parallelize(a1,2)

或 val r1 = sc.makeRDD(List(1,2,3,4),2)

查看分区数量：r1.partitions.size。

查看分区数据：r1.glom.collect。

查看RDD整体数据：r1.collect。

2. 读取外部存储系统的数据集，如HDFS，HBase，或任何与Hadoop有关的数据源。

读取Linux本地文件：val r4 = sc.textFile("file:home/1.txt",2)

读取hds文件：val r5 = sc.textFile("hdfs://hadoop01:9000/1.txt",2)

3. RDD入门示例

案例一：

并行化集合可以通过调用 Spark Context 的并行化方法被创建，这个方法是在驱动程序（Scala-Seq）中的现有集合上的。集合里的参数会被拷贝到可以并行执行的分布式数据集里。如下例子就是如何创建一个包含了 1 到 5 的并行化集合。例如：

val data = Array(1, 2, 3, 4, 5)

val r1 = sc.parallelize(data)

val r2 = sc.parallelize(data,2)

你可以这样理解RDD：它是spark提供的一个特殊集合类。诸如普通的集合类型，如传统的Array：（1,2,3,4,5）是一个整体，但转换成RDD后，我们可以对数据进行Partition（分区）处理，这样做的目的就是为了分布式。

你可以让这个RDD有两个分区，那么有可能是这个形式：RDD(1,2) (3,4)。

这样设计的目的在于：可以进行分布式运算。

注：创建RDD的方式有多种，比如案例一中是基于一个基本的集合类型（Array）转换而来，像parallelize这样的方法还有很多，之后就会学到。此外，我们也可以在读取数据集时就创建RDD。

案例二：

Spark能够从任何基于Hadoop的存储资源，创建分布式数据集。包括本地文件系统、HDFS、Cassandra、HBase、Amazon S3等等。Spark支持TEXT文件格式、SequenceFiles文件格式和其他Hadoop的输入文件格式。

RDD的TEXT文件能够通过SparkContext的方法创建。这个方法获取一个文件的URI路径（可以是本地路径、或者是hdfs://, s3n://等），然后当作一条数据集读取其中内容。例如：

val distFile = sc.textFile("data.txt")

4. 查看RDD

scala>rdd.collect

收集rdd中的数据组成Array返回，此方法将会把分布式存储的rdd中的数据集中到一台机器中组建Array。

在生产环境下一定要慎用这个方法，容易内存溢出。

查看RDD的分区数量：

scala>rdd.partitions.size

查看RDD每个分区的元素：

scala>rdd.glom.collect

此方法会将每个分区的元素以Array形式返回。

5. 分区概念

在下图所示，一个RDD有item1~item25个数据，共5个分区，分别在3台机器上进行处理。

此外，spark并没有原生的提供rdd的分区查看工具我们可以自己来写一个。

案例三：

import org.apache.spark.rdd.RDD

import scala.reflect.ClassTag

object su {

def debug[T: ClassTag](rdd: RDD[T]) = {

rdd.mapPartitionsWithIndex((i: Int, iter: Iterator[T]) => {

val m = scala.collection.mutable.Map[Int, List[T]]()

var list = List[T]()

while (iter.hasNext) {

list = list :+ iter.next

}

m(i) = list

m.iterator

}).collect().foreach((x: Tuple2[Int, List[T]]) => {

val i = x._1

println(s"partition:[$i]")

x._2.foreach { println }

})

}

二、RDD的操作

1. 概述

对于RDD的操作，总的来分有三种：

1. Transformation变化操作，特点是都是懒操作，调用后并不是马上执行，比如典型的textFile方法。此外，每当调用一次变化操作（懒操作），就会产生一个新的RDD。

2. Action执行操作，特点是会触发执行。

3. Controller控制操作。

2. 常用的变化方法（懒方法）：

Transformation

Meaning

map(func)

Return a new distributed dataset formed by passing each element of the source through a function func.

返回一个新的分布式数据集，通过函数应用于RDD每一个元素，该方法的参数是一个函数。

案例：

map 将函数应用到rdd的每个元素中

val rdd = sc.makeRDD(List(1,3,5,7,9)

大数据课程K2——Spark的RDD弹性分布式数据集

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ▲ 本章节目的 ⚪ 了解Spark的RDD结构； ⚪ 掌握Spark的RDD操作方法； ⚪ 掌握Spark的RDD常用变换方法、常用执行方法；一、Spark最核心的数据结构——RDD弹性分布式数据集 1. 概述初学Spark时，把RDD看…...

编程日记 2023/8/20 4:10:58

Seaborn数据可视化（一）

目录 1.seaborn简介 2.Seaborn绘图风格设置 21.参数说明： 2.2 示例： 1.seaborn简介 Seaborn是一个用于数据可视化的Python库，它是建立在Matplotlib之上的高级绘图库。Seaborn的目标是使绘图任务变得简单，同时产生美观且具有信…...

编程日记 2023/8/20 4:09:55

Sentinel规则持久化

首先 Sentinel 控制台通过 API 将规则推送至客户端并更新到内存中，接着注册的写数据源会将新的规则保存到本地的文件中。示例代码： 1.编写处理类 //规则持久化 public class FilePersistence implements InitFunc {Value("spring.application:n…...

编程日记 2023/8/20 4:08:54

Transformer 相关模型的参数量计算

如何计算Transformer 相关模型的参数量呢？ 先回忆一下Transformer模型论文《Attention is all your need》中的两个图。设Transformer模型的层数为N，每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 …...

编程日记 2023/8/20 4:07:53

企业信息化过程----应用管理平台的构建过程

1.信息化的概念信息化是一个过程，与工业化、现代化一样，是一个动态变化的过程。信息化已现代通信，网络、数据库技术为基础，将所有研究对象各个要素汇总至数据库，供特定人群生活、工作、学习、辅助决策等，…...

编程日记 2023/8/20 4:06:50

揭秘程序员的鄙视链，你在哪一层？看完我想哭

虽然不同的编程语言都有其优缺点，而且程序员之间的技能和能力更加重要，但是有些程序员可能会因为使用不同的编程语言而产生鄙视链。以下是一些可能存在的不同编程语言程序员之间的鄙视链： 低级语言程序员鄙视高级语言程序员：使用…...

编程日记 2023/8/20 4:05:47

搭建步骤 1、拉取镜像 docker pull mysql:latest2、查看镜像 docker images3、创建启动容器 Master docker run -p 3306:3306 --name mysql-master -e MYSQL_ROOT_PASSWORD123456 -d mysql:latestSlave docker run -p 3307:3306 --name mysql-slave -e MYSQL_ROOT_PASSWO…...

编程日记 2023/8/20 4:04:45

【机器学习】处理不平衡的数据集

一、介绍假设您在一家给定的公司工作，并要求您创建一个模型，该模型根据您可以使用的各种测量来预测产品是否有缺陷。您决定使用自己喜欢的分类器，根据数据对其进行训练，瞧：您将获得96.2%的准确率！ …...

编程日记 2023/8/20 4:03:42

JVM前世今生之JVM内存模型

JVM内存模型所指的是JVM运行时区域，该区域分为两大块线程共享区域堆内存、方法区，即所有线程都能访问该区域，随着虚拟机和GC创建和销毁线程独占区域虚拟机栈、本地方法栈、程序计数器，即每个线程都有自己独立的区域&#…...

编程日记 2023/8/20 4:02:40

redis事务对比Lua脚本区别是什么

redis官方对于lua脚本的解释：Redis使用同一个Lua解释器来执行所有命令，同时，Redis保证以一种原子性的方式来执行脚本：当lua脚本在执行的时候，不会有其他脚本和命令同时执行，这种语义类似于 MULTI/EXEC。从别…...

编程日记 2023/8/20 4:01:38

Java“牵手”根据店铺ID获取1688店铺所有商品数据方法，1688API实现批量店铺商品数据抓取示例

1688商城是一个网上购物平台，售卖各类商品，包括服装、鞋类、家居用品、美妆产品、电子产品等。要获取1688整店所有商品详情页面评价内容数据，您可以通过开放平台的接口或者直接访问1688商城的网页来获取店铺所有商品详情信息的数据。以下是两…...

编程日记 2023/8/20 4:00:36

linux-shell脚本收集

创建同步脚本xsync mkdir -p /home/hadoop/bin && cd /home/hadoop/bin vim xsync#!/bin/bash#1. 判断参数个数 if [ $# -lt 1 ] thenecho Not Arguementexit; fi#2. 遍历集群所有机器 for host in node1 node2 node3 doecho $host #3. 遍历所有目录，挨…...

编程日记 2023/8/20 3:59:31

使用 MBean 和日志查看 Tomcat 线程池核心属性数据

文章目录 CustomTomcatThreadPoolMBeanCustomTomcatThreadPool CustomTomcatThreadPoolMBean com.qww.config;public interface CustomTomcatThreadPoolMBean {String getStatus(); }CustomTomcatThreadPool package com.qww.config;import com.alibaba.fastjson.JSON; impor…...

编程日记 2023/8/20 3:58:29

▲ 本章节目的

一、Spark最核心的数据结构——RDD弹性分布式数据集

1. 概述

2. 创建RDD方法

3. RDD入门示例

4. 查看RDD

5. 分区概念

二、RDD的操作

1. 概述

2. 常用的变化方法（懒方法）：

相关文章：