当前位置：首页 > news >正文

【大数据学习 | Spark-SQL】定义UDF和DUAF，UDTF函数

news 2025/7/3 7:45:04

1. UDF函数（用户自定义函数）

一般指的是用户自己定义的单行函数。一进一出，函数接受的是一行中的一个或者多个字段值，返回一个值。比如MySQL中的，日期相关的dateDiff函数，字符串相关的substring函数。

先准备数据：

1.1 导入必要的包

首先，确保导入必要的Spark包：

import org.apache.spark.sql.SparkSession

1.2 创建SparkSession

创建一个SparkSession对象，这是与Spark交互的入口。

1.3 定义UDF并注册到SparkSQL

定义一个Scala函数，并将其注册为UDF。示例

1.4 使用UDF在SQL查询中：

调用udf的register方法，第一个参数是udf函数的函数名，第二个参数是要注册为UDF的函数。

session.udf.register("all_income",(sal:Int,bonus:Int)=>{sal*12 + bonus})

1.5 代码：

尽量使用SparkSQL的sql形式的写法，api写法太麻烦了。

object TestUDF{def main(args: Array[String]): Unit = {val session = SparkSession.builder().master("local[*]").appName("testUDF").getOrCreate()import session.implicits._val df = session.sparkContext.textFile("D:\\software\\Spark\\SparkProgram1\\atguigu-classes\\data\\a.txt").map(t => {val strs = t.split(" ")(strs(0), strs(1), strs(2).toInt, strs(3).toInt)}).toDF("id", "name", "salary", "bonus")session.udf.register("all_income",(sal:Int,bonus:Int)=>{sal*12 + bonus})import org.apache.spark.sql.functions
//    df.withColumn("all",functions.callUDF("all_income",$"salary",$"bonus"))
//      .select("id","name","all")
//      .show()df.createTempView("salary")session.sql("""|select id,name,all_income(salary,bonus) all from salary|""".stripMargin).show()}
}

输出：

2. UDAF（用户自定义的聚合函数）

指的是用户自定义的聚合函数，多进一出，比如MySQL中的，count函数，avg函数。

以学生信息为主进行统计，所有人员的年龄的总和

或者每个性别的年龄的平均值

计算所有人的年龄之和：

package com.atguigu.bigdata.testimport org.apache.spark.sql.{Encoder, Encoders, SparkSession, functions}
import org.apache.spark.sql.expressions.Aggregator/*** ClassName : TestUDAF* Package : com.atguigu.bigdata.test* Description** @Author HeXua* @Create 2024/11/29 19:09*         Version 1.0*/
object TestUDAF {def main(args: Array[String]): Unit = {val session = SparkSession.builder().appName("test udaf").master("local[*]").getOrCreate()import session.implicits._val df = session.sparkContext.textFile("D:\\software\\Spark\\SparkProgram1\\atguigu-classes\\data\\a.txt").map(t => {val strs = t.split(" ")(strs(0), strs(1), strs(2).toInt, strs(3))}).toDF("id", "name", "age", "gender")import org.apache.spark.sql.functions._// 注册udaf函数session.udf.register("mysum",udaf(new MySum))df.createTempView("student")session.sql("""|select mysum(age) from student|""".stripMargin).show()}
}
// udaf的类继承Aggregator抽象类
class MySum extends Aggregator[Int,Int,Int]{//初始化def zero: Int = 0//聚合逻辑def reduce(b: Int, a: Int): Int = a+b//整体聚合def merge(b1: Int, b2: Int): Int = b1+b2//最终返回值def finish(reduction: Int): Int = reduction//累加值的类型def bufferEncoder: Encoder[Int] = Encoders.scalaInt//输出结果的类型def outputEncoder: Encoder[Int] = Encoders.scalaInt
}

定义用户自定义聚合函数时，继承Aggregator类需要指定三个泛型参数。这三个泛型参数分别代表不同的概念。

泛型参数解释：

1. 输入类型（IN）

这是聚合函数的输入类型，即每次调用reduce方法时传入的单个元素的类型。例如你要计算一组整数的平均值，输入类型就是int。

2. 缓冲区类型（BUFFER）

这是聚合函数的中间状态类型，也称为缓冲区类型。

例如你要计算一组整数的平均值，缓冲区可能包含两个字段：总和和计数，因为iBUF可能是一个元组。

3. 输出类型(OUT)

这是聚合函数的最终输出类型，即finish方法返回的类型。例如你要计算平均值，最终输出类型是Double。

方法解释：

zero：初始化缓冲区的值，对于平均值计算，初始化和计数都是0。

reduce：更新缓冲区，每次传入一个新的输入值时，更新总和和计数。

finish：计算最终结果，根据缓冲区中的总和和计数，计算平均值。

bufferEncoder：定义缓冲区类型的编码器，用于序列化和反序列化缓冲区。

outputEncoder：定义最终输出类型的编码器，用于序列化和反序列化输出结果。

计算每个性别的年龄的平均值：

case class AggragateVo(var cnt:Int,var sum:Int)
object MyAvg extends Aggregator[Int,AggragateVo,Double]{override def zero: AggragateVo = AggragateVo(0,0)override def reduce(b: AggragateVo, a: Int): AggragateVo = {b.cnt += 1b.sum += ab}override def merge(b1: AggragateVo, b2: AggragateVo): AggragateVo = {b1.cnt += b2.cntb1.sum += b2.sumb1}override def finish(reduction: AggragateVo): Double = {reduction.sum.toDouble /reduction.cnt}override def bufferEncoder: Encoder[AggragateVo] = Encoders.productoverride def outputEncoder: Encoder[Double] = Encoders.scalaDouble
}

3. UDTF（用户自定义炸裂函数）

拆分函数，进入的是一行内容出现的结果是多行内容。

spark中并不直接支持UDTF函数。但可以使用hive中的炸裂函数达到效果。

import org.apache.spark.sql.SparkSessionobject TestUDTF {def main(args: Array[String]): Unit = {val session = SparkSession.builder().appName("test udtf").master("local[*]").getOrCreate()import session.implicits._val df = session.sparkContext.textFile("file:///headless/workspace/spark/data/m.txt").map(t => {val strs = t.split(",")(strs(0), strs(1), strs(2))}).toDF("id", "name", "actors")//explode map arraydf.createTempView("movies")session.sql("""|select id,name,actor  from movies lateral view explode(split(actors,'\\|')) t as actor|""".stripMargin).createTempView("movies1")session.sql("""|select count(1),actor from movies1 group by actor|""".stripMargin).show()}
}

【大数据学习 | Spark-SQL】定义UDF和DUAF，UDTF函数

1. UDF函数（用户自定义函数） 一般指的是用户自己定义的单行函数。一进一出，函数接受的是一行中的一个或者多个字段值，返回一个值。比如MySQL中的，日期相关的dateDiff函数，字符串相关的substring函数。先…...

编程日记 2024/12/1 16:52:27

#Java-JDK7、8的时间相关类，包装类

1. JDK7-Date类我们先来看时间的相关知识点世界标准时间: 格林尼治时间/格林威治时间(Greenwich Mean Time)简称GMT。目前世界标准时间(UTC)已经替换为:原子钟中国标准时间: 世界标准时间8小时时间单位换算: 1秒1000毫秒 1毫秒1000微秒 1微秒1000纳秒 Date类 Date类…...

编程日记 2024/12/1 16:51:26

tc 命令

Windows Network Shaper目前只能在win10及以下版本使用，在github上有源码。 iperf 是一个网络性能测试工具，可以测试网络带宽和延迟。 webrtc M96版本的GCC sudo tc qdisc del dev eth1 root //关闭限速 sudo tc qdisc add dev eth1 root handle 1: ht…...

编程日记 2024/12/1 16:50:23

基于Java Springboot 协同过滤算法音乐推荐系统

一、作品包含源码数据库设计文档万字全套环境和工具资源部署教程二、项目技术前端技术：Html、Css、Js、Vue2、Element-ui 数据库：MySQL 后端技术：Java、Spring Boot、MyBatis 三、运行环境开发工具：IDEA 数据库&#x…...

编程日记 2024/12/1 16:49:21

MyBatis框架-关联映射

MyBatis关联映射-一对一 1.1 实体关系实体–数据实体，实体关系指的就是数据与数据之间的关系例如：订单和商品，用户和角色实体关系分为以下四种： **一对一关联：**用户表和用户详情表数据表关系： 主键关…...

编程日记 2024/12/1 16:48:19

Web开发技术栈选择指南

互联网时代的蓬勃发展，让越来越多人投身软件开发领域。面对前端和后端的选择，很多初学者往往陷入迷茫。让我们一起深入了解这两个领域的特点，帮助你做出最适合自己的选择。在互联网发展的早期，前端开发主要负责页面布局和简单的…...

编程日记 2024/12/1 16:47:19

工具类的魔力：深入理解 Java 的 String、Math 和 Arrays

Java 提供了许多实用的工具类，帮助开发者简化代码，提升效率。这些工具类包含了各种常见的操作，比如字符串处理、数学计算、数组操作等。掌握这些工具类的高效使用方法，不仅能让你写出更简洁、优雅的代码，还能在性能上有…...

编程日记 2024/12/1 16:45:15

Linux下一次性关闭多个同名进程

要一次性关闭多个同名的 Python 进程，例如： 你可以使用以下几种方法。在执行这些操作之前，请务必确认这些进程确实是你希望终止的，以避免意外关闭其他重要的进程。方法一：使用 pkill 命令 pkill 是一个用于根据名称…...

编程日记 2024/12/1 16:44:13

1 virtual box 桥接的虚拟系统无 ipv4 地址 https://blog.csdn.net/qq_44847649/article/details/122582954 原因是 wlan 无线网卡没开共享给 virtual box host only (之前用过 vmware 也类似) 2 无法两台 windows10 物理机无法相互 ping 通 https://blog.csdn.net/qq_35…...

编程日记 2024/12/1 16:41:10

MATLAB —— 机械臂工作空间，可达性分析

系列文章目录前言本示例展示了如何使用可操作性指数对不同类型的机械手进行工作空间分析。工作空间分析是一种有用的工具，可用于确定机器人工作空间中最容易改变末端效应器位置和方向的区域。本示例的重点是利用不同的可操控性指数类型来分析各种机械手的工作空间。了解工作…...

编程日记 2024/12/1 16:38:08

18：（标准库）DMA二：DMA+串口收发数据

DMA串口收发数据 1、DMA串口发送数据2、DMA中断串口接收定长数据包3、串口空闲中断DMA接收不定长数据包4、串口空闲中断DMA接收不定长数据包DMA发送数据包 1、DMA串口发送数据当串口的波特率大于115200时，可以通过DMA1进行数据搬运，以防止数据的丢失。如…...

编程日记 2024/12/1 16:37:07

【C++】算术操作符与数据类型溢出详解

博客主页： [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯C 算术操作符详解基本算术操作符整数除法与取模行为类型转换在算术运算中的作用自增与自减操作符 💯数值溢出：当值超出类型范围时数据类型的取值范围…...

编程日记 2024/12/1 16:35:05

柔性芯片：实现万物互联的催化剂

物联网 (IoT) 市场已经非常成熟，麦肯锡预测，物联网将再创高峰，到 2030 年将达到 12.5 万亿美元的估值。然而，万物互联 (IoE) 的愿景尚未实现，即由数十亿台智能互联设备组成，提供大规模洞察和效率。究竟是…...

编程日记 2024/12/1 16:34:04

FFmpeg 简介与编译

1. ffmpeg 简介： FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移…...

编程日记 2024/12/1 16:33:02

低代码与微服务融合在医疗集团中的补充应用探究

摘要本论文深入探讨了低代码与微服务融合在医疗系统集群中的应用。分析了其优势，包括提高开发效率、降低技术门槛、灵活适应需求变化和易于维护扩展等；阐述了面临的挑战，如数据安全与隐私保护、技术应用复杂性等；并展望了其在医…...

编程日记 2024/12/1 16:28:55

速盾：高防cdn的搜索引擎回源是什么？

高防CDN（Content Delivery Network）是一种用于加速网站访问速度和增加安全性的服务，它通过将静态和动态内容缓存在全球分布的服务器上，从而将用户请求的响应时间降至最低，并提供有效的防御攻击的能力。在实际使用过程中…...

编程日记 2024/12/1 16:25:51

减少电路和配电系统谐波的五种方法

K 级变压器 ANSI 标准 C57.110-1986 定义了 K 系数来评估电路消耗多少谐波电流并确定该谐波电流的热效应。根据电路 K 系数，变压器按 K 等级制造。值得注意的是，K 级变压器不会减少谐波。K 等级表示变压器承受谐波有害影响的相对能力。K级变压器增加了铁…...

编程日记 2024/12/1 16:24:50

基于Java Springboot Vue3图书管理系统

一、作品包含源码数据库设计文档万字全套环境和工具资源部署教程二、项目技术前端技术：Html、Css、Js、Vue3、Element-ui 数据库：MySQL 后端技术：Java、Spring Boot、MyBatis 三、运行环境开发工具：IDEA 数据库&#x…...

编程日记 2024/12/1 16:23:50

vue-cli项目质量约束配置

同步发布于我的网站 🚀 package.json scriptslint-stageddevDependencies git-hooksno-eslintdevDependencies - scssdevDependencies - lessengines pre-commit.eslintrc.js.stylelintrc scssless vue.config.jsREADME.md package.json scripts "scripts&…...

编程日记 2024/12/1 16:21:48

第七课 Unity编辑器创建的资源优化_UI篇（UGUI）

上期我们学习了简单的Scene优化，接下来我们继续编辑器创建资源的UGUI优化 UI篇（UGUI） 优化UGUI应从哪些方面入手？ 可以从CPU和GPU两方面考虑，CPU方面，避免触发或减少Canvas的Rebuild和Rebatch&#xff0c…...

编程日记 2024/12/1 16:19:46

浏览器访问 AWS ECS 上部署的 Docker 容器（监听 80 端口）

✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义（Task Definition&…...

编程新知 2025/6/30 3:36:38

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现，设计原则设计原则是设计模式的理论基石，设计模式在经典的设计模式分类中（如《设计模式：可复用面向对象软件的基础》一书中），总共有23种设计模式，分为三大类：一、创建型模式（5种） 1. 单例模式（Sing…...

编程新知 2025/6/20 13:00:49

【决胜公务员考试】求职OMG——见面课测验1

2025最新版！！！6.8截至答题，大家注意呀！ 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:（ B ） A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

编程新知 2025/6/16 3:46:00

STM32HAL库USART源代码解析及应用

STM32HAL库USART源代码解析前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

编程新知 2025/6/21 8:12:23

适应性Java用于现代 API：REST、GraphQL 和事件驱动

在快速发展的软件开发领域，REST、GraphQL 和事件驱动架构等新的 API 标准对于构建可扩展、高效的系统至关重要。Java 在现代 API 方面以其在企业应用中的稳定性而闻名，不断适应这些现代范式的需求。随着不断发展的生态系统，Java 在现代 API 方…...

编程新知 2025/6/21 11:20:52

Android写一个捕获全局异常的工具类

项目开发和实际运行过程中难免会遇到异常发生，系统提供了一个可以捕获全局异常的工具Uncaughtexceptionhandler，它是Thread的子类（就是package java.lang;里线程的Thread）。本文将利用它将设备信息、报错信息以及错误的发生时间都…...

编程新知 2025/7/3 6:59:08

【版本控制】GitHub Desktop 入门教程与开源协作全流程解析

目录 0 引言1 GitHub Desktop 入门教程1.1 安装与基础配置1.2 核心功能使用指南仓库管理日常开发流程分支管理 2 GitHub 开源协作流程详解2.1 Fork & Pull Request 模型2.2 完整协作流程步骤步骤 1: Fork（创建个人副本）步骤 2: Clone（克隆…...

编程新知 2025/7/2 3:17:52

深度解析云存储：概念、架构与应用实践

在数据爆炸式增长的时代，传统本地存储因容量限制、管理复杂等问题，已难以满足企业和个人的需求。云存储凭借灵活扩展、便捷访问等特性，成为数据存储领域的主流解决方案。从个人照片备份到企业核心数据管理，云存储正重塑数据存储与…...

编程新知 2025/6/26 1:42:05

CppCon 2015 学习:Simple, Extensible Pattern Matching in C++14

什么是 Pattern Matching（模式匹配） ❝ 模式匹配就是一种“描述式”的写法，不需要你手动判断、提取数据，而是直接描述你希望的数据结构是什么样子，系统自动判断并提取。❞ 你给的定义拆解： ✴ Instead of …...

编程新知 2025/6/26 2:38:14

02-性能方案设计

需求分析与测试设计根据具体的性能测试需求，确定测试类型，以及压测的模块(web/mysql/redis/系统整体)前期要与相关人员充分沟通，初步确定压测方案及具体的性能指标QA完成性能测试设计后，需产出测试方案文档发送邮件到项目组&…...

编程新知 2025/6/24 2:14:32

【大数据学习 | Spark-SQL】定义UDF和DUAF，UDTF函数

1. UDF函数（用户自定义函数）

1.1 导入必要的包

1.2 创建SparkSession

1.3 定义UDF并注册到SparkSQL

1.4 使用UDF在SQL查询中：

1.5 代码：

2. UDAF（用户自定义的聚合函数）

3. UDTF（用户自定义炸裂函数）

相关文章：

【大数据学习 | Spark-SQL】定义UDF和DUAF，UDTF函数

#Java-JDK7、8的时间相关类，包装类

tc 命令

基于Java Springboot 协同过滤算法音乐推荐系统

MyBatis框架-关联映射

Web开发技术栈选择指南

工具类的魔力：深入理解 Java 的 String、Math 和 Arrays

Linux下一次性关闭多个同名进程

记录一些虚拟机桥接网络，windows网络遇到的小问题

MATLAB —— 机械臂工作空间，可达性分析

18：（标准库）DMA二：DMA+串口收发数据

【C++】算术操作符与数据类型溢出详解

柔性芯片：实现万物互联的催化剂

FFmpeg 简介与编译

低代码与微服务融合在医疗集团中的补充应用探究

速盾：高防cdn的搜索引擎回源是什么？

减少电路和配电系统谐波的五种方法

基于Java Springboot Vue3图书管理系统

vue-cli项目质量约束配置

第七课 Unity编辑器创建的资源优化_UI篇（UGUI）

浏览器访问 AWS ECS 上部署的 Docker 容器（监听 80 端口）

设计模式和设计原则回顾

【决胜公务员考试】求职OMG——见面课测验1

STM32HAL库USART源代码解析及应用

适应性Java用于现代 API：REST、GraphQL 和事件驱动

Android写一个捕获全局异常的工具类

【版本控制】GitHub Desktop 入门教程与开源协作全流程解析

深度解析云存储：概念、架构与应用实践

CppCon 2015 学习:Simple, Extensible Pattern Matching in C++14

02-性能方案设计