当前位置：首页 > news >正文

pyspark常用功能记录

news 2026/2/8 19:19:26

前言

pyspark中很多常用的功能，过段时间没有使用就容易忘记，需要去网上搜索，这里总结一下，省的以后还去去搜，供自己以后参考。

withColumn

def hot_func(info_str):if info_str:eturn "1"return "0"
df = df.withColumn("is_hot", F.udf(hot_func, StringType())(F.col("your_col_name")))

自定义函数

from pyspark.sql.functions import udf  
# 定义并注册函数
@udf(returnType=StringType())
def f_parse_category(info):x = json.loads(info)['category']return x if x is not None else ''
spark.udf.register('f_parse_category', f_parse_category)
# 在sql中使用注册的函数
sql = """
select *, f_parse_category(info) category, 
from your_table
where info is not null 
"""
df = spark.sql(sql).cache()

groupby处理

按groupby处理，保留goupby字段，并对groupby的结果处理。正常情况下，使用df.groupBy即可，但需要处理多列并逻辑较为复杂时，可以使用这种方式。

from pyspark.sql.functions import pandas_udf                                                         
from pyspark.sql.functions import PandasUDFType 
from pyspark.sql.types import StructField, LongType, StringType, StructType
from collections import Counterpattern = re.compile(r'\b\w+(?:' + '|'.join(['_size', '_sum']) + r')\b')group_cols = ['category']
value_cols = ['sales_sum', 'stat_size']schema = StructType(                                                                                [StructField(col, LongType()) if len(re.findall(pattern, col))>0 else StructField(col, StringType())  for col in group_cols+value_cols],)@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)                                          
def group_stat(df):# 获取l = [df[item].iloc[0] for item in group_cols]df = df[[col for col in df.columns if col not in group_cols]]sales_sum = df['sales'].sum().item()stat_size = len(df)# d: {"key": "value"}df['first_attr'] = df['attr'].transform(lambda d: list(json.loads(d).keys())[0])attr_dict = json.dumps({k:v for k, v in Counter(df['first_attr'].value_counts().to_dict()).most_common()}, ensure_ascii=0)counter = sum(df['brand_name'].apply(lambda x:Counter(json.loads(x))), Counter())ct = len(counter)brand_list = df["brand"].to_list()values = [sales_sum, stat_size, attr_dict, ct, infobox_brand_stat, brand_list]return pd.DataFrame([l + values])# df 包含字段：category， sales， attr， brand_name， brand
df = df.groupby(group_cols).apply(group_stat).cache()

patition By & orderBy

from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, dense_rank
# 根据department分区，然后按salary排序编号
windowSpec  = Window.partitionBy("department").orderBy("salary")
df.withColumn("row_number",row_number().over(windowSpec)) \.show(truncate=False)
# dense_rank: 相同值排序编号一致

sql的方式：

select name, category, sales, DENSE_RANK() OVER (PARTITION BY category ORDER BY b.sales DESC) as sales_rank
from your_tb

dataframe转正rdd处理行

该中情况一般在需要处理过个行的情况下使用，如果是少数的行处理，可以使用withColumn

def hot_func(info_str):if info_str:eturn "1"return "0"
df = df.withColumn("is_hot", F.udf(hot_func, StringType())(F.col("your_col_name")))

转为rdd的处理方式为：

def gen_norm(row):# 转为字段处理row_dict = row.asDict(recursive=True)process_key = row_dict["key"]row_dict["process_key"] = process_keyreturn Row(**row_dict)
# sampleRatio=0.01 为推断列类型的抽样数据比例
df = df.rdd.map(gen_norm).toDF(sampleRatio=0.01).cache()
df.show()

pyspark常用功能记录

前言 pyspark中很多常用的功能，过段时间没有使用就容易忘记，需要去网上搜索，这里总结一下，省的以后还去去搜，供自己以后参考。 withColumn def hot_func(info_str):if info_str:eturn "1"return "0&…...

编程日记 2023/10/5 7:09:10

Spring面试题学习: 单例Bean是单例模式吗?

单例Bean是单例模式吗学习背景答案扩展知识单例模式Spring BeanJava Bean单例Bean 个人评价我的回答学习背景想换工作. 学习记录, 算是一个输出. 答案通常来说, 单例模式是指在一个JVM中, 一个类只能构造出一个对象. 有很多方法来实现单例模式, 比如饿汉模式. 但是我们通…...

编程日记 2023/10/5 7:06:07

EM@常用三角函数图象性质(中学部分)

文章目录 abstract正弦函数正弦型函数转动相关概念旋转角速度转动周期转动频率初相小结余弦函数的图象与性质性质正切函数的图象和性质由已知三角函数值求角任意角范围内反三角函数(限定范围内)反正弦反余弦反正切 abstract 讨论 sin ⁡ , cos ⁡ , tan ⁡ \sin,\cos,\tan s…...

编程日记 2023/10/5 7:04:05

一文拿捏Spring事务之、ACID、隔离级别、失效场景

1.🌟Spring事务 1.编程式事务事务管理代码嵌入嵌入到业务代码中，来控制事务的提交和回滚，例如TransactionManager 2.声明式事务使用aop对方法前后进行拦截，然后在目标方法开始之前创建或者加入一个事务，执行完目…...

编程日记 2023/10/5 6:58:00

input输入表头保存excel文件

input输入表头 input输入表头 （input内除了/，空格回车标点符号等全部作为单元格分隔符）保存/storage/emulated/0/代码文件/ 没有就创建文件名命名方法：编号. 库时间戳嗨！听说你有个需求，想根据用户输入…...

编程日记 2023/10/5 6:56:59

DataBinding双向绑定简介

一、简介在Vue中使用的是MVVM架构。通过ViewModel可以实现M层和V层数据的双向绑定。Model层的数据发生变化后，会自动更新View层UI。UI层数据发生变化（用户输入），可以驱动Model层的数据发生变化，借助于Vue框架中的View…...

编程日记 2023/10/5 6:55:58

Is This The Intelligent Model（这是智能模型吗）

Is This The Intelligent Model 这是智能模型吗 Ruoqi Sun Academy of Military Science Defense Innovation Institute, Beijing, 100091, China E-mail: ruoqisun7163.com The exposed models are called artificial intelligent models[1-3]. These models rely on knowled…...

编程日记 2023/10/5 6:53:55

MySQL事务：特性、使用、并发事务问题和隔离级别

什么是事务？ 在数据库中，事务是一组SQL操作，它们被视为一个单一的工作单元。事务必须同时成功或失败，以确保数据库的一致性。事务通常遵循ACID属性，即原子性（Atomicity）、一致性（Co…...

编程日记 2023/10/5 6:52:54

FFmpeg日志系统、文件与目录、操作目录

目录 FFmpeg日志系统 FFmpeg文件与目录操作 FFmpeg文件的删除与重命名 FFmpeg操作目录及list的实现操作目录重要函数操作目录重要结构体 FFmpeg日志系统下面看一个简单的 demo。 #include <stdio.h> #include <libavutil/log.h>int main(int argc,char* …...

编程日记 2023/10/5 6:51:53

好奇喵 | Surface Web ---＞ Deep Web ---＞ Dark Web

前言我们可能听说过深网(deep Web)、暗网(dark Web)等名词，有些时候可能会认为它们是一个东西，其实不然，两者的区别还是比较大的。什么是deep web？ 深网是网络的一部分，与之相对应的是表层网络（surface …...

编程日记 2023/10/5 6:48:51

三、thymeleaf基本语法

3.1、基本语法 3.1.1变量表达式：${...} 变量表达式用于在页面中输出指定的内容，此内容可以是变量，可以是集合的元素，也可以是对象的属性。主要用于填充标签的属性值，标签内的文本，以及页面中js变量的值等…...

编程日记 2023/10/5 6:47:49

创建一个新的IDEA插件项目

启动IntelliJ IDEA并按照以下步骤创建新的插件项目： 打开IntelliJ IDEA并单击“Create New Project”（创建新项目）。在左侧菜单栏中选择“IntelliJ Platform Plugin”（IntelliJ平台插件）。在右侧窗格中&#xff0c…...

编程日记 2023/10/5 6:40:41

Doris数据库BE——冷热数据方案

新的冷热数据方案是在整合了存算分离模型的基础上建立的，其核心思路是：DORIS本地存储作为热数据的载体，而外部集群（HDFS、S3等）作为冷数据的载体。数据在导入的过程中，先作为热数据存在，存储于B…...

编程日记 2023/10/5 6:38:39

Python无废话-办公自动化Excel格式美化

设置字体在使用openpyxl 处理excel 设置格式，需要导入Font类，设置Font初始化参数，常见参数如下： 关键字参数数据类型描述 name 字符串字体名称，如Calibri或Times New Roman size 整型大小点数 bold …...

编程日记 2023/10/5 6:37:38

竞赛机器视觉的试卷批改系统 - opencv python 视觉识别

文章目录 0 简介1 项目背景2 项目目的3 系统设计3.1 目标对象3.2 系统架构3.3 软件设计方案 4 图像预处理4.1 灰度二值化4.2 形态学处理4.3 算式提取4.4 倾斜校正4.5 字符分割 5 字符识别5.1 支持向量机原理5.2 基于SVM的字符识别5.3 SVM算法实现 6 算法测试7 系统实现8 最后 0…...

编程日记 2023/10/5 6:35:37

Django 数据库迁移（Django-04）

一数据库迁移数据库迁移是一种数据库管理技术，它用于在应用程序的开发过程中，根据模型（Model）的变化自动更新数据库结构，以保持数据库与代码模型的一致性。数据库迁移的主要目的是确保数据库与应用程序的模型定义同…...

编程日记 2023/10/5 6:34:35

Redis相关概念

1. 什么是Redis？它主要用来什么的？ Redis，英文全称是Remote Dictionary Server（远程字典服务），是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提…...

编程日记 2023/10/5 6:32:32

Scala第十八章节

Scala第十八章节 scala总目录文档资料下载章节目标掌握Iterable集合相关内容.掌握Seq集合相关内容.掌握Set集合相关内容.掌握Map集合相关内容.掌握统计字符个数案例. 1. Iterable 1.1 概述 Iterable代表一个可以迭代的集合, 它继承了Traversable特质, 同时也是其他集合…...

编程日记 2023/10/5 6:29:29

JAVA学习(4)-全网最详细~

🌈write in front🌈 🧸大家好，我是Aileen🧸.希望你看完之后，能对你有所帮助，不足请指正！共同学习交流. 🆔本文由Aileen_0v0🧸 原创 CSDN首发🐒 如…...

编程日记 2023/10/5 6:28:28

【单片机】12-串口通信和RS485

1.通信有关的常见概念区分：串口，COM口，UART，USART_usart和串口区别-CSDN博客串口、COM口、UART口, TTL、RS-232、RS-485区别详解-CSDN博客 1.什么是通信 （1）人和人之间的通信：说话&#xff…...

编程日记 2023/10/5 6:26:27

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

编程新知 2026/2/8 4:37:20

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性，不同版本的Docker对内核版本有不同要求。例如，Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本，Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

编程新知 2026/2/7 6:10:30

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

前言现在我们有个如下的需求，设计一个邮件发奖的小系统， 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件装饰器模式（Decorator Pattern）允许向一个现有的对象添加新的功能，同时又不改变其…...

编程新知 2026/2/8 4:37:00

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器直接处理静态资源（HTML/CSS/图片等），响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器隐藏后端服务器IP地址，提高安全性 3.负载均衡服务器支持多种策略分发流量…...

编程新知 2026/1/18 3:11:35

3.3.1_1 检错编码（奇偶校验码）

从这节课开始，我们会探讨数据链路层的差错控制功能，差错控制功能的主要目标是要发现并且解决一个帧内部的位错误，我们需要使用特殊的编码技术去发现帧内部的位错误，当我们发现位错误之后，通常来说有两种解决方案。第一…...

编程新知 2026/1/30 3:28:14

2.Vue编写一个app

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template>  </template>…...

编程新知 2026/1/31 6:04:01

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

AI 领域的快速发展正在催生一个新时代，智能代理（agents）不再是孤立的个体，而是能够像一个数字团队一样协作。然而，当前 AI 生态系统的碎片化阻碍了这一愿景的实现，导致了“AI 巴别塔问题”——不同代理之间…...

编程新知 2026/1/31 3:30:33

自然语言处理——循环神经网络

自然语言处理——循环神经网络循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式参数学习和长程依赖问题基于门控的循环神经网络门控循环单元（GRU）长短期记忆神经网络（LSTM&#xff09…...

编程新知 2026/2/4 11:21:40

Java面试专项一-准备篇

一、企业简历筛选规则一般企业的简历筛选流程：首先由HR先筛选一部分简历后，在将简历给到对应的项目负责人后再进行下一步的操作。 HR如何筛选简历例如：Boss直聘（招聘方平台） 直接按照条件进行筛选例如&#xff1a…...

编程新知 2026/1/26 19:10:48

【Oracle】分区表

个人主页：Guiat 归属专栏：Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

编程新知 2026/1/20 21:59:36

前言