当前位置：首页 > news >正文

Spark教程5-基本结构化操作

news 2025/7/4 16:43:01

加载csv文件

df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")

Schema

输出Schema

df.printSchema()

使用Schema读取csv文件，以指定数据类型

from pyspark.sql.types import StructField, StructType, StringType, LongTypemySchema = StructType([StructField("DEST_COUNTRY_NAME", StringType(), True),StructField("ORIGIN_COUNTRY_NAME", StringType(), True),StructField("count", LongType(), False)]
)
df = spark.read.format("json").schema(mySchema).load("/Users/yangyong/dev/learn_spark/2015-summary.json")

行

获取第一行

df.first()

创建行

from pyspark.sql import RowmyRow = Row("Hello", None, 1, False)

创建DataFrames

加载csv文件为DataFrames

df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")

合并Schema和Rows为DataFrames

Schema1 = StructType([StructField("id", StringType(), True),StructField("name", StringType(), True),StructField("country", StringType(), True)]
)row1 = Row('1', 'Oscar', 'United States')
row2 = Row('2', 'China', 'England')
myDF = spark.createDataFrame([row1, row2], schema=Schema1)
myDF.show()"""
+---+-----+-------------+
| id| name|      country|
+---+-----+-------------+
|  1|Oscar|United States|
|  2|China|      England|
+---+-----+-------------+
"""

两种查询：select和selectExpr

select

from  pyspark.sql.functions import expr, col, columndf.select('dest_country_name').show(2)
df.select('dest_country_name', 'origin_country_name').show(2)
df.select(expr('dest_country_name'), col('dest_country_name'), column('dest_country_name')).show(2)"""
+-----------------+
|dest_country_name|
+-----------------+
|    United States|
|    United States|
+-----------------+
only showing top 2 rows+-----------------+-------------------+
|dest_country_name|origin_country_name|
+-----------------+-------------------+
|    United States|            Romania|
|    United States|            Croatia|
+-----------------+-------------------+
only showing top 2 rows+-----------------+-----------------+-----------------+
|dest_country_name|dest_country_name|dest_country_name|
+-----------------+-----------------+-----------------+
|    United States|    United States|    United States|
|    United States|    United States|    United States|
+-----------------+-----------------+-----------------+
only showing top 2 rows
"""

列重命名

df.select(expr('dest_country_name as destination')).show(2)
df.select(col('dest_country_name').alias('destination')).show(2)"""
+-------------+
|  destination|
+-------------+
|United States|
|United States|
+-------------+
only showing top 2 rows+-------------+
|  destination|
+-------------+
|United States|
|United States|
+-------------+
only showing top 2 rows
"""

selectExpr

列重命名

df.selectExpr('dest_country_name as destination', 'dest_country_name').show(2)"""
+-------------+-----------------+
|  destination|dest_country_name|
+-------------+-----------------+
|United States|    United States|
|United States|    United States|
+-------------+-----------------+
only showing top 2 rows
"""

新增列

df.selectExpr('*', '(dest_country_name = origin_country_name) as withinCountry').show(2)"""
+-----------------+-------------------+-----+-------------+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|withinCountry|
+-----------------+-------------------+-----+-------------+
|    United States|            Romania|   15|        false|
|    United States|            Croatia|    1|        false|
+-----------------+-------------------+-----+-------------+
only showing top 2 rows
"""

相当于SQL

SELECT *, (dest_country_name = origin_country_name) as withinCountry 
FROM dfTable limit 2

使用聚合函数

df.selectExpr('avg(count)', 'count(distinct(dest_country_name))').show(2)"""
+-----------+---------------------------------+
| avg(count)|count(DISTINCT dest_country_name)|
+-----------+---------------------------------+
|1770.765625|                              132|
+-----------+---------------------------------+
"""

添加列 withColumn

from pyspark.sql.functions import litdf.withColumn('numberOne', lit(1)).show(2)
df.withColumn('withinCountry', expr('dest_country_name == origin_country_name')).show(2)"""
+-----------------+-------------------+-----+---------+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|numberOne|
+-----------------+-------------------+-----+---------+
|    United States|            Romania|   15|        1|
|    United States|            Croatia|    1|        1|
+-----------------+-------------------+-----+---------+
only showing top 2 rows+-----------------+-------------------+-----+-------------+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|withinCountry|
+-----------------+-------------------+-----+-------------+
|    United States|            Romania|   15|        false|
|    United States|            Croatia|    1|        false|
+-----------------+-------------------+-----+-------------+
only showing top 2 rows
"""

列重命名 withColumnRenamed

df.withColumnRenamed('dest_country_name', 'dest').show(2)"""
+-------------+-------------------+-----+
|         dest|ORIGIN_COUNTRY_NAME|count|
+-------------+-------------------+-----+
|United States|            Romania|   15|
|United States|            Croatia|    1|
+-------------+-------------------+-----+
only showing top 2 rows
"""

去掉列

df.drop('origin_country_name').show(2)
"""
+-----------------+-----+
|DEST_COUNTRY_NAME|count|
+-----------------+-----+
|    United States|   15|
|    United States|    1|
+-----------------+-----+
only showing top 2 rows
"""

修改列类型

df.withColumn('count2', col('count').cast('long'))

行过滤 filter/where

这两者是等价的

df.filter('count < 2').show(2)
df.where('count < 2').show(2)
df.where(col('count') < 2).show(2)"""
+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Croatia|    1|
|    United States|          Singapore|    1|
+-----------------+-------------------+-----+
only showing top 2 rows+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Croatia|    1|
|    United States|          Singapore|    1|
+-----------------+-------------------+-----+
only showing top 2 rows+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Croatia|    1|
|    United States|          Singapore|    1|
+-----------------+-------------------+-----+
only showing top 2 rows
"""

多个条件过滤

df.where('count < 2').where('dest_country_name != "United States"').show(2)"""
+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|          Moldova|      United States|    1|
|            Malta|      United States|    1|
+-----------------+-------------------+-----+
only showing top 2 rows
"""

去重

df.select('dest_country_name', 'origin_country_name').distinct().count()"""
equal to SQL:
SELECT COUNT(DISTINCT(dest_country_name, origin_country_name)) FROM dfTable;
"""

合并DataFrames

拥有同样的Schema以及columns才能合并

from pyspark.sql import Row
schema = df.schema
newRows = [Row("New Country", "Other Country", 5),Row("New Country 2", "Other Country 3", 1)
]
newDF = spark.createDataFrame(newRows, schema)# in Python
df.union(newDF)\.where("count = 1")\.where(col("ORIGIN_COUNTRY_NAME") != "United States")\.show()
"""
+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Croatia|    1|
|    United States|          Singapore|    1|
|    United States|          Gibraltar|    1|
|    United States|             Cyprus|    1|
|    United States|            Estonia|    1|
|    United States|          Lithuania|    1|
|    United States|           Bulgaria|    1|
|    United States|            Georgia|    1|
|    United States|            Bahrain|    1|
|    United States|   Papua New Guinea|    1|
|    United States|         Montenegro|    1|
|    United States|            Namibia|    1|
|    New Country 2|    Other Country 3|    1|
+-----------------+-------------------+-----+
"""

行排序 sort/orderBy

两种方式等价


df.sort("count").show(5)
df.orderBy("count", "DEST_COUNTRY_NAME").show(5)
df.orderBy(col("count"), col("DEST_COUNTRY_NAME")).show(5)from pyspark.sql.functions import desc, ascdf.orderBy(expr("count desc")).show(2)
df.orderBy(col("count").desc(), col("DEST_COUNTRY_NAME").asc()).show(2)

Limit

df.limit(5).show()
df.orderBy(expr("count desc")).limit(6).show()

Spark教程5-基本结构化操作

加载csv文件 df spark.read.format("json").load("/data/flight-data/json/2015-summary.json")Schema 输出Schema df.printSchema()使用Schema读取csv文件，以指定数据类型 from pyspark.sql.types import StructField, StructType, Strin…...

编程日记 2024/10/26 4:58:43

内置数据类型、变量名、字符串、数字及其运算、数字的处理、类型转换

内置数据类型 python中的内置数据类型包括：整数、浮点数、布尔类型（以大写字母开头）、字符串变量名命名变量要见名知意，确保变量名称具有描述性和意义，这样可以使得代码更容易维护，使用_可以使得变量名…...

编程日记 2024/10/26 4:56:41

Win/Mac/Android/iOS怎麼刪除代理設置？

設置代理設置的主要構成 IP 地址和端口這些是代理伺服器配置的最基本組件。代理伺服器的IP地址引導互聯網流量，而端口號指定伺服器上的通信通道。為什麼要刪除代理設置？ 刪除代理設置通常是為了解決網路問題、提高速度、恢復安全性或過渡到新的網路…...

编程日记 2024/10/26 4:55:38

数据结构------手撕顺序表

文章目录线性表顺序表的使用及其内部方法ArrayList 的扩容机制顺序表的几种遍历方式顺序表的优缺点顺序表的模拟实现洗牌算法线性表线性表（linear list）是n个具有相同特性的数据元素的有限序列。线性表是一种在实际中广泛使用的数据结构，…...

编程日记 2024/10/26 4:54:37

UDP(用户数据报协议)端口监控

随着网络的扩展，确保高效的设备通信对于优化网络功能变得越来越重要。在这个过程中，端口发挥着重要作用，它是实现外部设备集成的物理连接器。通过实现数据的无缝传输和交互，端口为网络基础设施的顺畅运行提供了保障。端口使数据通…...

编程日记 2024/10/26 4:53:35

【Java小白图文教程】-05-数组和排序算法详解

精品专题： 01.《C语言从不挂科到高绩点》课程详细笔记 https://blog.csdn.net/yueyehuguang/category_12753294.html?spm1001.2014.3001.5482 02. 《SpringBoot详细教程》课程详细笔记 https://blog.csdn.net/yueyehuguang/category_12789841.html?spm1001.20…...

编程日记 2024/10/26 4:52:34

OpenCV视觉分析之目标跟踪(1)计算密集光流的类DISOpticalFlow的介绍

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述这个类实现了 Dense Inverse Search (DIS) 光流算法。更多关于该算法的细节可以在文献 146中找到。该实现包含了三个预设参数集，以提…...

编程日记 2024/10/26 4:51:31

Lucas带你手撕机器学习——套索回归

好的，下面我将详细介绍套索回归的背景、理论基础、实现细节以及在实践中的应用，同时还会讨论其优缺点和一些常见问题。套索回归（Lasso Regression） 1. 背景与动机在机器学习和统计学中，模型的复杂性通常会影响其在…...

编程日记 2024/10/26 4:50:27

面试中的一个基本问题：如何在数据库中存储密码？

面试中的一个基本问题：如何在数据库中存储密码？ 在安全面试中，“如何在数据库中存储密码？”是一个基础问题，但反映了应聘者对安全最佳实践的理解。以下是安全存储密码的最佳实践概述。了解风险存储密码必须安全&am…...

编程日记 2024/10/26 4:49:27

XML HTTP Request

XML HTTP Request 简介 XMLHttpRequest（XHR）是一个JavaScript对象，它最初由微软设计，并在IE5中引入，用于在后台与服务器交换数据。它允许网页在不重新加载整个页面的情况下更新部分内容，这使得网页能够实现动态更新，大大提高了用户体验。虽然名字中包含“XML”，但XML…...

编程日记 2024/10/26 4:48:26

TLS协议基本原理与Wireshark分析

01背景随着车联网的迅猛发展，汽车已经不再是传统的机械交通工具，而是智能化、互联化的移动终端。然而，随之而来的是对车辆通信安全的日益严峻的威胁。在车联网生态系统中，车辆通过无线网络与其他车辆、基础设施以及云端服务进行…...

编程日记 2024/10/26 4:47:25

当遇到 502 错误（Bad Gateway）怎么办

很多安装雷池社区版的时候，配置完成，访问的时候可能会遇到当前问题，如何解决呢？ 客户端，浏览器排查 1.刷新页面和清除缓存首先尝试刷新页面，因为有时候 502 错误可能是由于网络临时波动导致服务器无法连…...

编程日记 2024/10/26 4:46:24

学习记录：js算法（七十五）：加油站

文章目录加油站思路一思路二思路三思路四思路五加油站在一条环路上有 n 个加油站，其中第 i 个加油站有汽油 gas[i] 升。你有一辆油箱容量无限的的汽车，从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发&#xf…...

编程日记 2024/10/26 4:45:23

强心剂！EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断

强心剂！EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断目录强心剂！EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断效果一览基本介绍程序设计参考资料效果一览基本介绍 EEMD-MPE-KPCA-LSTM(集合经验模态分解-多尺…...

编程日记 2024/10/26 4:44:22

yarn的安装与使用以及与npm的区别（安装过程中可能会遇到的问题）

一、yarn的安装使用npm就可以进行安装但是需要注意的一点是yarn的使用和node版本是有关系的必须是16.0以上的版本。输入以下代码就可以实现yarn的安装 npm install -g yarn 再通过版本号的检查来确定，yarn是否安装成功 yarn -v二、遇到的问题 1、问题描述…...

编程日记 2024/10/26 4:39:15

大数据行业预测

大数据行业预测编译李升伟和所有预测一样，我们必须谨慎对待这些预测，因为其中一些预测可能成不了事实。当然，真正改变游戏规则的创新往往出乎意料，甚至让最警惕的预言家也措手不及。所以，如果在来年发生了一些惊天…...

编程日记 2024/10/26 4:36:09

可能是NextJs(使用ssr、api route)打包成桌面端(nextron、electron、tauri)的最佳解决方式

可能是NextJs(使用ssr、api route)打包成桌面端(nextron、electron、tauri)的最佳解决方式前言在我使用nextron（nextelectron）写了一个项目后打包发现nextron等一系列桌面端框架在生产环境是不支持next的ssr也就是api route功能的这就导致我非常难受&…...

编程日记 2024/10/26 4:32:04

二百七十、Kettle——ClickHouse中增量导入清洗数据错误表

一、目的比如原始数据100条，清洗后，90条正确数据在DWD层清洗表，10条错误数据在DWD层清洗数据错误表，所以清洗数据错误表任务一定要放在清洗表任务之后。更关键的是，Hive中原本的SQL语句，放在ClickHouse…...

编程日记 2024/10/26 4:25:58

CentOS6升级OpenSSH9.2和OpenSSL3

文章目录 1.说明2.下载地址3.升级OpenSSL4.安装telnet 服务4.1.安装 telnet 服务4.2 关闭防火墙4.2.使用 telnet 连接 5.升级OpenSSH5.1.安装相关命令依赖5.2.备份原 ssh 配置5.3.卸载原有的 OpenSSH5.4.安装 OpenSSH5.5.修改 ssh 配置文件5.6关闭 selinux5.7.重启 OpenSSH 1.说…...

编程日记 2024/10/26 4:24:57

2024 年 MathorCup 数学应用挑战赛——大数据竞赛-赛道 A：台风的分类与预测

2024年MathorCup大数据挑战赛-赛道A初赛--思路https://download.csdn.net/download/qq_52590045/89922904↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓…...

编程日记 2024/10/26 4:23:50

wordpress后台更新后前端没变化的解决方法

使用siteground主机的wordpress网站，会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后，网站没有变化的情况。不熟悉siteground主机的新手，遇到这个问题，就很抓狂，明明是哪都没操作错误&#x…...

编程新知 2025/7/1 12:27:16

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/6/21 16:23:04

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令： return <value>;在收到客户端连接后，立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量（如 $time_iso8601、$remote_addr 等）&a…...

编程新知 2025/7/4 0:30:46

css实现圆环展示百分比，根据值动态展示所占比例

代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...

编程新知 2025/6/29 2:44:15

visual studio 2022更改主题为深色

visual studio 2022更改主题为深色点击visual studio 上方的工具-> 选项在选项窗口中，选择环境 -> 常规 ，将其中的颜色主题改成深色点击确定，更改完成...

编程新知 2025/7/2 15:27:24

UDP(Echoserver)

网络命令 Ping 命令检测网络是否连通使用方法: ping -c 次数网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法：netstat [选项] 功能：查看网络状态常用选项： n 拒绝显示别名&#…...

编程新知 2025/7/4 8:11:42

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时，可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案： 1. 检查电源供电问题问题原因：多块移动硬盘同时运行可能导致USB接口供电不足&#x…...

编程新知 2025/6/27 0:52:23

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

第一章引言：语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进在人工智能领域，文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量，支撑着搜索引擎、推荐系统、…...

编程新知 2025/6/15 15:47:35

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

编程新知 2025/6/24 3:14:59

C# SqlSugar：依赖注入与仓储模式实践

C# SqlSugar：依赖注入与仓储模式实践在 C# 的应用开发中，数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护，许多开发者会选择成熟的 ORM（对象关系映射）框架，SqlSugar 就是其中备受…...

编程新知 2025/6/26 7:07:46