当前位置：首页 > news >正文

PySpark 数据处理实战：从基础操作到案例分析

news 文章来源：https://blog.csdn.net/weixin_64726356/article/details/143647366 2025/4/19 16:04:51

Spark 的介绍与搭建：从理论到实践_spark环境搭建-CSDN博客

Spark 的Standalone集群环境安装与测试-CSDN博客

PySpark 本地开发环境搭建与实践-CSDN博客

Spark 程序开发与提交：本地与集群模式全解析-CSDN博客

Spark on YARN：Spark集群模式之Yarn模式的原理、搭建与实践-CSDN博客

Spark 中 RDD 的诞生：原理、操作与分区规则-CSDN博客

Spark 中的 RDD 分区的设定规则与高阶函数、Lambda 表达式详解-CSDN博客

RDD 算子全面解析：从基础到进阶与面试要点-CSDN博客

一、手机号码流量统计案例

（一）需求分析

（二）代码实现

（三）代码解析

二、合同数据分析案例

（一）需求分析

（二）代码实现

（三）代码解析

三、日志分析案例

（一）需求分析

（二）jieba分词器

安装一下

使用

测试

（四）代码实现

（三）代码解析

四、常见错误及解决方法

五、总结

在大数据处理领域，PySpark 作为强大的工具，能够高效地处理大规模数据。本文将通过几个实际案例，详细介绍 PySpark 在数据处理中的应用，包括数据清洗、统计分析等操作，帮助读者深入理解 PySpark 的使用方法和数据处理流程。

一、手机号码流量统计案例

（一）需求分析

给定一组数据，要求计算每个手机号码的总流量（上行 + 下行），但需排除手机号码不正确以及数据长度不够的数据。数据长度不一致的数据指的是一行数据切割后的列数与其他数据列数不同的数据。

（二）代码实现

以下是实现该功能的 PySpark 代码：

import math
import os
import re
from collections.abc import Iterable# 导入pyspark模块
from pyspark import SparkContext, SparkConfif __name__ == '__main__':# 配置环境os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk1.8.0_241'# 配置Hadoop的路径，就是前面解压的那个路径os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1'# 配置base环境Python解析器的路径os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'# 获取 conf 对象# setMaster  按照什么模式运行，local  bigdata01:7077  yarn#  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核#  appName 任务的名字conf = SparkConf().setMaster("local[*]").setAppName("rdd的创建方式")sc = SparkContext(conf=conf)fileRdd = sc.textFile("../../datas/zuoye/HTTP_20130313143750.dat")print(fileRdd.count())filterRdd = fileRdd.filter(lambda line: len(re.split("\t+",line)) == 11 and re.fullmatch(r"1[3-9]\d{9}",re.split("\t+",line)[1]) is not None )print(filterRdd.count())mapRdd = filterRdd.map(lambda line:(re.split("\t+",line)[1],int(re.split("\t+",line)[-3])+int(re.split("\t+",line)[-2])))rsRdd = mapRdd.reduceByKey(lambda sum,num:sum+num)rsRdd.foreach(lambda x:print(x[0],str(round(x[1]/1024,2))+"MB"))# 使用完后，记得关闭sc.stop()

（三）代码解析

首先，配置了 PySpark 运行所需的环境变量，包括 JAVA_HOME、HADOOP_HOME 以及 Python 解析器路径。
通过 SparkConf 设置运行模式为本地（local[*]）并指定应用名称，然后创建 SparkContext 对象。
使用 textFile 读取数据文件，得到 fileRdd。
利用 filter 操作过滤数据，先检查数据长度是否为 11，再通过正则表达式验证手机号码格式是否正确，得到 filterRdd。
对 filterRdd 进行 map 操作，提取手机号码和总流量。
通过 reduceByKey 按手机号码分组并计算总流量。
最后，使用 foreach 输出每个手机号码及其对应的总流量（转换为 MB 并保留两位小数）。

二、合同数据分析案例

（一）需求分析

给定合同数据文件，包含合同 ID、客户 ID、合同类型、总金额、合同付款类型、注册时间、购买数量、合同签约时间、购买的产品、是否已经交货等字段。需要查询已交货和未交货的数量分别是多少、购买合同的总金额是多少以及分期付款占全部订单的比例。

（二）代码实现

以下是实现该功能的 PySpark 代码：

import os
import re# 导入pyspark模块
from pyspark import SparkContext, SparkConfclass Contract:def __init__(self,line):# 合同类型, 总金额，合同付款类型，是否已经交货tuple1 = re.split(",",line)self.contract_type=tuple1[2]self.contract_money=int(tuple1[3])self.pay_type=tuple1[4]self.isDelivery=tuple1[-1]def __repr__(self):return "合同类型：%s，总金额：%d，合同付款类型：%s，是否已经交货：%s" % (self.contract_type,self.contract_money,self.pay_type,self.isDelivery)if __name__ == '__main__':# 配置环境os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk1.8.0_241'# 配置Hadoop的路径，就是前面解压的那个路径os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1'# 配置base环境Python解析器的路径os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'# 获取 conf 对象# setMaster  按照什么模式运行，local  bigdata01:7077  yarn#  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核#  appName 任务的名字conf = SparkConf().setMaster("local[*]").setAppName("合同分析")# 假如我想设置压缩# conf.set("spark.eventLog.compression.codec","snappy")# 根据配置文件，得到一个SC对象，第一个conf 是 形参的名字，第二个conf 是实参的名字sc = SparkContext(conf=conf)print(sc)mapRdd = sc.textFile("../../datas/zuoye/DEMO_CONTRACT.csv") \.filter(lambda line: line.find("合同ID") == -1) \.map(lambda line: Contract(line)) \"""1. 已交货和未交货的数量分别是多少2. 购买合同的总金额是多少3. 分期付款占全部订单的比例"""totalNum = mapRdd.count()deliverNum = mapRdd.filter(lambda contract:contract.isDelivery == '是').count()print("已交货和未交货的数量分别是：",deliverNum,totalNum-deliverNum)gouMaiMoney = mapRdd.filter(lambda contract:contract.contract_type=='购买合同') \.map(lambda contract:contract.contract_money).reduce(lambda sum,money:sum+money)gouMaiMoney2 = mapRdd.filter(lambda contract: contract.contract_type == '购买合同') \.map(lambda contract: contract.contract_money).sum()print("购买合同的总金额是：",gouMaiMoney2)# 第三问fenQiNum = mapRdd.filter(lambda contract:contract.pay_type=='分期付款').count()print("分期付款占全部订单的比例是：",fenQiNum/totalNum)# 使用完后，记得关闭sc.stop()

（三）代码解析

同样先配置环境变量并创建 SparkContext 对象。
定义了 Contract 类来封装合同数据的相关字段。
读取合同数据文件并进行过滤，排除标题行，然后将每行数据映射为 Contract 对象，得到 mapRdd。
对于已交货和未交货数量的统计，先计算总订单数 totalNum，再通过过滤得到已交货订单数 deliverNum，进而得出未交货订单数。
计算购买合同总金额时，先过滤出购买合同类型的数据，然后提取金额并进行求和操作。
计算分期付款占比，先统计分期付款订单数 fenQiNum，再除以总订单数 totalNum。

三、日志分析案例

（一）需求分析

统计热门搜索词 Top10，即统计用户搜索每个词出现的次数，然后降序排序取前 10。
统计所有用户搜索中最大点击次数、最小点击次数、平均点击次数，也就是计算所有用户在所有搜索过程中的最大、最小和平均点击次数。
统计一天每小时点击量并按照点击量降序排序，即统计每个小时点击的数据量并按降序排列。

（二）jieba分词器

汉语是需要分词的

python语言： Jieba 分词器

Java语言： IK 分词器（好久没更新过了）

安装一下

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/

没有自定版本，安装的就是最新的版本

使用

语法：jieba.cut(“语句”) / jieba.cut_for_search(“语句”)
全模式：将句子中所有可以组成词的词语都扫描出来, 速度非常快，但可能会出现歧义
jieba.cut("语句", cut_all=True)
精确模式：将句子最精确地按照语义切开，适合文本分析，提取语义中存在的每个词
jieba.cut("语句", cut_all=False)
搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎分词
jieba.cut_for_search("语句")

测试

import jieba
# 测试一下结巴分词器
str = "中华人民共和国"
list01 = jieba.cut(str, cut_all=True)
# 中华,中华人民,中华人民共和国,华人,人民,人民共和国,共和,共和国
print(",".join(list01))
# 中华人民共和国
list02 = jieba.cut(str, cut_all=False)
for ele in list02:print(ele)# 中华 华人 人民 共和 共和国 中华人民共和国  比全模式少多，比精确模式多，适用于搜索引擎
list03 = jieba.cut_for_search(str)
print(*list03)

（四）代码实现

以下是实现日志分析功能的 PySpark 代码：

import os
import re# 导入pyspark模块
from pyspark import SparkContext, SparkConf
import jiebaif __name__ == '__main__':# 配置环境os.environ['JAVA_HOME'] = 'C:/Program Files/java/jdk1.8.0_181'# 配置Hadoop的路径，就是前面解压的那个路径os.environ['HADOOP_HOME'] = 'D:/Linux/hadoop/hadoop-3.3.1'# 配置base环境Python解析器的路径os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'# 获取 conf 对象conf = SparkConf().setMaster("local[*]").setAppName("")# 根据配置文件，得到一个 SC 对象，第一个 conf 是形参的名字，第二个 conf 是实参的名字sc = SparkContext(conf=conf)# print(sc)# 清洗数据print("===========清洗数据===========")fileRdd = sc.textFile("../../datas/sogou/sogou.tsv")print(fileRdd.count())print(fileRdd.first())listRdd = fileRdd.map(lambda line: re.split("\\s+", line))filterList = listRdd.filter(lambda l1: len(l1) == 6)# 这个结果只获取而来时间 uid 以及热词，热词将左右两边的[] 去掉了tupleRdd = filterList.map(lambda l1: (l1[0], l1[1], l1[2][1:-1]))# 求热词top10print("===========求热词top10===========")wordRdd = tupleRdd.flatMap(lambda t1: jieba.cut_for_search(t1[2]))filterRdd2 = wordRdd.filter(lambda word: len(word.strip()) != 0 and word != "的").filter(lambda word: re.fullmatch("[\u4e00-\u9fa5]+", word) is not None)# filterRdd2.foreach(print)result = filterRdd2.map(lambda word: (word, 1)).reduceByKey(lambda sum, num: sum + num).sortBy(keyfunc=lambda tup: tup[1], ascending=False).take(10)for ele in result:print(ele)# 统计所有用户搜索中最大点击次数、最小点击次数、平均点击次数print("===========统计所有用户搜索中最大点击次数、最小点击次数、平均点击次数===========")def splitWord(tupl):li1 = jieba.cut_for_search(tupl[2])  # 中国 中华 共和国li2 = list()for word in li1:li2.append(((tupl[1], word), 1))return li2newRdd = tupleRdd.flatMap(splitWord)# newRdd.foreach(print)reduceByUIDAndWordRdd = newRdd.reduceByKey(lambda sum, num: sum + num)# reduceByUIDAndWordRdd.foreach(print)valList = reduceByUIDAndWordRdd.values()print(f"最大点击次数: {valList.max()}")print(f"最小点击次数: {valList.min()}")print(f"中位数: {valList.mean()}")  # 中位数print(f"平均点击次数: {valList.sum() / valList.count()}")# 统计一天每小时点击量并按照点击量降序排序print("===========统计一天每小时点击量并按照点击量降序排序===========")reductByKeyRDD = tupleRdd.map(lambda tup: (tup[0][0:2], 1)).reduceByKey(lambda sum, num: sum + num)sortRdd = reductByKeyRDD.sortBy(keyfunc=lambda tup: tup[1], ascending=False)listNum = sortRdd.take(24)for ele in listNum:print(ele)# 使用完后，记得关闭sc.stop()

（三）代码解析

配置环境变量后创建 SparkContext 对象。
定义 getWords 函数，用于将搜索词进行分词并构建 ((用户id,词), 1) 的格式。
读取日志数据文件，进行数据清洗，排除数据长度不足 6 的行和包含特定违禁词的行，然后提取相关字段得到 mapRdd。
对于热词 Top10 的统计，先对热词进行分词，过滤掉特定词和非中文词，然后映射为 (词, 1) 格式，通过 reduceByKey 统计词频，最后按词频降序排序并取前 10。
统计最大、最小和平均点击次数时，先通过 flatMap 和 getWords 函数构建 ((用户id,词),点击次数) 格式的数据，过滤掉非中文词和特定词后，通过 reduceByKey 统计点击次数，再获取值并计算相关统计量。
统计一天每小时点击量时，先提取小时信息并映射为 (小时, 1) 格式，通过 reduceByKey 统计每小时点击量，最后按点击量降序排序并收集结果。

四、常见错误及解决方法

在运行 PySpark 代码读取数据时，可能会遇到 Caused by: java.net.SocketException: Connection reset by peer: socket write error 错误。

Caused by: java.net.SocketException: Connection reset by peer: socket write error
at java.net.SocketOutputStream.socketWrite0(Native Method)
at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:111)
at java.net.SocketOutputStream.write(SocketOutputStream.java:155)
at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82)
at java.io.BufferedOutputStream.write(BufferedOutputStream.java:126)
at java.io.DataOutputStream.write(DataOutputStream.java:107)
at java.io.FilterOutputStream.write(FilterOutputStream.java:97)
at org.apache.spark.api.python.PythonRDD$.writeUTF(PythonRDD.scala:477)

原因是连接数过多，一般在本地 Windows 运行 Spark 代码且读取数据过多，或者代码中使用了 take() 算子时容易出现。解决方法有两种：一是将数据量变小一点，只截取一部分进行测试；二是避免使用 take 算子。

五、总结

通过以上三个案例，我们详细展示了 PySpark 在不同数据处理场景下的应用。从手机号码流量统计到合同数据分析，再到日志分析，涵盖了数据过滤、映射、分组求和、排序以及特定数据统计等常见操作。同时，也指出了在实际运行代码过程中可能遇到的错误及解决方法。希望读者能够通过这些案例，深入理解 PySpark 的使用技巧，在大数据处理工作中更加得心应手。

PySpark 数据处理实战：从基础操作到案例分析

Spark 的介绍与搭建：从理论到实践_spark环境搭建-CSDN博客 Spark 的Standalone集群环境安装与测试-CSDN博客 PySpark 本地开发环境搭建与实践-CSDN博客 Spark 程序开发与提交：本地与集群模式全解析-CSDN博客 Spark on YARN：Spark集群模式…...

编程日记 2024/11/12 7:04:26

恒源云使用手册记录：从服务器下载数据到本地

文章目录一、xftp下载二、通过Xftp客户端连接站点一、xftp下载先下载xftp：下载连接二、通过Xftp客户端连接站点右击文件，点击新建名称可以任意主机、端口号、用户名点击这里的复制登录命令比如我这里得到ssh -p 41604 rooti-2.gpushare.co…...

编程日记 2024/11/12 7:03:25

【大咖云集 | IEEE计算智能学会广州分会支持】第四届信息技术与当代体育国际学术会议（TCS 2024，12月13-15日）

第四届信息技术与当代体育国际学术会议（TCS 2024） 2024 4th International Conference on Information Technology and Contemporary Sports 重要信息会议官网：www.icitcs.net（会议关键词：TCS 2024） 202…...

编程日记 2024/11/12 7:02:24

【AI声音克隆整合包及教程】第二代GPT-SoVITS V2：技术、应用与伦理思考

一、引言在当今科技迅速发展的时代，声音克隆技术成为人工智能领域的一个备受瞩目的分支。GPT-SoVITS V2作为一种声音克隆工具，正逐渐进入人们的视野，它在多个领域展现出巨大的潜力，同时也引发了一系列值得深入探讨的问题。本文旨…...

编程日记 2024/11/12 6:57:20

利用AI制作《职业生涯规划PPT》，10分钟完成

职业生涯规划是大学生活中非常重要的一环。通过制定职业规划，你能够明确未来的职业目标、认清自身的优劣势，进而制定切实可行的计划，以便顺利踏上职业发展的道路。而制作一份精美的职业生涯规划PPT，能有效帮助你在面试、职业规划报…...

编程日记 2024/11/12 6:56:19

【Java多线程】线程安全及解决方案（详解）

目录线程安全问题引入： 线程安全原因如何解决线程安全问题？ （1）synchronized关键字 1)sychronized关键字的特性: 2)可重⼊ synchronized使⽤⽰例 （2）volatile关键字 1）内存可见性和…...

编程日记 2024/11/12 6:52:13

【前端基础】Javascript取整函数以及向零取整方式

向零取整方式在JavaScript中，有多种方式可以对数字进行取整操作，即去掉小数部分，只保留整数部分。其中，向0取整（也称为截断小数部分）的方式有以下几种常用的方法： 使用 Math.trunc()&#xff…...

编程日记 2024/11/12 6:51:12

禅道与Jira与Ones对比：哪个更适合你的项目管理需求？

一、项目管理工具的重要性在当今复杂的项目环境中，选择合适的项目管理工具对项目成功至关重要。随着项目规模的不断扩大、涉及领域的日益广泛以及团队成员的分散性，传统的项目管理方式已经难以满足需求。项目管理工具可以帮助团队更好地规划和组织项…...

编程日记 2024/11/12 6:50:11

Linux I/O编程：I/O多路复用与异步 I/O对比

文章目录 0. 引言1. I/O 模型简介1.1 阻塞 I/O（Blocking I/O）1.2 非阻塞 I/O（Non-Blocking I/O）1.3 信号驱动式 I/O（Signal-Driven I/O）1.4 多路复用 I/O（I/O Multiplexing）1.5 异步…...

编程日记 2024/11/12 6:46:08

SQLMetric Spark Plan 包含以下基本方法， /*** return All metrics containing metrics of this SparkPlan.*/def metrics: Map[String, SQLMetric] Map.empty/*** return [[SQLMetric]] for the name.*/def longMetric(name: String): SQLMetric metrics(name)…...

编程日记 2024/11/12 6:44:06

基于YOLOv5模型的火焰识别系统

大家好，YOLOv5模型能够快速准确地检测到火灾火焰，在火灾初期甚至是刚刚出现火苗时就发出警报。这为及时采取灭火措施争取了宝贵的时间，极大地降低了火灾造成的损失。系统可以对特定区域进行持续实时监测，无论白天还是夜晚&#xf…...

编程日记 2024/11/12 6:42:04

多模态AI：开启人工智能的新纪元

在人工智能的璀璨星河中，多模态AI技术正逐渐成为一颗耀眼的明星。随着科技的飞速发展，AI技术正以前所未有的速度迈向新的高峰，其中多模态AI的兴起尤为引人注目。本文将深入探讨多模态AI的定义、技术原理、应用场景以及未来发展趋势。 ps.图…...

编程日记 2024/11/12 6:40:03

麒麟信安支撑2024年电力监控系统网络安全加固培训护航电力网络安全！

在网络安全形势日益复杂的今天，电力行业的网络安全尤为重要。为提升电力监控系统网络安全运维人员的专业技能，由国调中心网安处精心策划，国家电网技术学院组织开展的“2024年电力监控系统网络安全加固培训”于近日圆满结束。麒麟信安作为重要…...

编程日记 2024/11/12 6:39:02

横表和纵表中的横表

图1 图2...

编程日记 2024/11/12 6:37:00

7个常用的JavaScript数组操作进阶用法

文章目录 1、查找数组中的最大值方法一：使用 Math.max 和展开运算符方法二:使用 for 循环逐一比较 2、查找数组中的第二大值方法一：排序后取第二大值方法二：遍历找到第二大值 3、去除数组中的重复项4、合并两个有序数组并保持有序5、旋转数组…...

编程日记 2024/11/12 6:32:55

Spark的Standalone集群环境安装

一.简介与MR对比： 概念MRYARNSpark Standalone主节点ResourceManagerMaster从节点NodeManagerWorker计算进程MapTask，ReduceTaskExecutor 架构：普通分布式主从架构主：Master：管理节点：管理从节点、接…...

编程日记 2024/11/12 6:29:52

Android Glide动态apply centerCropTransform(),transition withCrossFade动画,Kotlin

Android Glide动态apply centerCropTransform(),transition withCrossFade动画,Kotlin import android.graphics.Bitmap import android.os.Bundle import android.widget.ImageView import androidx.appcompat.app.AppCompatActivity import com.bumptech.glide.Glide import …...

编程日记 2024/11/12 6:28:51

一、手机号码流量统计案例

（一）需求分析

（二）代码实现

（三）代码解析

二、合同数据分析案例

（一）需求分析

（二）代码实现

（三）代码解析

三、日志分析案例

（一）需求分析

（二）jieba分词器

安装一下

使用

测试

（四）代码实现

（三）代码解析

四、常见错误及解决方法

五、总结

相关文章：