当前位置：首页 > news >正文

Python学习从0到1 day27 第三阶段 Spark ③ 数据计算 Ⅱ

news 2026/2/8 14:03:59

目录

一、Filter方法

功能

语法

代码

总结

filter算子

二、distinct方法

功能

语法

代码

总结

distinct算子

三、SortBy方法

功能

语法

代码

总结

sortBy算子

四、数据计算练习

需求：

解答

总结

去重函数：

过滤函数：

转换函数：

排序函数：

于是我驻足，享受无法复刻的一些瞬间

—— 24.11.9

一、Filter方法

功能

过滤想要的数据进行保留

语法

基于filter中我们传入的函数，决定rdd对象中哪个保留哪个丢弃

代码

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 准备一个RDD
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
# 对RDD的数据进行过滤，保留奇数，去除偶数# 方法1：
def Retain(data):if data % 2 == 1:return Trueelse:return False# 对RDD数据进行过滤，留下奇数
rdd1 = rdd.filter(Retain)
print(rdd1.collect())# 方法2：
rdd2 = rdd.filter(lambda num:num % 2 == 1)
print(rdd2.collect())

总结

filter算子

接受一个处理函数，可用lambda匿名函数快速编写

函数对RDD数据逐个处理，得到True的保留到返回值的RDD中

二、distinct方法

功能

对RDD数据进行去重，返回新RDD

语法

rdd.distinct()    # 无需传参

代码

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 准备一个RDD
rdd = sc.parallelize([1,3,3,4,4,4,7,8,9,9])
rdd = rdd.distinct()
print(rdd.collect())

总结

distinct算子

完成对Rdd内数据的去重操作

三、SortBy方法

功能

对RDD数据进行排序，基于指定的排序依据

语法

rdd.sortBy()

rdd.sortBy(func, ascending = False, numPartitions = 1)
# func:(T) - > U: 告知按照rdd中的哪个数据进行排序，比如 lambda x:x[1] 表示按照rdd中的第二列元素进行排序
# ascending: True升序 False 降序
# numPartitions: 用多少分区排序

代码

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 读取数据文件
rdd = sc.textFile("D:/2LFE\Desktop\WordCount.txt")
# 取出全部单词
word_rdd = rdd.flatMap(lambda x:x.split(" "))
print(word_rdd.collect())# 将所有单词都转换成二元元组，单词为key，value设置为1
word_with_one_rdd = word_rdd.map(lambda word:(word,1))
# 分组并求和
result_rdd = word_with_one_rdd.reduceByKey(lambda a,b:a+b)
# 对结果进行排序
result_rdd = result_rdd.sortBy(lambda x:x[1],ascending = False,numPartitions = 1)
# 打印并输出结果
print(result_rdd.collect())

总结

sortBy算子

接收一个处理函数，可用lambda快速编写

函数表示用来决定排序的依据

可以控制升序或降序

全局排序需要设置分区数为1

四、数据计算练习

需求：

复制以上内容到文件中，使用Spark读取文件进行计算：

① 各个城市销售额排名，从大到小

② 全部城市，有哪些商品类别在售卖

③ 北京市有哪些商品类别在售卖

解答

from pyspark import SparkConf,SparkContext
import json# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 读取文件得到RDD
file_rdd = sc.textFile("E:\python.learning\pyspark\sortBy.txt")# 取出一个个JSON字符串
json_str_rdd = file_rdd.flatMap(lambda x:x.split("|"))# 将一个JSON字符串转换为字典 json模块
dict_rdd = json_str_rdd.map(lambda x:json.loads(x))# 取出城市和销售额数据：（城市，销售额）
city_with_money_rdd = dict_rdd.map(lambda x:(x['areaName'],int(x['money'])))# 按销售额对结果进行聚合然后根据销售额降序排序
city_result_rdd = city_with_money_rdd.reduceByKey(lambda x,y:x+y)
res1 = city_result_rdd.sortBy(lambda x:x[1],ascending = False,numPartitions = 1)
print("需求1结果：" , res1.collect())# 需求2 对全部商品进行去重
category_rdd = dict_rdd.map(lambda x: x['category']).distinct()
print("需求2结果：",category_rdd.collect())# 需求3 过滤北京市的数据
BJ_data_rdd = dict_rdd.filter(lambda x:x['areaName'] == '北京')
print("需求3结果：",BJ_data_rdd.collect())# 需求4 对北京市的商品类别进行商品类别去重
res2 = BJ_data_rdd.map(lambda x:x['category']).distinct()
print("需求4结果：",res2.collect())

总结

去重函数：

在 PySpark 框架下，distinct函数用于返回一个新的 RDD，其中包含原始 RDD 中的不同元素。

过滤函数：

filter函数用于从弹性分布式数据集（RDD）中筛选出满足特定条件的元素，返回一个新的 RDD 只包含满足条件的元素。

转换函数：

在 PySpark 中，map函数是对弹性分布式数据集（RDD）进行转换操作的一种重要方法。map函数对 RDD 中的每个元素应用一个函数，返回一个新的 RDD，其中包含应用函数后的结果。

排序函数：

sortBy 函数用于对RDD 中的元素进行排序，它接受一个函数或者一个字段名作为参数，根据这个参数来确定排序的依据。

Python学习从0到1 day27 第三阶段 Spark ③ 数据计算 Ⅱ

目录一、Filter方法功能语法代码总结 filter算子二、distinct方法功能语法代码总结 distinct算子三、SortBy方法功能语法代码总结 sortBy算子四、数据计算练习需求： 解答总结去重函数： 过滤函数： 转换函数： 排…...

编程日记 2024/11/10 14:03:29

腾讯混元3D模型Hunyuan3D-1.0部署与推理优化指南

腾讯混元3D模型Hunyuan3D-1.0部署与推理优化指南摘要： 本文将详细介绍如何部署腾讯混元3D模型Hunyuan3D-1.0，并针对不同硬件配置提供优化的推理方案。我们将探讨如何在有限的GPU内存下，通过调整配置来优化模型的推理性能。 1. 项目概览腾…...

编程日记 2024/11/10 14:02:28

基于 PyTorch 从零手搓一个GPT Transformer 对话大模型

一、从零手实现 GPT Transformer 模型架构近年来，大模型的发展势头迅猛，成为了人工智能领域的研究热点。大模型以其强大的语言理解和生成能力，在自然语言处理、机器翻译、文本生成等多个领域取得了显著的成果。但这些都离不开其背后的核心架…...

编程日记 2024/11/10 14:01:27

IDEA构建JavaWeb项目，并通过Tomcat成功运行

目录一、Tomcat简介二、Tomcat安装步骤 1.选择分支下载 2.点击下载zip安装包 3.解压到没有中文、空格和特殊字符的目录下 4.双击bin目录下的startup.bat脚本启动Tomcat 5.浏览器访问Tomcat 6.关闭Tomcat服务器三、Tomcat目录介绍四、WEB项目的标准结构五、WEB…...

编程日记 2024/11/10 13:58:23

Mac解决 zsh: command not found: ll

Mac解决 zsh: command not found: ll 文章目录 Mac解决 zsh: command not found: ll解决方法解决方法 1.打开bash_profile 配置文件vim ~/.bash_profile2.在文件中添加配置：alias llls -alF键盘按下 I 键进入编辑模式3. alias llls -alF添加完配置后，按…...

编程日记 2024/11/10 13:57:22

库打包工具 rollup

库打包工具 rollup 摘要 **概念：**rollup是一个模块化的打包工具注：实际应用中，rollup更多是一个库打包工具与Webpack的区别： 文件处理： rollup 更多专注于 JS 代码，并针对 ES Module 进行打包webpa…...

编程日记 2024/11/10 13:53:19

unplugin-vue-components 库作用

一、基本概念与用途 1. 自动导入 Vue 组件 unplugin - vue - components是一个用于 Vue 项目的插件，主要功能是自动导入组件，从而减少在 Vue 组件中手动导入其他组件的繁琐过程。在大型 Vue 项目中，往往会有许多自定义组件或者第三方组件…...

编程日记 2024/11/10 13:50:16

LinkedList和单双链表。

java中提供了双向链表的动态数据结构 --- LinkedList，它同时也实现了List接口，可以当作普通的列表来使用。也可以自定义实现链表。单向链表：一个节点本节点数据下个节点地址给定两个有序链表的头指针head1和head2，打印两个链表…...

编程日记 2024/11/10 13:49:15

AI与OCR：数字档案馆图像扫描与文字识别技术实现与项目案例

文末有免费工具可在线体验，或者网络搜索关键词“思通开源AI能力平台” 一、扫描与图像预处理技术实现过程在纸质档案的数字化过程中，首先需要使用高精度扫描仪对纸质文档进行扫描，生成高清的数字图像。这一步骤是整个OCR流程的基础&#xf…...

编程日记 2024/11/10 13:48:14

Spring boot 读模块项目升级为spring cloud 项目步骤以及问题

1.结构说明 bean 模块 ，public 模块， client 模块， erp模块，system 主模块。 2.环境说明以及pom 原本环境新环境 mysql 5.7 -------------- mysql 8.0 maven 3.9.6 jdk 8 -----------…...

编程日记 2024/11/10 13:47:13

时序数据库之influxdb和倒排索引以及LSM-TREE

一、时序数据库的特点 1、时序数据库用作打点，用来做监控使用，属于写多读少的场景，而且由于时间不可逆，几乎不可能出现更新的操作。而且监控数据一般只会查询最近几分钟数据，冷热数据查询频率非常明显。因此非常贴合ES…...

编程日记 2024/11/10 13:45:11

如何避免消息的重复消费问题？（消息消费时的幂等性）

如何避免消息的重复消费问题 1、消息的幂等性1.1、概念1.2、产生业务场景 2、全局唯一IDRedis解决消息幂等性问题2.1、application.yml配置文件2.2、生产者发送消息2.3、消费者接收消息2.4、pom.xml引入依赖2.5、RabbitConfig配置类2.6、启动类2.7、订单对象2.8、测试 1、消息…...

编程日记 2024/11/10 13:43:08

【Java SE】类与对象

现实世界中，随处可见的一个事物实体就是对象，而类就是同一类事物（或对象）的统称，由一个类构造对象的过程称为创建这个类的一个实例（instance），即： 类（class&…...

编程日记 2024/11/10 13:42:07

基于springboot的公益服务平台的设计与实现

文章目录项目介绍主要功能截图：部分代码展示设计总结项目获取方式🍅 作者主页：超级无敌暴龙战士塔塔开 🍅 简介：Java领域优质创作者🏆、简历模板、学习资料、面试题库【关注我，都给你】 🍅文末获取源码联系🍅 项目介绍基于springboot的公益服务平台的设计与实…...

编程日记 2024/11/10 13:41:06

Tomcat(6) 什么是Servlet容器？

Servlet容器是Java EE技术中的一个关键组件，它负责管理和执行Servlet。Servlet容器提供了运行时环境，使得Servlet能够接收和响应来自客户端的HTTP请求。以下是Servlet容器的详细解释，以及一些相关的代码示例。 Servlet容器的主要功能加载和…...

编程日记 2024/11/10 13:35:59

用js去除变量里的html标签

要用 JavaScript 去除字符串中的 HTML 标签，你可以使用正则表达式。以下是一个简单的示例代码： function removeHTMLTags(str) {return str.replace(/<[^>]*>/g, ); }// 示例 var str <p>This is <b>bold</b> text with <…...

编程日记 2024/11/10 13:29:53

Vue3+element-plus摘要

1.如果自己电脑vue版本是vue2版本，下面将详细介绍如何在vue2版本基础上继续安装 vue3版本且不会影响vue2版本的使用 1-1 在c盘或者别的盘建一个文件夹vue3 1-2 在这个文件夹里使用WINR 打开终端输入命令 npm install vue/cli 安装完即可 1-3 然后进入此文件夹中的n…...

编程日记 2024/11/10 13:28:52

Android Studio 将项目打包成apk文件

第一步：选择Build -> Generate Signed APK 会出现： 我们选择 Create new… 然后选择你要存放密钥的地方点击ok之后，则选择好了文件，并生成了jks文件了。点击ok之后， 会出现： 选择release&#xf…...

编程日记 2024/11/10 13:25:47

贪心算法day2（最长递增子序列）

目录 1.最长递增子序列方法一：动态规划方法二：贪心二分查找 1.最长递增子序列链接：. - 力扣（LeetCode） 方法一：动态规划思路：我们定义dp[i]为最长递增子序列，那么dp[j]就是…...

编程日记 2024/11/10 13:24:45

arcgis pro 学习笔记

二维三维集合在一起，与arcgis不同一、首次使用，几个基本设置 1.选项——常规里面设置自动保存时间 2.新建工程文件，会自动加载地图，可以在选项里面设置为无，以提高启动效率。 3.设置缓存位置，可勾选每次…...

编程日记 2024/11/10 13:23:44

TDengine 快速体验（Docker 镜像方式）

简介 TDengine 可以通过安装包、Docker 镜像及云服务快速体验 TDengine 的功能，本节首先介绍如何通过 Docker 快速体验 TDengine，然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker，请使用安装包的方式快…...

编程新知 2026/2/3 7:43:45

从WWDC看苹果产品发展的规律

WWDC 是苹果公司一年一度面向全球开发者的盛会，其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具，对过去十年 WWDC 主题演讲内容进行了系统化分析，形成了这份…...

编程新知 2026/2/2 21:52:33

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

一、属性动画概述NETX 作用：实现组件通用属性的渐变过渡效果，提升用户体验。支持属性：width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项： 布局类属性（如宽高）变化时&#…...

编程新知 2026/1/28 21:15:38

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 （忘了有没有这步了估计有） 刷机程序和镜像就不提供了。要刷的时…...

编程新知 2026/2/6 20:07:35

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48