当前位置：首页 > news >正文

【大数据学习 | Spark-SQL】SparkSQL读写数据

news 2026/2/8 12:46:53

我们使用sparksql进行编程，编程的过程我们需要创建dataframe对象，这个对象的创建方式我们是先创建RDD然后再转换rdd变成为DataFrame对象。

但是sparksql给大家提供了多种便捷读取数据的方式。

//原始读取数据方式
sc.textFile().toRDD
sqlSc.createDataFrame(rdd,schema)
//更便捷的使用方式
sqlSc.read.text|orc|parquet|jdbc|csv|json
df.write.text|orc|parquet|jdbc|csv|json

write写出存储数据的时候也是文件夹的，而且文件夹不能存在。

csv是一个介于文本和excel之间的一种格式，如果是文本打开用逗号分隔的。
text文本普通文本，但是这个文本必须只能保存一列内容。

以上两个文本都是只有内容的，没有列的。

json是一种字符串结构，本质就是字符串，但是存在kv，例子 {"name":"zhangsan","age":20}

多平台解析方便，带有格式信息。

orc格式一个列式存储格式，hive专有的。
parquet列式存储，顶级项目

以上都是列式存储问题，优点(1.列式存储，检索效率高，防止冗余查询 2.带有汇总信息，查询特别快 3.带有轻量级索引，可以跳过大部分数据进行检索)，他们都是二进制文件，带有格式信息。

jdbc 方式，它是一种协议，只要符合jdbc规范的服务都可以连接，mysql,oracle,hive,sparksql

整体代码：

package com.hainiu.sparkimport org.apache.spark.sql.SQLContext
import org.apache.spark.sql.expressions.Window
import org.apache.spark.{SparkConf, SparkContext}import java.util.Propertiesobject TestMovieWithSql {def main(args: Array[String]): Unit = {//??movie???//1.id  middle=name  last=typeval conf = new SparkConf()conf.setAppName("movie")conf.setMaster("local[*]")conf.set("spark.shuffle.partitions","20")val sc = new SparkContext(conf)val sqlSc = new SQLContext(sc)import sqlSc.implicits._//deal dataval df = sc.textFile("data/movies.txt").flatMap(t => {val strs = t.split(",")val mid = strs(0)val types = strs.reverse.headval name = strs.tail.reverse.tail.reverse.mkString(" ")types.split("\\|").map((mid, name, _))}).toDF("mid", "mname", "type")df.limit(1).show()val df1 = sc.textFile("data/ratings.txt").map(t=>{val strs = t.split(",")(strs(0),strs(1),strs(2).toDouble)}).toDF("userid","mid","score")df1.limit(1).show()import org.apache.spark.sql.functions._val df11 = df.join(df1, "mid").groupBy("userid", "type").agg(count("userid").as("cnt")).withColumn("rn", row_number().over(Window.partitionBy("userid").orderBy($"cnt".desc))).where("rn = 1").select("userid", "type")val df22 = df.join(df1, "mid").groupBy("type", "mname").agg(avg("score").as("avg")).withColumn("rn", row_number().over(Window.partitionBy("type").orderBy($"avg".desc))).where("rn<4").select("type", "mname")val df33 = df11.join(df22, "type")//spark3.1.2?? spark2.x//    df33.write.csv()df33.write.format("csv").save("data/csv")//    df33.write.
//      csv("data/csv")
//    df33.write.json("data/json")//    df33.write.parquet("data/parquet")
//    df33.write.orc("data/orc")
//    val pro = new Properties()
//    pro.put("user","root")
//    pro.put("password","hainiu")
//    df33.write.jdbc("jdbc:mysql://11.99.173.24:3306/hainiu","movie",pro)}
}

为了简化存储的计算方式：

package com.hainiu.sparkimport org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}object TestSink {def main(args: Array[String]): Unit = {val conf = new SparkConf()conf.setAppName("test sink")conf.setMaster("local[*]")val sc = new SparkContext(conf)val sqlSc = new SQLContext(sc)import sqlSc.implicits._import org.apache.spark.sql.functions._val df = sc.textFile("data/a.txt").map(t=>{val strs = t.split(" ")(strs(0),strs(1),strs(2),strs(3))}).toDF("id","name","age","gender").withColumn("all",concat_ws(" ",$"id",$"name",$"age",$"gender")).select("all")
//    df.write.csv("data/csv")
//    df.write.format("org.apache.spark.sql.execution.datasources.v2.csv.CSVDataSourceV2")
//      .save("data/csv")
//    df.write.parquet("data/parquet")
//    df.write.format("org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2")
//      .save("data/parquet")
//    df.write.format("org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2")
//      .save("data/json")df.write.format("org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2").save("data/text")}
}

读取数据代码：

package com.hainiu.sparkimport org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SQLContextimport java.util.Propertiesobject TestReadData {def main(args: Array[String]): Unit = {val conf = new SparkConf()conf.setAppName("movie")conf.setMaster("local[*]")conf.set("spark.shuffle.partitions", "20")val sc = new SparkContext(conf)val sqlSc = new SQLContext(sc)
//    sqlSc.read.text("data/text").show()
//    sqlSc.read.csv("data/csv").show()
//  
//    sqlSc.read.parquet("data/parquet").show()
//    sqlSc.read.json("data/json").show()sqlSc.read.format("org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2").load("data/text").show()sqlSc.read.format("org.apache.spark.sql.execution.datasources.v2.csv.CSVDataSourceV2").load("data/csv").show()sqlSc.read.format("org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2").load("data/json").show()sqlSc.read.format("org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2").load("data/parquet").show()sqlSc.read.orc("data/orc").show()val pro = new Properties()pro.put("user","root")pro.put("password","hainiu")sqlSc.read.jdbc("jdbc:mysql://11.99.173.24:3306/hainiu","movie",pro).show()}
}

【大数据学习 | Spark-SQL】SparkSQL读写数据

我们使用sparksql进行编程，编程的过程我们需要创建dataframe对象，这个对象的创建方式我们是先创建RDD然后再转换rdd变成为DataFrame对象。但是sparksql给大家提供了多种便捷读取数据的方式。 //原始读取数据方式 sc.textFile().toRDD sqlSc.createDat…...

编程日记 2024/11/28 9:33:06

AI赋能公共服务转型升级 | 第十届中国行业互联网大会暨腾讯云TVP行业大使三周年庆典公共服务专场圆满举办！

引言党的二十大报告把“基本公共服务实现均等化”作为 2035 年我国发展的总体目标之一，强调要“健全基本公共服务体系，提高公共服务水平”。AI 作为新质生产力的核心驱动力之一，正在公共服务领域发挥着越来越重要的作用。 2024 年 10 月 2…...

编程日记 2024/11/28 9:30:03

关于按天切割Tomcat的catalina.out日志文件的配置

1、catalina.out 是 Tomcat 的标准输出和标准错误日志，通常输出到 Tomcat 安装目录下的 logs 文件夹中。这个日志文件会记录 Tomcat 启动、停止以及运行过程中产生的所有日志信息。 2、在Apache Tomcat中，日志文件catalina.out默认情况下不会自动按天切割…...

编程日记 2024/11/28 9:29:02

【人工智能】深入解析GPT、BERT与Transformer模型｜从原理到应用的完整教程

在当今人工智能迅猛发展的时代，自然语言处理（NLP）领域涌现出许多强大的模型，其中GPT、BERT与Transformer无疑是最受关注的三大巨头。这些模型不仅在学术界引起了广泛讨论，也在工业界得到了广泛应用。那么，G…...

编程日记 2024/11/28 9:28:01

彻底理解如何保证ElasticSearch和数据库数据一致性问题

一.业务场景举例需求： 一个卖房业务，双十一前一天，维护楼盘的运营人员突然接到合作开发商的通知，需要上线一批热门的楼盘列表，上传完成后，C端小程序支持按楼盘的名称、户型、面积等产品属性全模糊搜索热门…...

编程日记 2024/11/28 9:26:58

2024-2025热门留学趋势

在信息爆炸的时代，留学已成为许多人规划未来、拓宽视野的重要途径。随着全球教育格局的不断变化，留学领域也涌现出一系列新热点和趋势。本文将为您解读2024年最热门的留学话题，并提供实用的准备策略，助您在留学之路上一帆风顺。热…...

编程日记 2024/11/28 9:21:53

寻找视频特效素材的优质网站推荐轻松提升作品魅力

在短视频、影视和广告制作中，视频特效素材已成为提升作品专业感的关键元素。炫酷的光效、震撼的爆炸、动感的粒子效果和流畅的转场特效，都能让作品更具吸引力。那么，视频特效素材去哪里找呢？今天，小编为大家精心挑选了…...

编程日记 2024/11/28 9:18:49

【英特尔IA-32架构软件开发者开发手册第3卷：系统编程指南】2001年版翻译，2-36

文件下载与邀请翻译者学习英特尔开发手册，最好手里这个手册文件。原版是PDF文件。点击下方链接了解下载方法。讲解下载英特尔开发手册的文章翻译英特尔开发手册，会是一件耗时费力的工作。如果有愿意和我一起来做这件事的，那么&#xff…...

编程日记 2024/11/28 9:17:45

信息安全实验--密码学实验工具：CrypTool

1. CrypTool介绍💭 CrypTool 1的开源教育工具，用于密码学研究。通过CrypTool 1，可以实现加密和解密操作，数字签名。CrypTool1和2有很多区别的。 2. CrpyTool下载🔧 在做信息安全实验--密码学相关实验时，发…...

编程日记 2024/11/28 9:16:39

python的class 类创建、方法调用以及属性赋值

题目：购物车系统创建一个简单的购物车系统，要求如下： 定义一个 Product 类，表示商品，包含以下属性和方法： 属性： name：商品名称（字符串） price&#xff1…...

编程日记 2024/11/28 9:15:35

Angular v19 (二)：响应式当红实现signal的详细介绍：它擅长做什么、不能做什么？以及与vue、svelte、react等框架的响应式实现对比

本文紧接着Angular v19 新版本来啦，一起瞧瞧新特性吧！，主要针对它在v18引入了一项全新的响应式技术——Signal，这引起了开发者社区的广泛关注，最新的v19版本推出了更多的signal工具。Signal的加入旨在优化Angular的响应…...

编程日记 2024/11/28 9:14:30

IMX 平台UART驱动情景分析：write篇--从 TTY 层到硬件驱动的写操作流程解析

往期内容本专栏往期内容：Uart子系统 UART串口硬件介绍深入理解TTY体系：设备节点与驱动程序框架详解Linux串口应用编程：从UART到GPS模块及字符设备驱动解UART 子系统：Linux Kernel 4.9.88 中的核心结构体与设计详解IMX 平台UART驱…...

编程日记 2024/11/28 9:13:27

网络安全拟态防御技术

一. 拟态防御拟态现象（Mimic Phenomenon, MP）是指一种生物如果能够在色彩、纹理和形状等特征上模拟另一种生物或环境，从而使一方或双方受益的生态适应现象。按防御行为分类可将其列入基于内生机理的主动防御范畴，又可称之为拟…...

编程日记 2024/11/28 9:11:25

灵活开源低代码平台——Microi吾码（一）

开源低代码平台-Microi吾码-平台简介1. 什么是低代码平台？2. 它能做什么？3. 它的优点是什么？ 平台预览图平台亮点版本区别成功案例源码目录说明Microi吾码 - 系列文档开源低代码平台-Microi吾码-平台简介技术框架：.NET8 Redis …...

编程日记 2024/11/28 9:06:20

一：直接取代码 //frida -U -f com.xingin.xhs -l hook_art.js -o xhsart.log //frida -U -f com.tencent.mobileqq -l hook_art.js -o qqart.logconst STD_STRING_SIZE 3 * Process.pointerSize; class StdString {constructor() {this.handle Memory.alloc(STD_S…...

编程日记 2024/11/28 9:01:15

计算机网络八股整理（二）

计算机网络八股整理（二） 应用层 1：dns的全称了解过吗？ dns全称domain-name-system，翻译过来就是域名系统，是在计算机网络中将域名转换成ip地址的分布式数据库系统； 域名服务器的层级类似一个树…...

编程日记 2024/11/28 9:00:14

强化学习off-policy进化之路(PPO-＞DPO-＞KTO-＞ODPO-＞ORPO-＞simPO)

需要LLM在训练过程中做生成的方法是 On Policy，其余的为Off Policy。 On Policy是包含了反馈机制，Off Policy不包含反馈机制。若进行环境交互的模型与被更新的模型是相同的模型，通常这种更新策略被称为on-policy的策略。on-policy的方法会有…...

编程日记 2024/11/28 8:59:12

Linux 如何创建逻辑卷并使用

一、逻辑卷的介绍生成环境中逻辑卷使用率很高逻辑卷的诞生：如果对磁盘直接使用fdisk分区，那么这中分区，我们叫做Linux的标准分区，Linux的标准分区格式化成文件系统之后，挂载使用，那么一旦文件系统的空间…...

编程日记 2024/11/28 8:57:10

java实现将图片插入word文档

插入图片所用依赖 private static void insertImage(XWPFDocument document, String path) {List<XWPFParagraph> paragraphs document.getParagraphs();for (XWPFParagraph paragraph : paragraphs) {CTP ctp paragraph.getCTP();for (int dwI 0; dwI < ctp.sizeO…...

编程日记 2024/11/28 8:53:06

初识java（3）

大家好，今天我们来讲讲我们的老伙计-变量，在哪一门编程语言中，变量的作用都是不可或缺的，那么下面我们就来详细了解一下java中的变量。一.变量概念在程序中，除了有始终不变的常量外，有些内容可能会经常…...

编程日记 2024/11/28 8:52:05

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明： 想象一下，你正在用eNSP搭建一个虚拟的网络世界，里面有虚拟的路由器、交换机、电脑（PC）等等。这些设备都在你的电脑里面“运行”，它们之间可以互相通信，就像一个封闭的小王国。但是&#…...

编程新知 2026/2/8 4:37:17

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2026/2/1 13:28:03

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上，看到基于小智 AI DIY 玩具的演示，感觉有点意思，想着自己也来试试。如果只是想烧录现成的固件，乐鑫官方除了提供了 Windows 版本的 Flash 下载工具之外，还提供了基于网页版的 ESP LA…...

编程新知 2026/2/3 8:13:35

Matlab | matlab常用命令总结

常用命令一、基础操作与环境二、矩阵与数组操作（核心）三、绘图与可视化四、编程与控制流五、符号计算 (Symbolic Math Toolbox)六、文件与数据 I/O七、常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结，涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

编程新知 2025/8/11 1:05:59

项目部署到Linux上时遇到的错误（Redis，MySQL，无法正确连接，地址占用问题）

Redis无法正确连接在运行jar包时出现了这样的错误查询得知问题核心在于Redis连接失败，具体原因是客户端发送了密码认证请求，但Redis服务器未设置密码 1.为Redis设置密码（匹配客户端配置） 步骤： 1）.修…...

编程新知 2026/2/6 1:29:28

AspectJ 在 Android 中的完整使用指南

一、环境配置（Gradle 7.0 适配） 1. 项目级 build.gradle // 注意：沪江插件已停更，推荐官方兼容方案 buildscript {dependencies {classpath org.aspectj:aspectjtools:1.9.9.1 // AspectJ 工具} } 2. 模块级 build.gradle plu…...

编程新知 2025/7/7 22:33:57

Web 架构之 CDN 加速原理与落地实践

文章目录一、思维导图二、正文内容（一）CDN 基础概念1. 定义2. 组成部分 （二）CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 （三）CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 &#xf…...

编程新知 2025/9/13 16:17:01

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析一、第一轮提问（基础概念问题） 1. 请解释Spring框架的核心容器是什么？它在Spring中起到什么作用？ Spring框架的核心容器是IoC容器&#…...

编程新知 2025/10/4 21:24:40

NXP S32K146 T-Box 携手 SD NAND（贴片式TF卡）：驱动汽车智能革新的黄金组合

在汽车智能化的汹涌浪潮中，车辆不再仅仅是传统的交通工具，而是逐步演变为高度智能的移动终端。这一转变的核心支撑，来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒（T-Box）方案：NXP S32K146 与…...

编程新知 2026/1/24 14:43:35

Web中间件--tomcat学习

Web中间件–tomcat Java虚拟机详解什么是JAVA虚拟机 Java虚拟机是一个抽象的计算机，它可以执行Java字节码。Java虚拟机是Java平台的一部分，Java平台由Java语言、Java API和Java虚拟机组成。Java虚拟机的主要作用是将Java字节码转换为机器代码&#x…...

编程新知 2025/9/13 18:20:34

【大数据学习 | Spark-SQL】SparkSQL读写数据

相关文章：

【大数据学习 | Spark-SQL】SparkSQL读写数据

AI赋能公共服务转型升级 | 第十届中国行业互联网大会暨腾讯云TVP行业大使三周年庆典公共服务专场圆满举办！

关于按天切割Tomcat的catalina.out日志文件的配置

【人工智能】深入解析GPT、BERT与Transformer模型｜从原理到应用的完整教程

彻底理解如何保证ElasticSearch和数据库数据一致性问题

2024-2025热门留学趋势

寻找视频特效素材的优质网站推荐轻松提升作品魅力

【英特尔IA-32架构软件开发者开发手册第3卷：系统编程指南】2001年版翻译，2-36

信息安全实验--密码学实验工具：CrypTool

python的class 类创建、方法调用以及属性赋值

Angular v19 (二)：响应式当红实现signal的详细介绍：它擅长做什么、不能做什么？以及与vue、svelte、react等框架的响应式实现对比

IMX 平台UART驱动情景分析：write篇--从 TTY 层到硬件驱动的写操作流程解析

网络安全拟态防御技术

灵活开源低代码平台——Microi吾码（一）

frida_hook_libart(简单解释)

计算机网络八股整理（二）

强化学习off-policy进化之路(PPO-＞DPO-＞KTO-＞ODPO-＞ORPO-＞simPO)

Linux 如何创建逻辑卷并使用

java实现将图片插入word文档

初识java（3）

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

【第二十一章 SDIO接口(SDIO)】

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

Matlab | matlab常用命令总结

项目部署到Linux上时遇到的错误（Redis，MySQL，无法正确连接，地址占用问题）

AspectJ 在 Android 中的完整使用指南

Web 架构之 CDN 加速原理与落地实践

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

NXP S32K146 T-Box 携手 SD NAND（贴片式TF卡）：驱动汽车智能革新的黄金组合

Web中间件--tomcat学习