当前位置：首页 > news >正文

spark读取parquet文件

news 2026/2/8 21:03:11

源码

parquet文件读取的入口是FileSourceScanExec，用parquet文件生成对应的RDD

非bucket文件所以走createNonBucketedReadRDD方法。

createNonBucketedReadRDD

过程：

确定文件分割参数
1. openCostInBytes=4M 相关参数spark.sql.files.openCostInBytes=4M
2. maxSplitBytes<=128M 相关参数spark.sql.files.maxPartitionBytes=128M，根据maxSplitBytes计算得来
3. logInfo打印的日志可以用于排查参数
切分文件
1. splitFiles进行文件切分，按照maxSplitBytes将大文件切分
切分后文件根据大小进行倒排，为了方便后面合并
合并partition
1. getFilePartitions 将小文件合并到一个partition
生成RDD

maxSplitBytes

defaultMaxSplitBytes 最大分区大小=spark.sql.files.maxPartitionBytes=128M
openCostInBytes 打开文件的代价默认4M
defaultParallelism 并行度conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)) 默认是core的总和，最小为2
totalBytes 文件总大小（单个文件大小需要加上openCostInBytes）
bytesPerCore 单个core分配的文件大小

最后Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))

splitFiles

0L until file.getLen by maxSplitBytes按maxSplitBytes进行文件拆分

getFilePartitions

currentSize += file.length + openCostInBytes计算文件大小的时候需要加上openCostInBytes

计算示例

parquet文件是9,905,218b，并行度是2

defaultMaxSplitBytes = 128MB

openCostInBytes = 4MB

defaultParallelism = max(2, 2) = 2

totalBytes = 9,905,218b+ 1 * 4MB = 14,099,522B

bytesPerCore = 14,099,522B / 2 = 7,049,761B

maxSplitBytes = 7,049,761B = Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))

文件分成0-7049761 和 7049761-9905218两部分

从下面日志可以知道计算正确。

参考https://developer.aliyun.com/article/985412?utm_content=m_1000349867

spark读取parquet文件

源码 parquet文件读取的入口是FileSourceScanExec，用parquet文件生成对应的RDD 非bucket文件所以走createNonBucketedReadRDD方法。 createNonBucketedReadRDD 过程： 确定文件分割参数 openCostInBytes4M 相关参数spark.sql.files.openCostInBytes4M…...

编程日记 2024/10/27 5:41:42

redis详细教程（1.String类型）

Redis 的 String 类型内部使用了一种叫做 SDS（Simple Dynamic String）的结构。SDS 的设计比传统的 C 语言字符串更加高效和安全，主要特点如下： 头部信息：SDS 的头部包含了一些元数据，比如字符串的长度、剩…...

编程日记 2024/10/27 5:39:41

用友U8接口-库存管理(7)

概括本文的操作需要正确部署U8API主要讲述库存管理接口的使用，以产成品入库单作为说明，其他单据接口都是大同小异的！许多时候先在ERP做个单，然后仿造ERP单据参数，构造接口JSON参数是不错的做法。获取Token访问令牌…...

编程日记 2024/10/27 5:38:40

Spring Boot HikariCP数据库连接池入门

1. 概述在我们的项目中，数据库连接池基本是必不可少的组件。在目前数据库连接池的选型中，主要是 Druid ，为监控而生的数据库连接池。HikariCP ，号称性能最好的数据库连接池。至于怎么选择，两者都非常优秀&#x…...

编程日记 2024/10/27 5:37:39

Docker快速上手教程：MacOS系统【安装/配置/使用/原理】全链路速通

背景最近换了个 Macbook Air M3, 写个人项目需要用到 Docker，配置过程有一点点坎坷，还是得记录下避免重蹈覆辙。什么。为什么是买 Air 而不是 Pro Max? 因为码农的钱也是钱啊。这里我不会先讲原理，我认为工程的事情都是先看到现象，有了概念的轮廓，才应该去研究原理，…...

编程日记 2024/10/27 5:36:38

【JavaSE】认识String类，了解，进阶到熟练掌握

#1024程序员节 | 征文# 下面就让博主带领大家一起解决心中关于String类的疑问吧~~~ 1.字符串构造： 第一种和第二种（有一定的区别，在常量池上） public static void main(String[] args) { // 使用常量串构造 String s1 "h…...

编程日记 2024/10/27 5:34:36

vue3 vben-admin 窗口大小更改后 echarts尺寸变为 100px的问题

问题描述: 当切换切换tab 并且窗口尺寸更改时, echarts的尺寸因为父元素为 0, 自动设置为 100px 网上查找资料的结果: 1,使用vue 中的 v-if 来重新设置dom树缺点: 频繁操作dom树结构, 极其消耗性能优点: 自适应展示 2,设置固定宽高缺点: 不能自适应展示, 无需消耗额外…...

编程日记 2024/10/27 5:33:35

Web应用框架-Django应用基础（3）-Jinja2

1.创建姓名模板 username里的数据发生改变，页面中渲染的数据发生改变，该效果称为动态数据 #hello/views:def hello_user(request):username000html <!DOCTYPE html><html lang"en"><head><meta charset"UTF-8&quo…...

编程日记 2024/10/27 5:32:34

js(深浅拷贝，节流防抖，this指向，改变this指向的方法)

一、深浅拷贝 1.基本数据类型和引用数据类型的区别： 1. 基本数据类型的变量存储的是值引用数据类型的变量存储的是地址值 2. 基本数据类型的变量存储的值在栈内存引用数据类型的变量存储的值在堆内存 3. 基本数据类型的变量存储的是值和值之间相互不影响引用数据…...

编程日记 2024/10/27 5:31:33

香橙派5(RK3588)使用npu加速yolov5推理的部署过程

香橙派5使用npu加速yolov5推理的部署过程硬件环境部署过程模型训练(x86主机) 在带nvidia显卡(最好)的主机上进行yolo的配置与训练, 获取最终的best.pt模型文件, 详见另一篇文档模型转换(x86主机) 下载airockchip提供的yolov5(从pt到onnx) 一定要下这个版本的yolov5, …...

编程日记 2024/10/27 5:28:28

基于MWORKS的蓝桥杯「智能装备数字化建模大赛」正式发布，首期培训本周六开启

为强化装备数字化人才培养，推动装备数字化技术快速发展，第十六届蓝桥杯全国软件和信息技术专业人才大赛设置专项赛暨智能装备数字化建模大赛，使用MWORKS作为参赛软件。关于参赛软件授权、技术支持与培训、教材与案例开发支持、成果转化培训及…...

编程日记 2024/10/27 5:26:24

021、深入解析前端请求拦截器

目录深入解析前端请求拦截器： 1. 引言 2. 核心实现与基础概念 2.1 基础拦截器实现 2.2 响应拦截器配置 3. 实际应用场景 3.1 完整的用户认证系统 3.2 文件上传系统 3.3 API请求缓存系统 3.4 请求重试机制 3.5 国际化处理 4. 性能优化实践 4.1 请求合并…...

编程日记 2024/10/27 5:25:22

windows中的tracert命令

在 Windows 操作系统中，tracert（全称 Trace Route）是一个用于确定 IP 数据包到达目标主机所经过的路径的命令行工具。它通过发送具有不同生存时间（TTL）的 ICMP（Internet Control Message Protocol&#xff…...

编程日记 2024/10/27 5:24:21

【玩儿】Java 数字炸弹小游戏（控制台版）+ IO 数据存储

Java 数字炸弹小游戏（控制台版） IO 数据存储数字炸弹小游戏概述功能实现实体类User.java 玩家信息实体类GameRecode.java 游戏记录实体类自定义异常AccountLockedException.java 账号锁定异常PasswordErrorException.java 密码错误异常UnknowAccountEx…...

编程日记 2024/10/27 5:22:20

今日头条躺赚流量：自动化新闻爬取和改写脚本

构建一个自动化的新闻爬取和改写系统，实现热点新闻的自动整理和发布，需要分为以下几个模块：新闻爬取、信息解析与抽取、内容改写、自动发布。以下是每个模块的详细实现步骤和代码示例： 1. 新闻爬取模块目标：从新闻网…...

编程日记 2024/10/27 5:21:19

日常实习与暑期实习详解

日常实习与暑期实习详解问了下正在实习的同学，发现天要塌了–才知道日常实习是没有笔试的 1. 实习的定义 1.1 日常实习日常实习是企业长期招聘的实习岗位，通常没有时间限制。企业会在需要时进行招聘，招聘对象包括在校大学生和大一、大二的…...

编程日记 2024/10/27 5:19:16

Git的原理和使用（六）

本文主要讲解企业级开发模型 1. 引入交付软件的流程：开发->测试->发布上线上面三个过程可以详细划分为一下过程：规划、编码、构建、测试、发布、部署和维护最初，程序⽐较简单，⼯作量不⼤，程序员⼀个⼈可以完…...

编程日记 2024/10/27 5:18:14

Elasticsearch 中的高效按位匹配

作者：来自 Elastic Alexander Marquardt 探索在 Elasticsearch 中编码和匹配二进制数据的六种方法，包括术语编码（我喜欢的方法）、布尔编码、稀疏位位置编码、具有精确匹配的整数编码、具有脚本按位匹配的整数编码以及使用 ESQL 进…...

编程日记 2024/10/27 5:16:12

LSTM，全称长短期记忆网络（Long Short-Term Memory），是一种特殊的循环神经网络（RNN）结构

关于lstm超参数设置，每个参数都有合适的范围，超过这个范围则lstm训练不再有效，loss不变，acc也不变 LSTM，全称长短期记忆网络（Long Short-Term Memory），是一种特殊的循环神经网络&am…...

编程日记 2024/10/27 5:14:10

导出问题处理

问题描述测试出来一个问题，使用地市的角色，导出数据然后超过了20w的数据，提示报错，我还以为是偶然的问题，然后是发现是普遍的问题，本地环境复现了，然后是，这个功能是三套角色&…...

编程日记 2024/10/27 5:13:09

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

编程新知 2026/2/7 23:18:39

DAY 47

三、通道注意力 3.1 通道注意力的定义 # 新增：通道注意力模块（SE模块） class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...

编程新知 2026/2/4 23:29:22

【JVM】- 内存结构

引言 JVM：Java Virtual Machine 定义：Java虚拟机，Java二进制字节码的运行环境好处： 一次编写，到处运行自动内存管理，垃圾回收的功能数组下标越界检查（会抛异常，不会覆盖到其他代码…...

编程新知 2026/1/30 13:40:43

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块，用户不点击提交按钮，只要输入框失去焦点，就会提前提示验证码是否正确。一，模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

编程新知 2026/2/5 17:51:52

ElasticSearch搜索引擎之倒排索引及其底层算法

文章目录一、搜索引擎1、什么是搜索引擎？2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长，文件大。2.其次，树深，IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...

编程新知 2026/1/30 17:10:19

Ascend NPU上适配Step-Audio模型

1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤）&#x…...

编程新知 2026/1/31 4:37:39

零基础设计模式——行为型模式 - 责任链模式

第四部分：行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习！行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。核心思想：使多个对象都有机会处…...

编程新知 2026/1/31 9:33:18

多模态大语言模型arxiv论文略读（108）

CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题：CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者：Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...

编程新知 2026/2/1 6:11:51

Java面试专项一-准备篇

一、企业简历筛选规则一般企业的简历筛选流程：首先由HR先筛选一部分简历后，在将简历给到对应的项目负责人后再进行下一步的操作。 HR如何筛选简历例如：Boss直聘（招聘方平台） 直接按照条件进行筛选例如&#xff1a…...

编程新知 2026/1/26 19:10:48

Fabric V2.5 通用溯源系统——增加图片上传与下载功能

fabric-trace项目在发布一年后，部署量已突破1000次，为支持更多场景，现新增支持图片信息上链，本文对图片上传、下载功能代码进行梳理，包含智能合约、后端、前端部分。一、智能合约修改为了增加图片信息上链溯源，需要对底层数据结构进行修改，在此对智能合约中的农产品数…...

编程新知 2025/9/27 12:03:43

源码

createNonBucketedReadRDD

maxSplitBytes

splitFiles

getFilePartitions

计算示例

相关文章：