当前位置：首页 > news >正文

技术周总结 2024.07.15~07.21周日(Spark性能优化)

news 2025/7/3 3:36:28

文章目录

一、07.19 周五
- 1.1）问题01： spark性能优化
- 1.2）问题02： spark是怎么应用在机器学习领域的
- 1.3）问题03：spark自带工具有哪些？
- 1.4）问题04： spark日志的知识点有哪些
- 1.5) 问题05：spark的监控工具有哪些？
- - 1. Spark Web UI
  - 2. Spark History Server
  - 3. Ganglia
  - 4. Graphite
  - 5. Prometheus and Grafana
  - 6. Third-party Tools
- 1.6）问题06：怎么查询使用的spark版本
二、07.20 周六
- 2.1）问题01：在Spark WebUI中，job详情的DAG Visualization 说的 mapPartitions，WholeStageCodegen,InMemoryTableScan, Exchange, CartesianProduct 都代表什么含义？
- 2.2）问题02： spark webUI的 job 详情中Skipped Stages (10)代表什么？
- 2.3）问题03： spark-doris-connector的源码赏析
- - 2.3.1）解释代码 AbstractDorisRDD
- 2.4）问题04： spark中 driver的角色:
三、07.21 周日
- 3.1）问题01： spark SQL的优化器进行的优化操作有哪些？怎么理解这些操作
- 3.2）问题02：Spark SQL join优化的广播Join, 小表广播，排序合并Join怎么理解？
- - 1. 广播Join（Broadcast Join）
  - - 优点：
    - 缺点：
  - 2. 小表广播（Small Table Broadcast）
  - - 优点：
    - 缺点：
  - 3. 排序合并Join（Sort-Merge Join）
  - - 步骤：
    - 优点：
    - 缺点：
  - 总结
- 3.3）问题03：spark的配置 spark.default.parallelism 和 spark.sql.shuffle.partitions和 spark.sql.autoBroadcastJoinThreshold 怎么理解
- 3.4）问题04：这样类似spark.default.parallelism的配置参数还有哪些？
- 3.5）问题05：怎么把已经得到的spark的事件日志json文件导入并在 spark webUI中解析并可视化展示？
- - 前提条件
  - 步骤
  - 详细步骤解释
  - 注意事项

一、07.19 周五

1.1）问题01： spark性能优化

Apache Spark 性能优化是一个涉及多个层面的过程，旨在提高数据处理速度、减少资源消耗，并确保任务高效执行。以下是一些关键的Spark性能调优策略：

数据倾斜处理：
- 数据倾斜是导致Spark作业运行缓慢的常见原因。可以通过增加spark.sql.shuffle.partitions配置值来增加shuffle阶段的分区数，或者使用repartition或coalesce操作手动调整分区，以均衡数据分布。
- 使用salting技巧对键进行散列，分散热点键。
内存管理：
- 调整spark.executor.memory和spark.driver.memory以适应作业需求，避免内存溢出。
- 通过设置spark.memory.fraction和spark.memory.storageFraction合理分配内存给执行任务和存储。
并行度调整：
- 适当增加任务的并行度（通过spark.default.parallelism配置），可以充分利用集群资源，但需避免过度并行导致资源竞争。
Shuffle优化：
- 使用spark.shuffle.file.buffer增加shuffle文件缓冲区大小，减少磁盘I/O。
- 开启spark.shuffle.compress压缩shuffle数据，减少网络传输负担。
- 考虑使用spark.shuffle.manager配置为sort或tungsten-sort（取决于Spark版本），以利用更高效的排序算法。
序列化优化：
- 使用Kryo序列化代替Java序列化，因为Kryo通常更快且更紧凑。
- 配置需要序列化的类，使用spark.serializer设置为org.apache.spark.serializer.KryoSerializer。
推测执行：
- 开启推测执行(spark.speculation=true)可以加快因数据倾斜导致的慢任务完成，但可能会增加资源消耗。
缓存与持久化：
- 利用persist或cache将频繁访问的数据集存储在内存中或磁盘上，选择合适的存储级别以平衡性能和资源。
动态资源分配：
- 启用动态资源分配(spark.dynamicAllocation.enabled=true)允许Spark根据当前工作负载自动增减executor数量。
JVM与GC调优：
- 适当调整JVM参数，如新生代和老年代的比例，以及GC策略，以减少垃圾回收的开销。
SQL优化：
- 在使用Spark SQL时，优化查询计划，尽量减少shuffle操作，利用DataFrame/Dataset API的优化能力。
监控与日志分析：
- 使用Spark UI监控作业运行情况，识别瓶颈。通过日志分析发现问题，比如特定任务的执行时间过长。

以上策略应结合具体的应用场景和资源限制进行调整和测试，以找到最佳配置。

1.2）问题02： spark是怎么应用在机器学习领域的

Apache Spark 在机器学习领域的应用主要通过其内置的机器学习库——Spark MLlib（Machine Learning Library）实现。以下是Spark在机器学习中的一些关键应用方式：

大规模数据处理：Spark 提供了高效的数据处理能力，能够处理海量数据集，这对于机器学习尤为重要，因为许多机器学习算法需要在大量数据上进行训练才能获得准确的模型。
分布式计算：通过利用分布式计算框架，Spark 可以并行处理数据和计算任务，显著加快训练速度，尤其是在涉及复杂模型和大数据集时。
算法和模型：Spark MLlib 包含多种机器学习算法，包括分类、回归、聚类、协同过滤等，以及特征抽取和转换工具，方便数据科学家和工程师直接应用到问题解决中。
流水线（Pipeline）：Spark 引入了机器学习流水线的概念，使得数据预处理、特征工程、模型训练、评估和预测等步骤能够以模块化的方式组织起来，易于构建、调试和维护复杂的机器学习工作流。
模型评估与选择：提供了模型选择和评估工具，如交叉验证、度量标准（如准确率、召回率、F1分数等），帮助用户比较和选择最佳模型。
高阶API：除了底层的RDD API，Spark还提供了DataFrame和Dataset API，这些高层API更加用户友好，同时也能自动优化执行计划，进一步提升机器学习任务的效率。
交互式探索：结合Spark与诸如Jupyter Notebook的工具，数据科学家可以进行交互式数据分析和模型迭代，快速验证假设。
深度学习集成：虽然Spark本身不直接提供深度学习框架，但它可以与TensorFlow、PyTorch等深度学习库集成，通过Spark的分布式计算能力加速深度学习模型的训练过程。
持续学习与在线预测：Spark Streaming和Structured Streaming支持实时数据处理，使得模型可以在新的数据流入时不断更新，适用于实时预测和在线学习场景。
生产环境部署：Spark MLlib支持模型的保存与加载，便于将训练好的模型部署到生产环境中，进行实时或批处理预测。

综上所述，Spark凭借其强大的数据处理能力和丰富的机器学习工具箱，成为了机器学习领域中处理大规模数据、构建和部署模型的重要平台。

1.3）问题03：spark自带工具有哪些？

Apache Spark 自带了一系列工具和命令行接口，用于管理和执行各种大数据处理任务。以下是一些核心的Spark自带工具：

spark-submit: 用于提交Spark应用程序到Spark集群的命令行工具。用户可以通过它提交用Scala、Java、Python或R编写的Spark作业。
spark-shell: Spark的交互式Shell，提供了编写和执行Spark应用程序的交互环境。它支持Scala、Python（pyspark）和R（SparkR）语言。在shell中可以直接操作RDD、DataFrame和DataSet，非常适合快速原型设计和数据探索。
pyspark: 特别针对Python用户的Spark交互式Shell，提供了Python接口来操作Spark。
sparkR: 为R语言用户提供的Spark接口，允许在R环境中直接使用Spark进行大数据分析。
spark-sql: 用于启动Spark SQL的命令行界面，支持SQL查询和DataFrame操作，也可以用来与Hive集成。
spark-history-server: Spark历史服务器，用于展示已完成的Spark应用程序的运行详情，包括任务执行进度、资源使用情况等，是故障排查和性能分析的重要工具。
spark-webui: Spark的Web用户界面，提供了作业监控、执行阶段详情、资源管理等信息，可通过浏览器访问。
spark-worker: Spark工作节点的守护进程，负责执行由Driver分配的任务。
spark-master: Spark集群的主节点守护进程，负责管理和协调Worker节点及运行中的Spark应用程序。
spark-class: 用于启动Spark各种组件的脚本，如上述提到的shell、历史服务器等。

这些工具共同构成了Spark强大的生态系统，使得开发者和数据工程师能够方便地进行大数据处理、分析、机器学习以及图计算等任务。

1.4）问题04： spark日志的知识点有哪些

Spark日志是理解和调试Spark应用程序运行情况的关键资源，它记录了任务执行过程中的详细信息，包括但不限于任务调度、执行状态、错误信息以及性能指标。以下是关于Spark日志的一些重要知识点：

日志的重要性：
- 故障排查：日志可以帮助识别和定位Spark应用程序执行过程中出现的问题，比如任务失败、数据倾斜、资源不足等。
- 性能分析：通过日志可以分析任务执行时间、资源消耗情况，进而优化应用程序性能。
- 监控：实时日志分析可以提供应用程序运行状况的即时反馈，便于监控和报警设置。
- 审计与合规：日志记录了所有操作，对于安全审计和满足合规要求至关重要。
日志的层次结构：
- Spark日志分为不同层级，包括Driver日志、ApplicationMaster (AM)日志以及Executor日志，每个层级的日志记录了不同方面和位置的信息。
日志的配置：
- Spark日志的配置可以通过Spark配置项（如spark.executor.logs.*、spark.eventLog.*）进行细致调整，包括日志级别（DEBUG、INFO、WARN、ERROR）、日志目录、滚动策略等。
- 可以利用log4j、logback等日志框架进行更细粒度的控制。
日志输出位置：
- 日志可以输出到本地文件系统、HDFS或通过日志聚合系统（如Fluentd、Logstash）收集。
- Spark History Server可以收集和展示已结束应用的历史日志。
日志格式：
- Spark支持多种日志格式，包括传统的文本格式和JSON格式，其中JSON格式便于机器解析和自动化分析。
- Spark 2.x及以后版本的事件日志采用SparK Event Logging，记录了详细的作业执行事件，支持通过Spark History Server或第三方工具进行分析。
日志分析与优化：
- 利用工具（如Spark本身的web UI、Spark History Server）或自定义脚本分析日志，提取关键指标。
- 通过日志可以发现和优化数据倾斜、内存溢出等问题。
推测执行与日志：
- 当推测执行开启时，相同任务的多个实例可能产生额外的日志，需注意区分和解析。
日志压缩与清理：
- 根据集群资源和存储需求，合理设置日志压缩和自动清理策略，避免占用过多存储空间。

掌握这些知识点有助于更好地管理和利用Spark日志，从而提高开发和运维效率。

1.5) 问题05：spark的监控工具有哪些？

Apache Spark 提供了多种监控和管理工具，用于监控 Spark 应用程序的性能和资源使用情况。以下是一些常用的 Spark 监控工具：

1. Spark Web UI

Spark 自带的 Web UI 提供了详细的作业（Job）、阶段（Stage）和任务（Task）信息。可以通过 SparkContext 的 http://<driver>:4040 地址访问。以下是 Web UI 提供的主要信息：

Jobs 页面：显示所有的作业及其状态（成功、失败、运行中）。
Stages 页面：显示每个阶段的详细信息，包括任务数量、输入输出数据量等。
Tasks 页面：显示任务的详细信息，包括运行时间、输入输出数据量、错误信息等。
Storage 页面：显示 RDD 和 DataFrame 的存储信息。
Environment 页面：显示 Spark 的环境信息，包括配置、JVM 属性、类路径等。
Executors 页面：显示每个 Executor 的详细信息，包括内存和磁盘使用情况、任务数量、运行时间等。

2. Spark History Server

Spark History Server 提供了对已经完成的应用程序的监控和管理功能。可以通过保存应用程序的事件日志来查看过去的作业和阶段信息。配置和启动 Spark History Server 的步骤如下：

启用事件日志记录：

spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://path/to/eventLog

启动 History Server：
```
./sbin/start-history-server.sh
```
访问 History Server：
```
http://<host>:18080
```

3. Ganglia

Ganglia 是一个分布式监控系统，可以用于监控 Spark 集群的性能。通过集成 Ganglia，可以收集和可视化集群的 CPU、内存、网络等资源使用情况。

配置步骤：

安装 Ganglia 并配置 Ganglia gmond。
配置 Spark 以使用 Ganglia 进行监控：
```
spark.metrics.conf
```
使用 Ganglia Web 界面查看监控数据。

4. Graphite

Graphite 是一个企业级监控工具，可以收集和存储时间序列数据。通过将 Spark 的监控数据发送到 Graphite，可以进行详细的性能分析和监控。

配置步骤：

安装 Graphite 并配置 Carbon 和 Whisper。
配置 Spark 以使用 Graphite 进行监控：
```
spark.metrics.conf
```
使用 Graphite-Web 或 Grafana 查看监控数据。

5. Prometheus and Grafana

Prometheus 是一个开源的系统监控和警报工具，Grafana 是一个开源的分析和监控平台。通过将 Spark 的监控数据发送到 Prometheus，并使用 Grafana 进行可视化，可以实现强大的监控和分析功能。

配置步骤：

安装 Prometheus 并配置 Prometheus Server。
安装和配置 Grafana。
配置 Spark 以使用 Prometheus 进行监控：
```
spark.metrics.conf
```
使用 Grafana 创建仪表板以可视化 Spark 的监控数据。

6. Third-party Tools

除了以上工具，还有一些第三方工具可以用于监控 Spark 应用程序，如 Dr. Elephant、Cloudera Manager、Ambari 等。这些工具提供了更高级的监控、调优和管理功能，可以更好地支持大型 Spark 集群的管理。

通过以上这些工具，您可以全面监控和管理 Spark 应用程序的性能，及时发现和解决性能瓶颈和资源瓶颈，从而提高应用程序的性能和稳定性。

1.6）问题06：怎么查询使用的spark版本

查询Spark版本有几种常用的方法，具体取决于你是通过什么方式访问或使用Spark的。以下是几种典型场景下的查询方法：

通过Spark Shell：
如果你已经启动了Spark Shell，可以直接在Shell中输入以下命令来查看Spark的版本信息：
```
spark.version
```
按下回车后，Shell会输出当前Spark的版本号。

在Spark应用程序中：
如果你正在编写Spark应用程序（使用Scala、Java、Python等），可以在程序中加入如下代码来获取并打印Spark版本：

Scala/Java:

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().getOrCreate()
println(s"Spark Version: ${spark.version}")

Python (PySpark):

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
print(f"Spark Version: {spark.version}")

命令行查询（Spark Submit或Spark-Shell启动时）：
当你通过命令行使用spark-submit提交应用或者直接启动spark-shell时，在命令中添加--version或者-v选项，如：
```
spark-submit --version
```
或
```
spark-shell -v
```
运行上述命令后，系统会直接输出Spark的版本信息，然后退出。
检查集群管理界面：
如果你的Spark部署在诸如Hadoop YARN、Apache Mesos或Kubernetes等集群管理器上，通常可以通过集群的Web管理界面查看运行的Spark应用及其版本信息。
检查配置文件或安装目录：
在某些情况下，你也可以直接检查Spark的安装目录，特别是在没有运行中的Spark应用时。Spark的版本信息通常包含在解压后的目录名称中，或者你可以在conf/spark-env.sh（或相应环境配置文件）中查找是否有版本相关的注释或设置。但这种方法不如上述方法直接可靠，因为实际运行的版本可能因不同环境变量或配置而有所不同。

请根据你的实际情况选择合适的方法进行查询。

二、07.20 周六

2.1）问题01：在Spark WebUI中，job详情的DAG Visualization 说的 mapPartitions，WholeStageCodegen,InMemoryTableScan, Exchange, CartesianProduct 都代表什么含义？

这些术语主要是在Spark等大数据处理框架中常见的一些概念，它们分别代表了不同的数据处理操作：

mapPartitions：mapPartitions是Spark中的一个转换操作，它可以对RDD中的每个分区进行处理，通常用于执行一些需要在每个分区上进行的操作，比如对分区内的数据进行映射转换。
WholeStageCodegen：WholeStageCodegen是Spark SQL中的一个优化技术，它可以将多个连续的算子合并为一个整体的计算任务，以减少计算过程中的开销，提高执行效率。
InMemoryTableScan：InMemoryTableScan是Spark中的一个操作，表示在内存中扫描表格，通常用于快速访问内存中的数据表，以加快查询速度。
Exchange：Exchange是Spark中的一个转换操作，用于在不同的分区之间进行数据交换，比如进行数据洗牌操作或者数据重分区。
CartesianProduct：CartesianProduct是指两个数据集进行笛卡尔积操作，即将一个数据集中的每个元素与另一个数据集中的每个元素组合，生成新的数据集。

这些概念在大数据处理中起着重要的作用，了解它们可以帮助优化数据处理流程，提高计算效率。

2.2）问题02： spark webUI的 job 详情中Skipped Stages (10)代表什么？

“Skipped Stages (10)” 表示在作业执行过程中跳过了10个阶段。这可能是因为系统已经缓存了一些计算结果，或者因为作业的某些部分并不需要执行。通常情况下，跳过一些阶段可以提高作业的执行效率和速度。

2.3）问题03： spark-doris-connector的源码赏析

2.3.1）解释代码 AbstractDorisRDD

private[spark] abstract class AbstractDorisRDD[T: _root_.scala.reflect.ClassTag](sc: _root_.org.apache.spark.SparkContext, val params: _root_.scala.Predef.Map[_root_.scala.Predef.String, _root_.scala.Predef.String] = ???) extends _root_.org.apache.spark.rdd.RDD[T] {

这段代码定义了一个抽象类 AbstractDorisRDD，该类是 Spark 内部使用的，不对外公开（private[spark]）。这个类继承自 Spark 的 RDD 类，表示这是一个 Spark RDD 的实现。

构造函数接受一个 SparkContext 对象 sc 和一个参数 params，params 是一个 Map 类型，其中键和值都是 String 类型。这里的 ??? 表示参数 params 的默认值未定义，需要在子类中具体实现。

另外，这个类使用了 Scala 的类型参数 T，要求 T 必须有 ClassTag。整体来说，这段代码定义了一个抽象的 Doris RDD 类，具体实现需要在子类中完成。

2.4）问题04： spark中 driver的角色:

在Spark中，driver是指负责整个应用程序的执行、协调和控制的进程。在SparkSession创建时，会自动创建一个driver进程，它负责与集群管理器进行通信、调度任务、监控任务执行情况等。在Spark应用程序运行期间，driver会负责将用户编写的代码转换为任务，并将这些任务分发给集群中的executor进程执行。因此，driver可以看作是Spark应用程序的控制中心。

三、07.21 周日

3.1）问题01： spark SQL的优化器进行的优化操作有哪些？怎么理解这些操作

Spark SQL的优化器主要进行以下几类优化操作：

谓词下推 (Predicate Pushdown)：
谓词下推是指将过滤条件尽量提前到数据源读取阶段执行，从而减少数据读取量。例如，在读取数据时就应用过滤条件，而不是等数据全部读入后再进行过滤。
投影下推 (Projection Pushdown)：
投影下推是指将只需要的列提前到数据源读取阶段选取，从而减少数据传输和处理量。例如，只读取需要的列而不是整个表。
常量折叠 (Constant Folding)：
常量折叠是指在编译阶段对表达式中的常量进行计算，从而减少运行时的计算量。例如，将 3 + 4 在编译阶段直接计算为 7。
谓词合并 (Predicate Merge)：
谓词合并是指将多个过滤条件合并成一个条件，从而优化过滤操作。例如，将 WHERE a > 5 AND a < 10 合并成一个范围条件。
谓词简化 (Predicate Simplification)：
谓词简化是指对复杂的谓词条件进行简化，从而优化查询。例如，将 WHERE a = 1 OR a = 1 简化为 WHERE a = 1。
重写查询计划 (Query Plan Rewriting)：
重写查询计划是指通过等价转换优化查询计划。例如，将笛卡尔积转换为等值连接。
子查询消除 (Subquery Elimination)：
子查询消除是指将子查询优化为等价的简单查询，从而减少开销。例如，将 SELECT * FROM (SELECT * FROM table) 优化为 SELECT * FROM table。
Join优化：
Join优化包括广播Join、小表广播、排序合并Join等策略，以减少数据传输和计算量。例如，将小表广播到各个节点，减少网络传输。
数据倾斜处理 (Skew Handling)：
数据倾斜处理是指通过优化数据分布，减少某些节点负载过重的情况。例如，通过对倾斜键进行拆分。
缓存 (Caching)：
缓存是指将中间结果缓存到内存中，从而加速后续操作。例如，将频繁使用的中间结果缓存起来，避免重复计算。

这些优化操作的核心思想是减少数据传输和计算量，提高查询执行效率。理解这些操作有助于我们编写高效的SQL查询，并能更好地调优Spark SQL应用。

3.2）问题02：Spark SQL join优化的广播Join, 小表广播，排序合并Join怎么理解？

在分布式计算和大数据处理环境中，Join操作是非常常见的操作，用于将两个数据集按照某个条件进行合并。针对不同的数据规模和分布，有不同的Join策略来优化性能。以下是广播Join、小表广播和排序合并Join的解释：

1. 广播Join（Broadcast Join）

广播Join是一种优化的Join策略，适用于一个表非常小而另一个表非常大的情况。具体做法是将小表广播到所有的计算节点，然后在每个节点上执行Join操作。这样可以避免大表的数据在网络中的大量传输。

优点：

减少网络传输开销。
适用于小表和大表Join的情况。

缺点：

小表不能太大，否则会占用大量的内存。

2. 小表广播（Small Table Broadcast）

小表广播实际上就是广播Join的具体应用。这里的小表广播特指将较小的表复制到所有的计算节点，这样每个节点在处理大表分片时都可以直接访问小表，从而进行Join操作。

优点：

和广播Join类似，减少了大表的数据传输。
提升了Join操作的效率。

缺点：

小表的大小受限于单个节点的内存容量。

3. 排序合并Join（Sort-Merge Join）

排序合并Join是一种适用于大规模数据集的Join策略，特别是当两个表都已经按Join键排序时。它的基本思想是对两个表分别进行排序，然后通过合并两个有序列表来完成Join操作。

步骤：

对两个表按照Join键进行排序。
使用双指针或多路归并的方式合并两个有序表，找到匹配的记录。

优点：

对于已经排序的数据，性能非常高。
可以处理大规模数据集。

缺点：

需要对数据进行排序，排序操作的开销较大。
适用于Join键上有索引或者自然有序的数据。

总结

广播Join 和 小表广播 适用于一个表很小、另一个表很大的情况，通过将小表广播到所有计算节点来减少网络传输开销。
排序合并Join 适用于两个大表的Join，尤其是当数据已经按Join键排序时，通过排序和合并来高效地完成Join操作。

选择哪种Join策略取决于数据的规模、分布和具体的应用场景。

3.3）问题03：spark的配置 spark.default.parallelism 和 spark.sql.shuffle.partitions和 spark.sql.autoBroadcastJoinThreshold 怎么理解

在 Apache Spark 中，以下配置参数是非常重要的，它们可以显著影响应用程序的性能和资源使用情况：

spark.default.parallelism:
- 含义：这个参数定义了默认的并行度，即任务（tasks）的数量。它通常用于非 SQL 操作，例如 RDD 转换。
- 默认值：如果未设置，默认值为 2 * 总核心数。
- 作用：这个参数决定了在进行宽依赖（如 shuffle 操作）时，任务的并行度。例如，在做 reduceByKey 这样的操作时，会根据这个并行度来划分任务。
- 调优建议：一般建议设置为集群中核心数的 2-3 倍，以确保充分利用资源。
spark.sql.shuffle.partitions:
- 含义：这个参数控制 Spark SQL 中 shuffle 操作（如 join、groupBy、orderBy 等）所使用的分区数量。
- 默认值：默认值为 200。
- 作用：在进行 SQL 操作时，Spark 会将数据进行 shuffle，并根据该参数决定生成多少个分区。分区数量过少可能导致单个任务数据量过大，内存不足；分区数量过多则可能导致调度和管理开销增大。
- 调优建议：根据数据规模和集群资源情况，适当增大或减小该值。例如，对于大规模数据集，可以增大该值以减少每个分区的数据量。
spark.sql.autoBroadcastJoinThreshold:
- 含义：这个参数定义了 Spark SQL 自动进行广播 join 的阈值。广播 join 是一种优化策略，当一张表非常小（小于该阈值）时，Spark 会将其广播到所有工作节点上，与另一张表进行 join 操作。
- 默认值：默认值为 10MB（10485760 字节）。
- 作用：当一张表的大小小于该阈值时，Spark 会自动选择广播 join。这种方式可以显著减少 shuffle 的开销，提升 join 操作的性能。
- 调优建议：如果有很多小表 join，可以适当增大该值；如果广播表过大，可能会导致内存问题，需要适当减小该值。

理解和合理配置这些参数，可以帮助你更好地优化 Spark 应用程序的性能和资源利用率。具体的调优还需要根据实际的工作负载和集群资源情况进行测试和调整。

3.4）问题04：这样类似spark.default.parallelism的配置参数还有哪些？

Spark有许多配置参数可以用来优化和调整集群和应用程序的性能。以下是一些常用的配置参数，类似于spark.default.parallelism，它们可以帮助你优化Spark作业的执行：

spark.executor.memory：每个executor的内存大小，例如spark.executor.memory=4g。
spark.executor.cores：每个executor使用的CPU核心数，例如spark.executor.cores=2。
spark.driver.memory：Driver程序的内存大小，例如spark.driver.memory=2g。
spark.driver.cores：Driver程序使用的CPU核心数，例如spark.driver.cores=1。
spark.task.cpus：每个task使用的CPU核心数，例如spark.task.cpus=1。
spark.sql.shuffle.partitions：SQL查询中shuffle操作的分区数，例如spark.sql.shuffle.partitions=200。
spark.storage.memoryFraction：用于存储RDD持久化数据的内存比例（已被spark.memory.fraction替代）。
spark.memory.fraction：用于执行和存储的内存比例，例如spark.memory.fraction=0.6。
spark.memory.storageFraction：存储内存的比例，例如spark.memory.storageFraction=0.5。
spark.local.dir：Spark本地临时目录，例如spark.local.dir=/tmp/spark.
spark.network.timeout：网络超时时间，例如spark.network.timeout=120s。
spark.shuffle.compress：是否压缩shuffle数据，例如spark.shuffle.compress=true。
spark.rdd.compress：是否压缩RDD序列化数据，例如spark.rdd.compress=true。
spark.speculation：是否启用task推测执行，例如spark.speculation=true。
spark.sql.autoBroadcastJoinThreshold：自动广播的小表的最大大小，例如spark.sql.autoBroadcastJoinThreshold=10MB。

这些配置参数可以在提交Spark应用时通过--conf选项进行设置，也可以在Spark应用的代码中通过sparkConf对象进行设置。例如：

val sparkConf = new SparkConf().setAppName("MyApp").set("spark.executor.memory", "4g").set("spark.executor.cores", "2").set("spark.sql.shuffle.partitions", "200")

调整这些参数可以帮助你更好地利用集群资源，提高Spark作业的性能。

3.5）问题05：怎么把已经得到的spark的事件日志json文件导入并在 spark webUI中解析并可视化展示？

要将已经得到的 Spark 事件日志 JSON 文件导入并在 Spark Web UI 中解析和可视化展示，可以按照以下步骤操作：

前提条件

Spark安装：确保你已经安装并配置好了 Apache Spark。
事件日志文件：你已经有了一个或多个 Spark 事件日志 JSON 文件。

步骤

配置Spark来读取事件日志文件：

首先，你需要在 spark-defaults.conf 文件中配置 Spark 事件日志的路径。这个文件通常位于 $SPARK_HOME/conf/ 目录下。

添加以下配置（假设事件日志文件存放在 /path/to/eventlog 目录中）：
```
spark.eventLog.enabled           true
spark.eventLog.dir               file:/path/to/eventlog
```
启动Spark History Server：

Spark History Server 是用于查看和分析 Spark 应用程序历史记录的组件。启动它可以通过以下命令：
```
$SPARK_HOME/sbin/start-history-server.sh
```
验证Spark History Server是否启动：

启动后，你可以在浏览器中访问 History Server 的 Web UI，默认地址是 http://localhost:18080。你应该能够在这个页面上看到已经解析的事件日志文件和相应的应用程序。

详细步骤解释

配置事件日志路径：
- 打开 $SPARK_HOME/conf/spark-defaults.conf 文件，如果没有这个文件，可以复制模板文件：
```
cp $SPARK_HOME/conf/spark-defaults.conf.template $SPARK_HOME/conf/spark-defaults.conf
```
- 编辑 spark-defaults.conf 文件，添加或修改以下配置：
```
spark.eventLog.enabled           true
spark.eventLog.dir               file:/path/to/eventlog
```
启动History Server：
- 运行以下命令启动 History Server：
```
$SPARK_HOME/sbin/start-history-server.sh
```
访问History Server：
- 打开浏览器，访问 http://localhost:18080，你应该能够看到解析后的事件日志和应用程序历史记录。

注意事项

事件日志文件路径：确保事件日志文件路径正确且文件有适当的读权限。
端口冲突：如果端口 18080 被占用，可以修改配置文件 $SPARK_HOME/sbin/start-history-server.sh 来更改端口号。
文件格式：确保事件日志文件是 JSON 格式，且符合 Spark 的事件日志格式要求。

通过以上步骤，你应该能够成功将 Spark 事件日志文件导入并在 Spark Web UI 中解析和可视化展示。如果有任何问题，可以查看 Spark 的日志文件以获取更多调试信息。

文章目录

一、07.19 周五

1.1）问题01： spark性能优化

1.2）问题02： spark是怎么应用在机器学习领域的

1.3）问题03：spark自带工具有哪些？

1.4）问题04： spark日志的知识点有哪些

1.5) 问题05：spark的监控工具有哪些？

1. Spark Web UI

2. Spark History Server

3. Ganglia

4. Graphite

5. Prometheus and Grafana

6. Third-party Tools

1.6）问题06：怎么查询使用的spark版本

二、07.20 周六

2.1）问题01：在Spark WebUI中，job详情的DAG Visualization 说的 mapPartitions，WholeStageCodegen,InMemoryTableScan, Exchange, CartesianProduct 都代表什么含义？

2.2）问题02： spark webUI的 job 详情中Skipped Stages (10)代表什么？

2.3）问题03： spark-doris-connector的源码赏析

2.3.1）解释代码 AbstractDorisRDD

2.4）问题04： spark中 driver的角色:

三、07.21 周日

3.1）问题01： spark SQL的优化器进行的优化操作有哪些？怎么理解这些操作

3.2）问题02：Spark SQL join优化的 广播Join, 小表广播，排序合并Join怎么理解？

1. 广播Join（Broadcast Join）

优点：

缺点：

2. 小表广播（Small Table Broadcast）

优点：

缺点：

3. 排序合并Join（Sort-Merge Join）

步骤：

优点：

缺点：

总结

3.3）问题03：spark的配置 spark.default.parallelism 和 spark.sql.shuffle.partitions和 spark.sql.autoBroadcastJoinThreshold 怎么理解

3.4）问题04：这样类似spark.default.parallelism的配置参数还有哪些？

3.5）问题05：怎么把已经得到的spark的事件日志json文件导入并在 spark webUI中解析并可视化展示？

前提条件

步骤

详细步骤解释

注意事项

相关文章：

3.2）问题02：Spark SQL join优化的广播Join, 小表广播，排序合并Join怎么理解？