当前位置：首页 > news >正文

Spark部署详细教程

news 2025/7/15 4:48:16

Spark Local环境部署

下载地址

https://dlcdn.apache.org/spark/spark-3.4.2/spark-3.4.2-bin-hadoop3.tgz

条件

PYTHON 推荐3.8
JDK 1.8

Anaconda On Linux 安装

本次课程的Python环境需要安装到Linux(虚拟机)和Windows(本机)上

参见最下方, 附: Anaconda On Linux 安装

解压

解压下载的Spark安装包

tar -zxvf spark-3.4.2-bin-hadoop3.tgz -C /export/server/

环境变量

配置Spark由如下5个环境变量需要设置

SPARK_HOME: 表示Spark安装路径在哪里
PYSPARK_PYTHON: 表示Spark想运行Python程序, 那么去哪里找python执行器
JAVA_HOME: 告知Spark Java在哪里
HADOOP_CONF_DIR: 告知Spark Hadoop的配置文件在哪里
HADOOP_HOME: 告知Spark Hadoop安装在哪里

这5个环境变量都需要配置在: /etc/profile中

export JAVA_HOME=/export/server/jdk
export HADOOP_HOME=/export/server/hadoop
export SPARK_HOME=/export/server/spark
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

PYSPARK_PYTHON和 JAVA_HOME 需要同样配置在: /root/.bashrc中

export JAVA_HOME=/export/server/jdk
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8

上传Spark安装包

上传这个文件到Linux服务器中

将其解压, 课程中将其解压(安装)到: /export/server内.

tar -zxvf spark-3.4.2-bin-hadoop3.tgz -C /export/server/

由于spark目录名称很长, 给其一个软链接:

ln -s /export/server/spark-3.4.2-bin-hadoop3.tgz /export/server/spark

测试

bin/pyspark

bin/pyspark 程序, 可以提供一个 交互式的 Python解释器环境, 在这里面可以写普通python代码, 以及spark代码

在这个环境内, 可以运行spark代码，如下命令：

sc.parallelize([1,2,3,4,5]).map(lambda x: x + 1).collect()

WEB UI (4040)

Spark程序在运行的时候, 会绑定到机器的4040端口上.

4040端口是一个WEBUI端口, 可以在浏览器内打开:

输入:node1:4040 即可打开:

打开监控页面后, 可以发现在程序内仅有一个Driver

因为我们是Local模式, Driver即管理又干活.

同时, 输入jps

可以看到local模式下的唯一进程存在

这个进程即是master也是worker

bin/spark-shell - 了解

同样是一个解释器环境, 和bin/pyspark不同的是, 这个解释器环境运行的不是python代码, 而是scala程序代码

scala> sc.parallelize(Array(1,2,3,4,5)).map(x=> x + 1).collect()
res0: Array[Int] = Array(2, 3, 4, 5, 6)

这个仅作为了解即可, 因为这个是用于scala语言的解释器环境

bin/spark-submit (PI)

作用: 提交指定的Spark代码到Spark环境中运行

使用方法:

# 语法
bin/spark-submit [可选的一些选项] jar包或者python代码的路径 [代码的参数]# 示例
bin/spark-submit /export/server/spark/examples/src/main/python/pi.py 10
# 此案例 运行Spark官方所提供的示例代码 来计算圆周率值.  后面的10 是主函数接受的参数, 数字越高, 计算圆周率越准确.

对比

功能	bin/spark-submit	bin/pyspark	bin/spark-shell
功能	提交java\scala\python代码到spark中运行	提供一个`python`
解释器环境用来以python代码执行spark程序	提供一个`scala`
解释器环境用来以scala代码执行spark程序
特点	提交代码用	解释器环境写一行执行一行	解释器环境写一行执行一行
使用场景	正式场合, 正式提交spark程序运行	测试\学习\写一行执行一行\用来验证代码等	测试\学习\写一行执行一行\用来验证代码等

Spark StandAlone环境部署

新角色历史服务器

历史服务器不是Spark环境的必要组件, 是可选的.

在YARN中有一个历史服务器, 功能: 将YARN运行的程序的历史日志记录下来, 通过历史服务器方便用户查看程序运行的历史信息.

Spark的历史服务器, 功能: 将Spark运行的程序的历史日志记录下来, 通过历史服务器方便用户查看程序运行的历史信息.

搭建集群环境, 我们一般推荐将历史服务器也配置上, 方面以后查看历史记录

集群规划

使用三台Linux虚拟机来组成集群环境, 分别是:

192.168.32.101 node1
192.168.32.102 node2
192.168.32.103 node3

node1运行: Spark的Master进程和 1个Worker进程

node2运行: spark的1个worker进程

node3运行: spark的1个worker进程

整个集群提供: 1个master进程和 3个worker进程

安装

在所有机器安装Python(Anaconda)

参考附1内容, 如何在Linux上安装anaconda

同时不要忘记都创建pyspark虚拟环境以及安装虚拟环境所需要的包pyspark jieba pyhive

在所有机器配置环境变量

参考 Local模式下环境变量的配置内容

确保3台都配置

配置配置文件

进入到spark的配置文件目录中, cd $SPARK_HOME/conf

配置workers文件

# 改名, 去掉后面的.template后缀
mv workers.template workers# 编辑worker文件
vim workers
# 将里面的localhost删除, 追加
node1
node2
node3
到workers文件内# 功能: 这个文件就是指示了  当前SparkStandAlone环境下, 有哪些worker

配置spark-env.sh文件

# 1. 改名
mv spark-env.sh.template spark-env.sh# 2. 编辑spark-env.sh, 在底部追加如下内容## 设置JAVA安装目录
JAVA_HOME=/export/server/jdk## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
export SPARK_MASTER_HOST=node1
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的 webui端口
SPARK_MASTER_WEBUI_PORT=8080# worker cpu可用核数
SPARK_WORKER_CORES=1
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的 webui地址
SPARK_WORKER_WEBUI_PORT=8081## 设置历史服务器
# 配置的意思是  将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

注意, 上面的配置的路径要根据你自己机器实际的路径来写

在HDFS上创建程序运行历史记录存放的文件夹:

hadoop fs -mkdir /sparklog
hadoop fs -chmod 777 /sparklog

配置spark-defaults.conf文件

# 1. 改名
mv spark-defaults.conf.template spark-defaults.conf# 2. 修改内容, 追加如下内容
# 开启spark的日期记录功能
spark.eventLog.enabled 	true
# 设置spark日志记录的路径
spark.eventLog.dir	 hdfs://node1:8020/sparklog/ 
# 设置spark日志是否启动压缩
spark.eventLog.compress 	true

配置log4j.properties 文件 [可选配置]

# 1. 改名
mv log4j.properties.template log4j.properties# 2. 修改内容 如下
log4j.rootCategory=WARN, console

这个文件的修改不是必须的, 为什么修改为WARN. 因为Spark是个话痨

会疯狂输出日志, 设置级别为WARN 只输出警告和错误日志, 不要输出一堆废话.

将Spark安装文件夹分发到其它的服务器上

scp -r spark-3.1.2-bin-hadoop3.2 node2:/export/server/
scp -r spark-3.1.2-bin-hadoop3.2 node3:/export/server/

不要忘记, 在node2和node3上给spark安装目录增加软链接

ln -s /export/server/spark-3.1.2-bin-hadoop3.2 /export/server/spark

检查

检查每台机器的:

JAVA_HOME

SPARK_HOME

PYSPARK_PYTHON

等等环境变量是否正常指向正确的目录

启动历史服务器

sbin/start-history-server.sh

启动Spark的Master和Worker进程

# 启动全部master和worker
sbin/start-all.sh# 或者可以一个个启动:
# 启动当前机器的master
sbin/start-master.sh
# 启动当前机器的worker
sbin/start-worker.sh# 停止全部
sbin/stop-all.sh# 停止当前机器的master
sbin/stop-master.sh# 停止当前机器的worker
sbin/stop-worker.sh

查看Master的WEB UI

默认端口master我们设置到了8080

如果端口被占用, 会顺延到8081 …;8082… 8083… 直到申请到端口为止

可以在日志中查看, 具体顺延到哪个端口上:

Service 'MasterUI' could not bind on port 8080. Attempting port 8081.

连接到StandAlone集群

bin/pyspark

执行:

bin/pyspark --master spark://node1:7077
# 通过--master选项来连接到 StandAlone集群
# 如果不写--master选项, 默认是local模式运行

bin/spark-shell

bin/spark-shell --master spark://node1:7077
# 同样适用--master来连接到集群使用

// 测试代码
sc.parallelize(Array(1,2,3,4,5)).map(x=> x + 1).collect()

bin/spark-submit (PI)

bin/spark-submit --master spark://node1:7077 /export/server/spark/examples/src/main/python/pi.py 100
# 同样使用--master来指定将任务提交到集群运行

查看历史服务器WEB UI

历史服务器的默认端口是: 18080

我们启动在node1上, 可以在浏览器打开:

node1:18080来进入到历史服务器的WEB UI上.

Spark StandAlone HA 环境搭建

步骤

前提: 确保Zookeeper(ZK集群安装见此教程) 和 HDFS 均已经启动（HDFS集群安装见此教程）

先在spark-env.sh中, 删除: SPARK_MASTER_HOST=node1

原因: 配置文件中固定master是谁, 那么就无法用到zk的动态切换master功能了.

在spark-env.sh中, 增加:

SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark-ha"
# spark.deploy.recoveryMode 指定HA模式 基于Zookeeper实现
# 指定Zookeeper的连接地址
# 指定在Zookeeper中注册临时节点的路径

将spark-env.sh 分发到每一台服务器上

scp spark-env.sh node2:/export/server/spark/conf/
scp spark-env.sh node3:/export/server/spark/conf/

停止当前StandAlone集群

sbin/stop-all.sh

启动集群:

# 在node1上 启动一个master 和全部worker
sbin/start-all.sh# 注意, 下面命令在node2上执行
sbin/start-master.sh
# 在node2上启动一个备用的master进程

master主备切换

提交一个spark任务到当前alivemaster上:

bin/spark-submit --master spark://node1:7077 /export/server/spark/examples/src/main/python/pi.py 1000

在提交成功后, 将alivemaster直接kill掉

不会影响程序运行:

当新的master接收集群后, 程序继续运行, 正常得到结果.

结论 HA模式下, 主备切换不会影响到正在运行的程序.

最大的影响是会让它中断大约30秒左右.

Spark On YARN 环境搭建

部署

确保:

HADOOP_CONF_DIR
YARN_CONF_DIR

在spark-env.sh 以及环境变量配置文件中即可

连接到YARN中

bin/pyspark

bin/pyspark --master yarn --deploy-mode client|cluster
# --deploy-mode 选项是指定部署模式, 默认是 客户端模式
# client就是客户端模式
# cluster就是集群模式
# --deploy-mode 仅可以用在YARN模式下

注意: 交互式环境 pyspark 和 spark-shell 无法运行 cluster模式

bin/spark-shell

bin/spark-shell --master yarn --deploy-mode client|cluster

注意: 交互式环境 pyspark 和 spark-shell 无法运行 cluster模式

bin/spark-submit (PI)

bin/spark-submit --master yarn --deploy-mode client|cluster /xxx/xxx/xxx.py 参数

spark-submit 和 spark-shell 和 pyspark的相关参数

参见: 附2

附1 Anaconda On Linux 安装 (单台服务器)

安装

下载安装包: 点此官网下载https://www.anaconda.com/download#downloads

上传下载的Anaconda3-2021.05-Linux-x86_64.sh文件到Linux服务器上

安装:

sh ./Anaconda3-2021.05-Linux-x86_64.sh

输入yes后就安装完成了.

安装完成后, 退出XShell 重新进来:

看到这个Base开头表明安装好了.

base是默认的虚拟环境.

国内源

编辑如下文件,添加一下内容：

vim /root/.condarc

注：如果你安装好后, 没有出现base, 可以打开:/root/.bashrc这个文件, 追加如下内容:

channels:- defaults
show_channel_urls: true
default_channels:- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudmsys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudbioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudmenpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudpytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudsimpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

附2 spark-submit和pyspark相关参数

客户端工具我们可以用的有:

bin/pyspark: pyspark解释器spark环境
bin/spark-shell: scala解释器spark环境
bin/spark-submit: 提交jar包或Python文件执行的工具
bin/spark-sql: sparksql客户端工具

这4个客户端工具的参数基本通用.

以spark-submit 为例:

bin/spark-submit --master spark://node1:7077 xxx.py

Usage: spark-submit [options] <app jar | python file | R file> [app arguments]
Usage: spark-submit --kill [submission ID] --master [spark://...]
Usage: spark-submit --status [submission ID] --master [spark://...]
Usage: spark-submit run-example [options] example-class [example args]Options:--master MASTER_URL         spark://host:port, mesos://host:port, yarn,k8s://https://host:port, or local (Default: local[*]).--deploy-mode DEPLOY_MODE   部署模式 client 或者 cluster 默认是client--class CLASS_NAME          运行java或者scala class(for Java / Scala apps).--name NAME                 程序的名字--jars JARS                 Comma-separated list of jars to include on the driverand executor classpaths.--packages                  Comma-separated list of maven coordinates of jars to includeon the driver and executor classpaths. Will search the localmaven repo, then maven central and any additional remoterepositories given by --repositories. The format for thecoordinates should be groupId:artifactId:version.--exclude-packages          Comma-separated list of groupId:artifactId, to exclude whileresolving the dependencies provided in --packages to avoiddependency conflicts.--repositories              Comma-separated list of additional remote repositories tosearch for the maven coordinates given with --packages.--py-files PY_FILES         指定Python程序依赖的其它python文件--files FILES               Comma-separated list of files to be placed in the workingdirectory of each executor. File paths of these filesin executors can be accessed via SparkFiles.get(fileName).--archives ARCHIVES         Comma-separated list of archives to be extracted into theworking directory of each executor.--conf, -c PROP=VALUE       手动指定配置--properties-file FILE      Path to a file from which to load extra properties. If notspecified, this will look for conf/spark-defaults.conf.--driver-memory MEM         Driver的可用内存(Default: 1024M).--driver-java-options       Driver的一些Java选项--driver-library-path       Extra library path entries to pass to the driver.--driver-class-path         Extra class path entries to pass to the driver. Note thatjars added with --jars are automatically included in theclasspath.--executor-memory MEM       Executor的内存 (Default: 1G).--proxy-user NAME           User to impersonate when submitting the application.This argument does not work with --principal / --keytab.--help, -h                  显示帮助文件--verbose, -v               Print additional debug output.--version,                  打印版本Cluster deploy mode only(集群模式专属):--driver-cores NUM          Driver可用的的CPU核数(Default: 1).Spark standalone or Mesos with cluster deploy mode only:--supervise                 如果给定, 可以尝试重启DriverSpark standalone, Mesos or K8s with cluster deploy mode only:--kill SUBMISSION_ID        指定程序ID kill--status SUBMISSION_ID      指定程序ID 查看运行状态Spark standalone, Mesos and Kubernetes only:--total-executor-cores NUM  整个任务可以给Executor多少个CPU核心用Spark standalone, YARN and Kubernetes only:--executor-cores NUM        单个Executor能使用多少CPU核心Spark on YARN and Kubernetes only(YARN模式下):--num-executors NUM         Executor应该开启几个--principal PRINCIPAL       Principal to be used to login to KDC.--keytab KEYTAB             The full path to the file that contains the keytab for theprincipal specified above.Spark on YARN only:--queue QUEUE_NAME          指定运行的YARN队列(Default: "default").

附3 Windows系统配置Anaconda

安装

打开资料中提供的:Anaconda3-2021.05-Windows-x86_64.exe文件,或者去官网下载:https://www.anaconda.com/products/individual#Downloads

打开后,一直点击Next下一步即可:

如果想要修改安装路径, 可以修改

不必勾选

最终点击Finish完成安装

打开开始菜单, 搜索Anaconda

出现如图的程序, 安装成功.

打开 Anaconda Prompt程序:

出现base说明安装正确.

配置国内源

Anaconda默认源服务器在国外, 网速比较慢, 配置国内源加速网络下载.

打开上图中的 Anaconda Prompt程序:
执行:
conda config --set show_channel_urls yes

然后用记事本打开:
C:\Users\用户名\.condarc文件, 将如下内容替换进文件内,保存即可:

channels:- defaults
show_channel_urls: true
default_channels:- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudmsys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudbioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudmenpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudpytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudsimpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

创建虚拟环境

# 创建虚拟环境 pyspark, 基于Python 3.8
conda create -n pyspark python=3.8# 切换到虚拟环境内
conda activate pyspark# 在虚拟环境内安装包
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

至此，分享Spark部署结束！！！

Spark部署详细教程

Spark Local环境部署下载地址 https://dlcdn.apache.org/spark/spark-3.4.2/spark-3.4.2-bin-hadoop3.tgz 条件 PYTHON 推荐3.8JDK 1.8 Anaconda On Linux 安装本次课程的Python环境需要安装到Linux(虚拟机)和Windows(本机)上参见最下方, 附: Anaconda On Linux 安装…...

编程日记 2024/3/30 6:07:45

慧天[HTWATER]:创新城市水务科技，引领行业变革

【城市内涝水文水动力模型介绍】慧天[HTWATER]软件：慧天排水数字化分析平台针对城市排水系统基础设施数据管理的需求，以及水文、水力及水质模拟对数据的需求，实现了以数据库方式对相应数据的存储。可以对分流制排水系统及合流制排水系统进行…...

编程日记 2024/3/30 6:06:44

vscode调试Unity

文章目录 vscode调试UnityC#环境需求开始调试 Lua添加Debugger环境配置联系.txt文件配置Java环境添加调试代码断点不生效的问题 vscode调试Unity C# 现在使用vscode调试Unity的C#代码很简单，直接在vscode的EXTENSIONS里面搜索“Unity”，第一个就是&am…...

编程日记 2024/3/30 6:05:43

JavaScript是如何实现页面渲染的

JavaScript实现页面渲染主要涉及到对DOM的操作、样式的修改以及与后端数据的交互。以下是JavaScript实现页面渲染的主要步骤和方式： 一、DOM操作创建和修改元素：JavaScript可以使用document.createElement()来创建新的DOM元素，使用appendC…...

编程日记 2024/3/30 6:04:42

【YOLOv8 代码解读】数据增强代码梳理

1. LetterBox增强当输入图片的尺寸和模型实际接收的尺寸可能不一致时，通常需要使用LetterBox增强技术。具体步骤是先将图片按比例缩放，将较长的边缩放到设定的尺寸以后，再将较短的边进行填充，最终短边的长度为stride的倍数即可。…...

编程日记 2024/3/30 6:02:40

安卓调试桥ADB

Logcat 命令行工具 | Android Studio | Android Developers 什么是ADB ADB 全称为 Android Debug Bridge ，是 Android SDK （安卓的开发工具）中的一个工具，起到调试桥的作用，是一个客户端 - 服务器端程序。其中 …...

编程日记 2024/3/30 6:00:38

深入理解数据结构第一弹——二叉树（1）——堆

前言： 在前面我们已经学习了数据结构的基础操作：顺序表和链表及其相关内容，今天我们来学一点有些难度的知识——数据结构中的二叉树，今天我们先来学习二叉树中堆的知识，这部分内容还是非常有意思的，下面我们…...

编程日记 2024/3/30 5:59:38

面试题：JVM的垃圾回收

一、GC概念为了让程序员更专注于代码的实现，而不用过多的考虑内存释放的问题，所以，在Java语言中，有了自动的垃圾回收机制，也就是我们熟悉的GC(Garbage Collection)。有了垃圾回收机制后，程序员只需要关…...

编程日记 2024/3/30 5:58:37

Java8之接口默认方法

Java8之接口默认方法一、介绍二、代码1、接口2、实现类3、测试代码4、效果一、介绍在Java8中，允许为接口方法提供一个默认的实现。必须用default修饰符标记这样一个方法。默认方法也可以调用其他方法二、代码 1、接口 public interface PersonService {void…...

编程日记 2024/3/30 5:55:34

发挥ChatGPT潜力：高效撰写学术论文技巧

ChatGPT无限次数:点击直达发挥ChatGPT潜力：高效撰写学术论文技巧在当今信息爆炸的时代，如何高效撰写学术论文成为许多研究者关注的焦点。而随着人工智能技术的不断发展，如何利用ChatGPT这一先进的技术工具来提升论文写作效率，成…...

编程日记 2024/3/30 5:54:32

国产暴雨AI服务器X3418开启多元自主可控新篇章

在当前数字化转型的大潮中，算力作为新质生产力的重要动力引擎，对推动经济社会发展起着关键作用。尤其在人工智能领域，随着高性能、安全可控的AI算力需求持续攀升，国产化服务器的研发与应用显得尤为迫切。作为国内专业的算力基础…...

编程日记 2024/3/30 5:51:29

webpack-dev-server 如何直接用IP打开

当你需要使用IP来访问服务器时，可能需要对 webpack-dev-server 进行相关设置； 当你使用PD虚拟机在Windows上调试时，可能会用到； 一、设置 host 通过webpack.config.js设置 devServer: {host: 0.0.0.0, }通过CLI设置 webpack-dev-s…...

编程日记 2024/3/30 5:50:28

Web框架开发-BBS项目预备知识

一、简介博客系统（cnblog） https://www.cnblogs.com/ 1.django ORM （object relation mapping 对象关系映射）表 = 类对象 = 记录跨表查询分组查询 annotate() 聚合查询 aggregate(*args, **kwargs) 2.bootstrap3.Ajax (jquery javascript) --- javascript 去写…...

编程日记 2024/3/30 5:49:27

力扣208---实现Trie（前缀树）

题目描述： Trie（发音类似 "try"）或者说前缀树是一种树形数据结构，用于高效地存储和检索字符串数据集中的键。这一数据结构有相当多的应用情景，例如自动补完和拼写检查。请你实现 Trie 类： …...

编程日记 2024/3/30 5:48:26

书生·浦语大模型开源体系（一）论文精读笔记

💗💗💗欢迎来到我的博客，你将找到有关如何使用技术解决问题的文章，也会找到某个技术的学习路线。无论你是何种职业，我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章，也欢…...

编程日记 2024/3/30 5:45:24

基于单片机模糊算法温度控制系统设计

**单片机设计介绍， 文章目录一概要二、功能设计设计思路三、软件设计原理图五、程序六、文章目录一概要基于单片机模糊算法温度控制系统设计是一个综合性的项目，结合了单片机技术、传感器技术、模糊控制算法等多个方面。以下是对该设计的概要…...

编程日记 2024/3/30 5:43:22

GESP Python编程四级认证真题 2024年3月

Python 四级 2024 年 03 月 1 单选题（每题 2 分，共 30 分） 第 1 题小杨的父母最近刚刚给他买了一块华为手表，他说手表上跑的是鸿蒙，这个鸿蒙是？（ ） A. 小程序 B. 计时器 C. 操作系统…...

编程日记 2024/3/30 5:41:20

Collection与数据结构顺序表与ArrayList

1. 线性表线性表（linear list）是n个具有相同特性的数据元素的有限序列。线性表是一种在实际中广泛使用的数据结构，常见的线性表：顺序表、链表、栈、队列… 线性表在逻辑上是线性结构，也就说是连续的一条直线。但是在…...

编程日记 2024/3/30 5:40:19

pytorch | torchvision.transforms.CenterCrop

torchvision.transforms.CenterCrop＞从图像中心裁剪图片 transforms.CenterCrop torchvision.transforms.CenterCrop(size) 功能：从图像中心裁剪图片 size: 所需裁剪的图片尺寸 transforms.CenterCrop(196)的效果如下： （也可…...

编程日记 2024/3/30 5:39:18

在Debian 11上安装GCC

GCC（GNU Compiler Collection）是一个功能强大的工具集合，可用于将不同编程语言的源代码编译成可执行文件或库。它支持多种编程语言，包括C、C、Java、Objective-C、Go、Fortran、Ada等。在Debian 11上安装GCC非常简单，以…...

编程日记 2024/3/30 5:38:17

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现，玩家控制一个角色（龙）躲避障碍物（仙人掌和乌鸦）。以下是代码的详细介绍：…...

编程新知 2025/7/14 21:18:24

stm32G473的flash模式是单bank还是双bank？

今天突然有人stm32G473的flash模式是单bank还是双bank？由于时间太久，我真忘记了。搜搜发现，还真有人和我一样。见下面的链接：https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

编程新知 2025/7/14 18:30:56

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06（十亿美元）。漏洞扫描服务市场行业预计将从 2024 年的 3.48（十亿美元）增长到 2032 年的 9.54（十亿美元）。预测期内漏洞扫描服务市场 CAGR（增长率&…...

编程新知 2025/7/15 4:44:31

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2025/7/10 7:46:14

家政维修平台实战20：权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结目前我们已经搭建好了基础的用户体系，主要是分成几个表，用户表我们是记录用户的基础信息，包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题，不同的角色&#xf…...

编程新知 2025/7/11 18:23:18

React---day11

14.4 react-redux第三方库提供connect、thunk之类的函数以获取一个banner数据为例子 store： 我们在使用异步的时候理应是要使用中间件的，但是configureStore 已经自动集成了 redux-thunk，注意action里面要返回函数 import { configureS…...

编程新知 2025/7/3 22:17:31

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习）

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习） 一、Aspose.PDF 简介二、说明（⚠️仅供学习与研究使用）三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置五、字节码修改实现代码&#…...

编程新知 2025/7/14 2:11:11

【Go语言基础【13】】函数、闭包、方法

文章目录零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理二、函数类型与高阶函数1. 函数类型定义2. 高阶函数（函数作为参数、返回值） 三、匿名函数与闭包1. 匿名函数（Lambda函…...

编程新知 2025/6/16 16:17:22

LangChain知识库管理后端接口：数据库操作详解—— 构建本地知识库系统的基础《二》

这段 Python 代码是一个完整的知识库数据库操作模块，用于对本地知识库系统中的知识库进行增删改查（CRUD）操作。它基于 SQLAlchemy ORM 框架和一个自定义的装饰器 with_session 实现数据库会话管理。 📘 一、整体功能概述该模块…...

编程新知 2025/6/21 3:02:00

【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的“no matching...“系列算法协商失败问题

【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的"no matching..."系列算法协商失败问题摘要： 近期，在使用较新版本的OpenSSH客户端连接老旧SSH服务器时，会遇到 "no matching key exchange method found", "n…...

编程新知 2025/6/15 18:10:15

Spark Local环境部署

下载地址

条件

Anaconda On Linux 安装

解压

环境变量

上传Spark安装包

测试

bin/pyspark

WEB UI (4040)

bin/spark-shell - 了解

bin/spark-submit (PI)

Spark StandAlone环境部署

新角色 历史服务器

集群规划

安装

在所有机器安装Python(Anaconda)

在所有机器配置环境变量

配置配置文件

将Spark安装文件夹 分发到其它的服务器上

检查

启动历史服务器

启动Spark的Master和Worker进程

查看Master的WEB UI

连接到StandAlone集群

bin/pyspark

bin/spark-shell

bin/spark-submit (PI)

查看历史服务器WEB UI

Spark StandAlone HA 环境搭建

步骤

master主备切换

Spark On YARN 环境搭建

部署

连接到YARN中

bin/pyspark

bin/spark-shell

bin/spark-submit (PI)

spark-submit 和 spark-shell 和 pyspark的相关参数

附1 Anaconda On Linux 安装 (单台服务器)

安装

国内源

附2 spark-submit和pyspark相关参数

附3 Windows系统配置Anaconda

安装

配置国内源

创建虚拟环境

相关文章：

新角色历史服务器

将Spark安装文件夹分发到其它的服务器上