当前位置：首页 > news >正文

【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建逻辑回归鸢尾花分类预测模型】

news 2026/2/8 12:11:00

逻辑回归进行鸢尾花分类的案例

背景说明：

基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建逻辑回归鸢尾花分类预测模型，这是一个分类模型案例，通过该案例，可以快速了解Spark MLlib分类预测模型的使用方法。

依赖

ThisBuild / version := "0.1.0-SNAPSHOT"  ThisBuild / scalaVersion := "2.13.11"  lazy val root = (project in file("."))  .settings(  name := "SparkLearning",  idePackagePrefix := Some("cn.lh.spark"),  libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.4.1",  libraryDependencies += "org.apache.spark" %% "spark-core" % "3.4.1",  libraryDependencies += "org.apache.hadoop" % "hadoop-auth" % "3.3.6",     libraryDependencies += "org.apache.spark" %% "spark-streaming" % "3.4.1",  libraryDependencies += "org.apache.spark" %% "spark-streaming-kafka-0-10" % "3.4.1",  libraryDependencies += "org.apache.spark" %% "spark-mllib" % "3.4.1",  libraryDependencies += "mysql" % "mysql-connector-java" % "8.0.30"  
)

代码如下：

package cn.lh.spark  import org.apache.spark.ml.{Pipeline, PipelineModel}  
import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel}  
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator  
import org.apache.spark.ml.feature.{IndexToString, StringIndexer, StringIndexerModel, VectorIndexer, VectorIndexerModel}  
import org.apache.spark.ml.linalg.{Vectors,Vector}  
import org.apache.spark.rdd.RDD  
import org.apache.spark.sql.{DataFrame, Row, SparkSession}  case class Iris(features: org.apache.spark.ml.linalg.Vector, label: String)  /**  * 二项逻辑斯蒂回归来解决二分类问题  */  
object MLlibLogisticRegression {  def main(args: Array[String]): Unit = {  val spark: SparkSession = SparkSession.builder().master("local[2]")  .appName("Spark MLlib Demo List").getOrCreate()  val irisRDD: RDD[Iris] = spark.sparkContext.textFile("F:\\niit\\2023\\2023_2\\Spark\\codes\\data\\iris.txt")  .map(_.split(",")).map(p =>  Iris(Vectors.dense(p(0).toDouble, p(1).toDouble, p(2).toDouble, p(3).toDouble), p(4).toString()))  import spark.implicits._  val data: DataFrame = irisRDD.toDF()  data.show()  data.createOrReplaceTempView("iris")  val df: DataFrame = spark.sql("select * from iris where label != 'Iris-setosa'")  df.map(t => t(1)+":"+t(0)).collect().foreach(println)  //    构建ML的pipeline  val labelIndex: StringIndexerModel = new StringIndexer().setInputCol("label")  .setOutputCol("indexedLabel").fit(df)  val featureIndexer: VectorIndexerModel = new VectorIndexer().setInputCol("features")  .setOutputCol("indexedFeatures").fit(df)  //    划分数据集  val Array(trainingData, testData) = df.randomSplit(Array(0.7, 0.3))  //    设置逻辑回归模型参数  val lr: LogisticRegression = new LogisticRegression().setLabelCol("indexedLabel")  .setFeaturesCol("indexedFeatures").setMaxIter(10).setRegParam(0.3).setElasticNetParam(0.8)  //    设置一个labelConverter，目的是把预测的类别重新转化成字符型的  val labelConverter: IndexToString = new IndexToString().setInputCol("prediction")  .setOutputCol("predictedLabel").setLabels(labelIndex.labels)  //    构建pipeline，设置stage，然后调用fit()来训练模型  val lrPipeline: Pipeline = new Pipeline().setStages(Array(labelIndex, featureIndexer, lr, labelConverter))  val lrmodle: PipelineModel = lrPipeline.fit(trainingData)  val lrPredictions: DataFrame = lrmodle.transform(testData)  lrPredictions.select("predictedLabel", "label", "features", "probability")  .collect().foreach { case Row(predictedLabel: String, label: String, features: Vector, prob: Vector) =>  println(s"($label, $features) --> prob=$prob, predicted Label=$predictedLabel")}  //    模型评估  val evaluator: MulticlassClassificationEvaluator = new MulticlassClassificationEvaluator()  .setLabelCol("indexedLabel").setPredictionCol("prediction")  val lrAccuracy: Double = evaluator.evaluate(lrPredictions)  println("Test Error = " + (1.0 - lrAccuracy))  val lrmodel2: LogisticRegressionModel = lrmodle.stages(2).asInstanceOf[LogisticRegressionModel]  println("Coefficients: " + lrmodel2.coefficients+"Intercept: " +  lrmodel2.intercept+"numClasses: "+lrmodel2.numClasses+"numFeatures: "+lrmodel2.numFeatures)  spark.stop()  }  }

运行结果如下：
在这里插入图片描述

【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建逻辑回归鸢尾花分类预测模型】

逻辑回归进行鸢尾花分类的案例背景说明： 基于IDEA Spark 3.4.1 sbt 1.9.3 Spark MLlib 构建逻辑回归鸢尾花分类预测模型，这是一个分类模型案例，通过该案例，可以快速了解Spark MLlib分类预测模型的使用方法。依赖 ThisBui…...

编程日记 2023/8/8 18:13:58

资深测试老鸟整理，性能测试-常见调优详细，卷起来...

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言常见的一些性能缺…...

编程日记 2023/8/8 18:12:56

【第五章 flutter学习之flutter进阶组件-上篇】

文章目录一、列表组件1.常规列表2.动态列表二、FridView组件三、Stack层叠组件四、AspectRatio Card CircleAvatar组件五、按钮组件六、Stack组件七、Wrap组件八、StatefulWidget有状态组件总结一、列表组件 1.常规列表 children: const <Widget>[ListTile(leading: …...

编程日记 2023/8/8 18:11:55

鸿蒙边缘计算网关正式开售

IDO-IPC3528鸿蒙边缘计算网关基于RK3568研发设计，采用22nm先进工艺制程，四核A55 CPU，主频高达2.0GHz，支持高达8GB高速LPDDR4，1T算力NPU，4K H.265/H264硬解码；视频输出接口HDMI2.0，双…...

编程日记 2023/8/8 18:10:54

Bytebase 2.5.0 - VCS 集成支持 Azure DevOps，支持达梦数据库

🚀 新功能 VCS 集成支持 Azure DevOps。研发版本支持达梦数据库。允许用户设置需要重新登录的频率。支持选择并导出数据库变更历史。新增 MySQL Schema 设计器。支持字段模板库。 🎄 改进在 SQL 编辑器中，优化 MongoDB 的查询结果。优化 …...

编程日记 2023/8/8 18:09:53

tomcat通过systemctl启动时报错Cannot find /usr/local/tomcat/bin/setclasspath.sh

解决方法，检查自己的CATALINA_HOME和TOMCAT_HOME配置情况我的配置在/etc/profile下的如下使其立即生效后将/usr/lib/systemd/system/tomcat.service中的CATALINA_HOME和TOMCAT_HOME和/etc/profile改一致重新加载再重启解决解决方法，检查自己的C…...

编程日记 2023/8/8 18:08:51

Django架构图

1. Django 简介基本介绍 Django 是一个由 Python 编写的一个开放源代码的 Web 应用框架使用 Django，只要很少的代码，Python 的程序开发人员就可以轻松地完成一个正式网站所需要的大部分内容，并进一步开发出全功能的 Web 服务 Django 本身…...

编程日记 2023/8/8 18:07:50

vue- 创建wms-web项目

vue 发展历程安装vite 第一步创建wms-web项目第二步打开文件夹并安装所有开发环境的依赖都可以放静态资源 public>vite.svg 不会重新编译成其他名字 assets>vue.svg 会重新编译成一个随机的名称重新编译启动第三步 spa 单页渲染第四步安装路由第五步 …...

编程日记 2023/8/8 18:06:47

集成学习：机器学习模型如何“博采众长”

前置概念偏差指模型的预测值与真实值之间的差异，它反映了模型的拟合能力。方差指模型在不同的训练集上产生的预测结果的差异，它反映了模型的稳定性。方差和偏差对预测结果所造成的影响在机器学习中，我们通常希望模型的偏差和方差都…...

编程日记 2023/8/8 18:05:45

排序算法（二）

1.希尔排序-Shell Sort 1.算法原理将未排序序列按照增量gap的不同分割为若干个子序列，然后分别进行插入排序，得到若干组排好序的序列； 缩小增量gap，并对分割为的子序列进行插入排序；最后一次的gap1，即整个…...

编程日记 2023/8/8 18:04:43

CVPR 2023 | 无监督深度概率方法在部分点云配准中的应用

注1：本文系“计算机视觉/三维重建论文速递”系列之一，致力于简洁清晰完整地介绍、解读计算机视觉，特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。本次介绍的论文是：2023年，CVPR,…...

编程日记 2023/8/8 18:03:42

HTTP隧道识别与防御：机器学习的解决方案

随着互联网的快速发展，HTTP代理爬虫已成为数据采集的重要工具。然而，随之而来的是恶意爬虫对网络安全和数据隐私的威胁。为了更好地保护网络环境和用户数据，我们进行了基于机器学习的HTTP代理爬虫识别与防御的研究。以增强对HTTP代理爬虫的识…...

编程日记 2023/8/8 18:02:41

【MMU】认识 MMU 及内存映射的流程

MMU（Memory Manager Unit），是内存管理单元，负责将虚拟地址转换成物理地址。除此之外，MMU 实现了内存保护，进程无法直接访问物理内存，防止内存数据被随意篡改。目录一、内存管理体系结构 1、…...

编程日记 2023/8/8 18:01:39

前言涵盖之前文章: Clion开发STM32之HAL库SPI封装(基础库) W25Q64驱动头文件 #ifndef F1XX_TEMPLATE_MODULE_W25Q64_H #define F1XX_TEMPLATE_MODULE_W25Q64_H#include "sys_core.h" /* Private typedef ---------------------------------------------------…...

编程日记 2023/8/8 18:00:38

SpringBoot动态切换数据源

SpringBoot整合多数据源，动态添加新数据源并切换 1.需求2.创建数据源配置类3.切换数据源4.切换数据源管理类5.使用案例5.AOP切面拦截 1.需求低代码服务需要给多套系统进行功能配置，要求表结构必须生成在对应系统的数据库中，所以表结构的生成…...

编程日记 2023/8/8 17:59:37

[C++项目] Boost文档站内搜索引擎(4): 搜索的相关接口的实现、线程安全的单例index接口、cppjieba分词库的使用、综合调试...

有关Boost文档搜索引擎的项目的前三篇文章, 已经分别介绍分析了: 项目背景: 🫦[C项目] Boost文档站内搜索引擎(1): 项目背景介绍、相关技术栈、相关概念介绍…文档解析、处理模块parser的实现: 🫦[C项目] Boost文档站内搜索引擎(2): 文档文本解析模块…...

编程日记 2023/8/8 17:58:36

SAP ABAP元素域值描述通过函数（DD_DOMVALUE_TEXT_GET）获取

代码如下： PERFORM FRM_GET_DOMVALUE_TEXT USING ZMMD_ZFLZQ <GFS_DATA>-ZFLZQ CHANGING <GFS_DATA>-ZZQTEXT .IF <GFS_DATA>-ZXYLX IS NOT INITIAL .PERFORM FRM_GET_DOMVALUE_TEXT USING ZMMD_ZXYLX <GFS_DATA>-ZXYLX CHANGING <GFS_…...

编程日记 2023/8/8 17:57:34

原型模式与享元模式：提升系统性能的利器

原型模式和享元模式，前者是在创建多个实例时，对创建过程的性能进行调优；后者是用减少创建实例的方式，来调优系统性能。这么看，你会不会觉得两个模式有点相互矛盾呢？ 在有些场景下，我们需要重复…...

编程日记 2023/8/8 17:56:33

uniapp封装手写签名

组件代码 cat-signature <template><view v-if"visibleSync" class"cat-signature" :class"{visible:show}" touchmove.stop.prevent"moveHandle"><view class"mask" tap"close" /><view c…...

编程日记 2023/8/8 17:55:32

掌握 JVM 调优命令

常用命令 1、jps查看当前 java 进程2、jinfo实时查看和调整 JVM 配置参数3、jstat查看虚拟机统计信息4、jstack查看线程堆栈信息5、jmap查看堆内存的快照信息 JVM 日常调优总结起来就是：首先通过 jps 命令查看当前进程，然后根据 pid 通过 jinfo 命令查看…...

编程日记 2023/8/8 17:54:28

成都鼎讯硬核科技！雷达目标与干扰模拟器，以卓越性能制胜电磁频谱战

在现代战争中，电磁频谱已成为继陆、海、空、天之后的 “第五维战场”，雷达作为电磁频谱领域的关键装备，其干扰与抗干扰能力的较量，直接影响着战争的胜负走向。由成都鼎讯科技匠心打造的雷达目标与干扰模拟器，凭借数字射…...

编程新知 2026/2/1 7:18:47

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23

使用LangGraph和LangSmith构建多智能体人工智能系统

现在，通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战，比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。在这篇博客〔原作者&a…...

编程新知 2026/1/26 13:48:59

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join 1、依赖1.1、依赖版本1.2、pom.xml 2、代码2.1、SqlSession 构造器2.2、MybatisPlus代码生成器2.3、获取 config.yml 配置2.3.1、config.yml2.3.2、项目配置类 2.4、ftl 模板2.4.1、…...

编程新知 2025/9/26 12:26:35

【JavaSE】多线程基础学习笔记

多线程基础 -线程相关概念程序（Program） 是为完成特定任务、用某种语言编写的一组指令的集合简单的说:就是我们写的代码进程进程是指运行中的程序，比如我们使用QQ，就启动了一个进程，操作系统就会为该进程分配内存…...

编程新知 2025/9/12 0:57:34

深度学习之模型压缩三驾马车：模型剪枝、模型量化、知识蒸馏

一、引言在深度学习中，我们训练出的神经网络往往非常庞大（比如像 ResNet、YOLOv8、Vision Transformer），虽然精度很高，但“太重”了，运行起来很慢，占用内存大，不适合部署到手机、摄…...

编程新知 2025/9/24 3:56:34

二维FDTD算法仿真

二维FDTD算法仿真，并带完全匹配层，输入波形为高斯波、平面波 FDTD_二维/FDTD.zip , 6075 FDTD_二维/FDTD_31.m , 1029 FDTD_二维/FDTD_32.m , 2806 FDTD_二维/FDTD_33.m , 3782 FDTD_二维/FDTD_34.m , 4182 FDTD_二维/FDTD_35.m , 4793...

编程新知 2025/9/10 21:14:06

车载诊断架构 --- ZEVonUDS（J1979-3）简介第一篇

我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是…...

编程新知 2026/1/26 21:09:29

门静脉高压——表现

一、门静脉高压表现 00:01 1. 门静脉构成 00:13 组成结构：由肠系膜上静脉和脾静脉汇合构成，是肝脏血液供应的主要来源。淤血后果：门静脉淤血会同时导致脾静脉和肠系膜上静脉淤血，引发后续系列症状。 2. 脾大和脾功能亢进 00:46 …...

编程新知 2026/2/2 5:12:38

【Ftrace 专栏】Ftrace 参考博文

ftrace、perf、bcc、bpftrace、ply、simple_perf的使用Ftrace 基本用法Linux 利用 ftrace 分析内核调用如何利用ftrace精确跟踪特定进程调度信息使用 ftrace 进行追踪延迟Linux-培训笔记-ftracehttps://www.kernel.org/doc/html/v4.18/trace/events.htmlhttps://blog.csdn.net/…...

编程新知 2026/1/20 3:30:27

【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建逻辑回归鸢尾花分类预测模型】

逻辑回归进行鸢尾花分类的案例

背景说明：

依赖

代码如下：

相关文章：

【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建逻辑回归鸢尾花分类预测模型】

资深测试老鸟整理，性能测试-常见调优详细，卷起来...

【第五章 flutter学习之flutter进阶组件-上篇】

鸿蒙边缘计算网关正式开售

Bytebase 2.5.0 - VCS 集成支持 Azure DevOps，支持达梦数据库

tomcat通过systemctl启动时报错Cannot find /usr/local/tomcat/bin/setclasspath.sh

Django架构图

vue- 创建wms-web项目

集成学习：机器学习模型如何“博采众长”

排序算法（二）

CVPR 2023 | 无监督深度概率方法在部分点云配准中的应用

HTTP隧道识别与防御：机器学习的解决方案

【MMU】认识 MMU 及内存映射的流程

Clion开发Stm32之存储模块(W25Q64)驱动编写

SpringBoot动态切换数据源

[C++项目] Boost文档站内搜索引擎(4): 搜索的相关接口的实现、线程安全的单例index接口、cppjieba分词库的使用、综合调试...

SAP ABAP元素域值描述通过函数（DD_DOMVALUE_TEXT_GET）获取

原型模式与享元模式：提升系统性能的利器

uniapp封装手写签名

掌握 JVM 调优命令

成都鼎讯硬核科技！雷达目标与干扰模拟器，以卓越性能制胜电磁频谱战

初探Service服务发现机制

使用LangGraph和LangSmith构建多智能体人工智能系统

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join

【JavaSE】多线程基础学习笔记

深度学习之模型压缩三驾马车：模型剪枝、模型量化、知识蒸馏

二维FDTD算法仿真

车载诊断架构 --- ZEVonUDS（J1979-3）简介第一篇

门静脉高压——表现

【Ftrace 专栏】Ftrace 参考博文