spark mllib 特征学习笔记 (二)
当然,请继续介绍其他特征处理方法的公式、适用场景和案例:
10. StringIndexer
公式:
将字符串类型的标签转换为数值索引:
StringIndexer ( x ) = { 0 , 1 , 2 , … , N − 1 } \text{StringIndexer}(x) = \{0, 1, 2, \ldots, N-1\} StringIndexer(x)={0,1,2,…,N−1}
适用场景:
用于将分类标签转换为数值标签,以便机器学习算法处理。
案例:
from pyspark.ml.feature import StringIndexerdata = spark.createDataFrame([(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")], ["id", "category"])
indexer = StringIndexer(inputCol="category", outputCol="categoryIndex")
indexedData = indexer.fit(data).transform(data)
indexedData.show()
11. VectorAssembler
公式:
将多个特征列合并成一个特征向量:
VectorAssembler ( x 1 , x 2 , … , x n ) = [ x 1 , x 2 , … , x n ] \text{VectorAssembler}(\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n) = [\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n] VectorAssembler(x1,x2,…,xn)=[x1,x2,…,xn]
适用场景:
用于将多个特征列合并成一个特征向量,作为机器学习算法的输入。
案例:
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.linalg import Vectorsdata = spark.createDataFrame([(1, 2, 3), (4, 5, 6)], ["a", "b", "c"])
assembler = VectorAssembler(inputCols=["a", "b", "c"], outputCol="features")
assembledData = assembler.transform(data)
assembledData.show()
12. Word2Vec
公式:
Word2Vec 是一种词嵌入模型,通过训练将单词映射到低维向量空间:
Word2Vec ( sentence ) = v \text{Word2Vec}(\text{sentence}) = \mathbf{v} Word2Vec(sentence)=v
其中 (\mathbf{v}) 是单词的向量表示。
适用场景:
用于自然语言处理中的词语表示学习,以便后续应用于文本分类、文本相似度等任务。
案例:
from pyspark.ml.feature import Word2Vecdata = spark.createDataFrame([("Hi I heard about Spark".split(" "),),("I wish Java could use case classes".split(" "),),("Logistic regression models are neat".split(" "),)
], ["text"])word2Vec = Word2Vec(vectorSize=3, minCount=0, inputCol="text", outputCol="result")
model = word2Vec.fit(data)
result = model.transform(data)
result.show(truncate=False)
这些例子展示了 PySpark MLlib 中几种常用的特征处理方法的基本用法和应用场景。根据具体的数据和任务需求,选择合适的特征处理方法可以有效地提高模型的性能和准确性。
当然,请继续介绍其他特征处理方法的公式、适用场景和案例:
13. UnivariateFeatureSelector
公式:
基于单变量统计测试选择特征,例如卡方检验:
UnivariateFeatureSelector ( X , y ) = { features with highest score } \text{UnivariateFeatureSelector}(X, y) = \{ \text{features with highest score} \} UnivariateFeatureSelector(X,y)={features with highest score}
适用场景:
用于基于单变量统计测试(如卡方检验)选择与标签相关性最高的特征。
案例:
from pyspark.ml.feature import UnivariateFeatureSelector
from pyspark.ml.linalg import Vectorsdata = [(1, Vectors.dense(0.0, 1.1, 0.1)),(0, Vectors.dense(2.0, 1.0, -1.0)),(0, Vectors.dense(2.0, 1.3, 1.0)),(1, Vectors.dense(0.0, 1.2, -0.5))]
df = spark.createDataFrame(data, ["label", "features"])selector = UnivariateFeatureSelector(featuresCol="features", outputCol="selectedFeatures", labelCol="label", selectionMode="numTopFeatures", numTopFeatures=1)
result = selector.fit(df).transform(df)
result.show()
14. VarianceThresholdSelector
公式:
基于方差选择特征,移除方差低于阈值的特征:
VarianceThresholdSelector ( X ) = { features with variance above threshold } \text{VarianceThresholdSelector}(X) = \{ \text{features with variance above threshold} \} VarianceThresholdSelector(X)={features with variance above threshold}
适用场景:
用于移除方差较低的特征,以减少噪声对模型的影响。
案例:
from pyspark.ml.feature import VarianceThresholdSelector
from pyspark.ml.linalg import Vectorsdata = [(1, Vectors.dense(0.0, 1.0, 0.0)),(0, Vectors.dense(0.0, 1.0, 1.0)),(0, Vectors.dense(0.0, 1.0, 0.0))]
df = spark.createDataFrame(data, ["label", "features"])selector = VarianceThresholdSelector(featuresCol="features", outputCol="selectedFeatures", threshold=0.0)
result = selector.fit(df).transform(df)
result.show()
15. VectorIndexer
公式:
索引化向量中的类别特征列:
VectorIndexer ( X ) = { indexed features } \text{VectorIndexer}(X) = \{ \text{indexed features} \} VectorIndexer(X)={indexed features}
适用场景:
用于处理数据集中的向量特征,自动识别并索引类别特征。
案例:
from pyspark.ml.feature import VectorIndexer
from pyspark.ml.linalg import Vectorsdata = [(Vectors.dense(1.0, 2.0, 3.0),),(Vectors.dense(2.0, 5.0, 6.0),),(Vectors.dense(1.0, 8.0, 9.0),)]
df = spark.createDataFrame(data, ["features"])indexer = VectorIndexer(inputCol="features", outputCol="indexed", maxCategories=2)
indexedData = indexer.fit(df).transform(df)
indexedData.show()
16. VectorSizeHint
公式:
添加向量列的大小信息到元数据中:
VectorSizeHint ( X ) = { features with size hint in metadata } \text{VectorSizeHint}(X) = \{ \text{features with size hint in metadata} \} VectorSizeHint(X)={features with size hint in metadata}
适用场景:
用于在向量列中添加大小信息,以提供给后续流水线阶段使用。
案例:
from pyspark.ml.feature import VectorSizeHint
from pyspark.ml.linalg import Vectorsdata = [(Vectors.dense([1.0, 2.0]),),(Vectors.dense([2.0, 3.0]),)]
df = spark.createDataFrame(data, ["features"])sizeHint = VectorSizeHint(inputCol="features", size=2)
sizeHint.transform(df).show()
这些例子展示了更多 PySpark MLlib 中特征处理方法的公式、适用场景和简单案例。每种方法都有其特定的数学原理和适用范围,根据具体任务的需求选择合适的方法可以提高数据处理的效率和模型的预测性能。
相关文章:
spark mllib 特征学习笔记 (二)
当然,请继续介绍其他特征处理方法的公式、适用场景和案例: 10. StringIndexer 公式: 将字符串类型的标签转换为数值索引: StringIndexer ( x ) { 0 , 1 , 2 , … , N − 1 } \text{StringIndexer}(x) \{0, 1, 2, \ldots, N-1…...
湘潭大学软件工程数据库2(题型,复习资源和计划)
文章目录 选择题关系范式事务分析E-R 图sql作业题答案链接(仅限有官方答案的版本)结语 现在实验全部做完了,实验和作业占比是百分之 40 ,通过上图可以看出来,重点是 sql 语言 所以接下来主要就是学习 sql 语句怎么书写…...
第二十三节:带你梳理Vue2:Vue插槽的认识和基本使用
前言: 通过上一节的学习,我们知道了如何将数据从父组件中传递到子组件中, 除了除了将数据作为props传入到组件中,Vue还允许传入HTML, Vue 实现了一套内容分发的 API,这套 API 的设计灵感源自 Web Components 规范草案,将 <slot> 元素作为承载分发…...
父亲节马上到了-和我一起用Python写父亲节的祝福吧
前言 让我们一起用Python写一段父亲节的祝福吧 📝个人主页→数据挖掘博主ZTLJQ的主页 个人推荐python学习系列: ☄️爬虫JS逆向系列专栏 - 爬虫逆向教学 ☄️python系列专栏 - 从零开始学python 话不多说先上代码 import tkinter as tk from doctest imp…...
winform 应用程序 添加 wpf控件后影响窗体DPI改变
第一步:添加 应用程序清单文件 app.manifest 第二步:把这段配置 注释放开,第一个配置true 改成false...
Web前端开发素材:探索、选择与应用的艺术
Web前端开发素材:探索、选择与应用的艺术 在Web前端开发的广袤领域中,素材的选择与应用无疑是一项至关重要的技能。它们如同构建网页的砖石,既承载着设计的美感,又影响着用户体验的深度。本文将从四个方面、五个方面、六个方面和…...
LeetCode | 20.有效的括号
这道题就是栈这种数据结构的应用,当我们遇到左括号的时候,比如{,(,[,就压栈,当遇到右括号的时候,比如},),],就把栈顶元素弹出,如果不匹配,则返回False,当遍历完所有元素后…...
ceph scrub 错误记录
目的 记录 ceph scrub 错误问题解决 ceph scrub 故障故障信息 cluster:id: xxx-xxx-xxxhealth: HEALTH_ERR2 scrub errorsPossible data damage: 2 pg inconsistentmessage 日志信息 # egrep -i medium|i\/o error|sector|Prefailure /var/log/messages Jun 15 00:23:37 m…...
cs与msf权限传递,以及mimikatz抓取明文密码
cs与msf权限传递,以及mimikatz抓取win10明文密码 1、环境准备2、Cobalt Strike ------> MSF2.1 Cobalt Strike拿权限2.2 将CS权限传递给msf 3、MSF ------> Cobalt Strike3.1 msf拿权限3.2 将msf权限传递给CS 4、使用mimikatz抓取明文密码 1、环境准备 攻击&…...
Windows下的zip压缩包版Mysql8.3.0数据迁移到Mysql8.4.0可以用拷贝data文件夹的方式
Windows下的zip压缩包版Mysql8.3.0数据迁移到Mysql8.4.0可以用拷贝data文件夹的方式 拷贝后, 所有账户和数据都是一样的 步骤 停止MySQL服务 net stop mysql 或 sc.exe stop mysql net stop mysqlsc.exe stop mysql卸载 Mysql8.3.0 的服务 mysqld remove 或 mysqld remove m…...
软件体系结构笔记(自用)
来自《软件体系结构原理、方法与实践(第三版)》清华大学出版社 张友生编著 1-8章12章 复习笔记 如有错误,欢迎指正!!!...
java安装并配置环境
安装前请确保本机没有java的残留,否则将会安装报错 1.安装java jdk:安装路径Java Downloads | Oracle 中国 百度网盘链接:https://pan.baidu.com/s/11-3f2QEquIG3JYw4syklmQ 提取码:518e 2.双击 按照流程直接点击下一步&#x…...
探索互联网寻址机制 | 揭秘互联网技术的核心,解析网络寻址
揭秘互联网技术的核心,解析网络寻址题 前提介绍局域网地址IP地址的分配方式动态IP分配机制内部网(intranet)ICANN负责IP分配DHCP协议获取IP地址 域名系统域名是什么域名工作方式hosts文件存储域名映射关系DNS分布式数据库DNS域名解析 Java进行…...
C语言学习笔记之结构篇
C语言是一门结构化程序设计语言。在C语言看来,现实生活中的任何事情都可看作是三大结构或者三大结构的组合的抽象,即顺序,分支(选择),循环。 所谓顺序就是一条路走到黑;生活中在很多事情上我们都…...
C++笔记之一个函数多个返回值的方法、std::pair、std::tuple、std::tie的用法
C++笔记之一个函数多个返回值的方法、std::pair、std::tuple、std::tie的用法 —— 2024-06-08 杭州 code review! 文章目录 C++笔记之一个函数多个返回值的方法、std::pair、std::tuple、std::tie的用法一.从一个函数中获取多个返回值的方法1. 使用结构体或类2. 使用`std::t…...
GDB:从零开始入门GDB
目录 1.前言 2.开启项目报错 3.GDB的进入和退出 4.GDB调试中查看代码和切换文件 5.GDB调试中程序的启动和main函数传参 6.GDB中断点相关的操作 7.GDB中的调试输出指令 8.GDB中自动输出值指令 9.GDB中的调试指令 前言 在日常开发中,调试是我们必不可少的技能。在专业…...
服务器权限管理
我们linux服务器上有严格的权限等级,如果权限过高导致误操作会增加服务器的风险。所以对于了解linux系统中的各种权限及要给用户,服务等分配合理的权限十分重要。(权限越大,责任越大) 1.基本权限 U--user用户,G-group…...
08 SpringBoot 自定定义配置
SpringBoot自定义配置有三种方式: 使用PropertySource进行自定义配置 使用ImportResource进行自定义配置 使用Configuration进行自定义配置 PropertySource 如果将所有的配置都集中到 application.properties 或 application.yml 中,那么这个配置文…...
Java之3DES(Triple DES)加密计算(DESede/ECB/ZeroPadding)
Java环境本身并不直接支持DESede/ECB/ZeroPadding。 不过,可以通过以下几种方式来实现DESede/ECB/ZeroPadding: 手动实现填充和去除填充:如前面示例代码所示,在加密之前进行填充,在解密之后去除填充。这是一个通用的方…...
从0开发一个Chrome插件:项目实战——广告拦截插件
前言 这是《从0开发一个Chrome插件》系列的第十七篇文章,本系列教你如何从0去开发一个Chrome插件,每篇文章都会好好打磨,写清楚我在开发过程遇到的问题,还有开发经验和技巧。 专栏: 从0开发一个Chrome插件:什么是Chrome插件?从0开发一个Chrome插件:开发Chrome插件的必…...
C++ 32 之 静态成员函数
#include <iostream> #include <string> using namespace std;// 特点: // 1.在编译阶段就分配了内存空间 // 2.类内声明,在类外进行初始化 // 3.所有对象共享一份静态成员数据 class Students02{ public:int s_c;static int s_d;// 静态成员函数&#…...
Python闯LeetCode--第1题:两数之和
Problem: 1. 两数之和 文章目录 思路解题方法复杂度Code 思路 看到这道题第一思路就是暴力破解,枚举,两个for循环遍历,直到找到满足要求的答案。主要因题目假设只有一组满足结果的答案,因此难度大大降低,作为第一道题&…...
SSM情侣购物系统-计算机毕业设计源码02387
目 录 摘要 1 绪论 1.1 开发背景与意义 1.2开发意义 1.3Vue.js 主要功能 1.3论文结构与章节安排 2 情侣购物系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分…...
09-Spark架构
相比MapReduce僵化的Map与Reduce分阶段计算,Spark计算框架更有弹性和灵活性,运行性能更佳。 1 Spark的计算阶段 MapReduce一个应用一次只运行一个map和一个reduceSpark可根据应用复杂度,分割成更多的计算阶段(stage)…...
挑战5分钟内基于Springboot+SpringMVC+Mybatis-plus快速构建web后端三层架构
目标 在清晨的代码编辑器上,一场新的挑战即将开始。程序员们肃立于安静的办公室,眼神专注地盯着屏幕,等待着编译器的一声提示。 随着编译器输出的激动人心的"start!"的提示,战斗的序幕拉开了。Bug如潮水般涌来&#x…...
浅谈JavaScript中的作用域
前言 今天就来简单聊聊JavaScript中的作用域吧!!! 正文 我们都知道,在任何一门编程语言里面都是有作用域这个概念的,不然岂不乱套了 在js中的作用域一共分为三种,全局域、函数域和块级作用域 全局域 全…...
Python | C++漂移扩散方程和无风险套利公式算法微分
🎯要点 🎯漂移扩散方程计算微分 | 🎯期权无风险套利公式计算微分 | 🎯实现图结构算法微分 | 🎯实现简单正向和反向计算微分 | 🎯实现简单回归分类和生成对抗网络计算微分 | 🎯几何网格计算微分…...
python如何对list求和
如何在Python中对多个list的对应元素求和,前提是每个list的长度一样。比如:a[1,2,3],b[2,3,4],c[3,4,5],对a,b,c的对应元素…...
如何解决mfc100u.dll丢失问题,关于mfc100u.dll丢失的多种解决方法
在计算机使用过程中,我们常常会遇到一些错误提示,其中之一就是“计算显示缺失mfc100u.dll”。这个问题可能会影响到我们的正常使用,因此了解它的原因、表现以及解决方法是非常重要的。小编将详细介绍计算显示缺失mfc100u.dll的问题࿰…...
算法day32
第一题 207. 课程表 步骤一: 通过下图的课程数组,首先画出DAG图(有向无环图) 步骤二: 其次我们按照DAG图,来构建该图的拓扑排序,等有效的点都按照规则排完序后,观察是否有剩下的点的入度不为0&…...
佛山网站建设明细/东莞网站建设推广技巧
蓝牙(CoreBluetooth)-中心设备(客户端) 蓝牙客户端-中心设备 主要内容 1. 创建中央管理器 2. 发现并且连接外设 3. 寻找连接上的外设数据 4. 发送读或写特征值的请求 5. 订阅外设特征值 1. 创建中心管理器 因为CBCentralManager代表着本地中央设备,所以你必须先创建一个中央管理…...
整站优化seo排名点击/百度网址大全怎么设为主页
在java项目的实际开发和应用中,常常需要用到将对象转为String这一基本功能。本文将对常用的转换方法进行一个总结。常用的方法有Object.toString(),(String)要转换的对象,String.valueOf(Object)等。下面对这些方法一一进行分析。方法1&#…...
龙岩做网站开发大概价格/广告联盟app
代码升级确实很麻烦,不是一般的麻烦。 因为需要整理出一套配合我自己写的D3D绘图引擎,所以我选择了以前的IGE作为项目的开端。原因很简单。因为现在的那些源代码是无法完成这个工作的。 而且如果有了一套完善的基础版本,那么以后无论想改成啥…...
淄博网站备案/网络推广的优化服务
文章目录Formal软件成本评估成本评估过程中的挑战(challenges)可能的策略(possible solutions)可用的技术(Techniques)Expert judgementAnalogyParkinsons LawPricing to winAlgorithmic cost modelling (算…...
上海官网seo/优化公司
一、基于PaddlePaddle 新工具 API 的【猴痘识别】 还记否,曾经开始学习神经网络,需要手动遍历文件夹,手动生成数据列表?还记否,曾经划分数据集,不断for循环抽取数据? 多看看飞桨 API࿰…...
外贸网站建设浩森宇特/灰色广告投放平台
映射 | MAP 集合的映射操作是将来在编写Spark/Flink用得最多的操作,是我们必须要掌握的。因为进行数据计算的时候,就是一个将一种数据类型转换为另外一种数据类型的过程。 map方法接收一个函数,将这个函数应用到每一个元素,返回一…...