当前位置: 首页 > news >正文

数据预处理 #数据挖掘 #python

数据分析中的预处理步骤是数据分析流程中的重要环节,它的目的是清洗、转换和整理原始数据,以便后续的分析能够准确、有效。预处理通常包括以下几个关键步骤:

  1. 数据收集:确定数据来源,可能是数据库、文件、API或网络抓取,确保数据的质量和完整性。

  2. 数据清洗(Data Cleaning)

    • 缺失值处理:填充、删除或估算缺失的数据。
    • 异常值检测:识别并可能修复或排除不合理的数值。
    • 重复值检查:删除重复记录,保持数据唯一性。
    • 数据类型转换:将数据调整为正确的格式,如日期时间格式化、数值类型等。
  3. 数据集成(Data Integration):如果数据来自多个源,需要合并和统一数据格式。

  4. 数据转换(Data Transformation)

    • 标准化或归一化:使数据具有可比性,例如Z-score标准化或Min-Max缩放。
    • 编码分类变量:如One-Hot Encoding或Label Encoding。
    • 特征工程:创建新的特征,比如从文本中提取关键词或计算衍生指标。
  5. 数据降维(Dimensionality Reduction):如果数据维度过高,可能使用PCA(主成分分析)或LDA(潜在狄利克雷分配)等方法减少冗余。

  6. 数据划分(Data Splitting):将数据集分为训练集、验证集和测试集,用于模型的训练和评估。

  7. 数据采样(Sampling):对于大规模数据,可能需要进行随机抽样或分层抽样以平衡类别分布。

  8. 数据可视化(Exploratory Data Analysis, EDA):初步了解数据的分布、关联性和模式。

完成这些预处理步骤后,数据就准备好了供机器学习模型进行训练和预测。预处理的质量直接影响到分析结果的可靠性。


接下来进行一个小小案例讲解:

  • 1、缺失值处理
#1、
#读取数据
import pandas as pd
data = pd.read_excel('学生信息表.xlsx')
#查看属性缺失值情况
data.info()
data.isnull()
#删除“籍贯”为空的行
data = data.dropna(subset=["籍贯"])
#使用平均年龄填充“年龄”属性为空的数据
data['年龄'].fillna(data['年龄'].mean(),inplace=True)
#使用性别的众数填充“性别”属性为空的列
data.fillna({'性别':data['性别'].mode()[0]},inplace=True)
  • (1)读取“学生信息表.xlsx”。
  • (2)使用info()方法查看每一属性的缺失值情况。
  • (3)删除“籍贯”属性为空的行。
  • (4)使用平均年龄填充“年龄”属性为空的数据。
  • (5)使用性别的众数填充“性别”属性为空的列。
  • 2、非数值数据处理
  • #2、
    #将“性别”属性设置为哑变量,删除“性别_女”,并将“性别_男”改为“性别”
    data = pd.get_dummies(data,columns=['性别'])
    data = data.drop(columns = '性别_女')
    data = data.rename(columns={'性别_男':'性别'})
    #对“籍贯”属性进行编号处理
    from sklearn.preprocessing import LabelEncoder
    le = LabelEncoder()
    label = le.fit_transform(data['籍贯'])
    data['籍贯'] = label
  • (1)将“性别”属性设置为哑变量,删除“性别_女”,并将“性别_男”改为“性别”。
  • (1为性别男,0为性别女)
  • (2)对“籍贯”属性进行编号处理。
  • (0为云南;1为江苏;2为浙江;3为湖北)
  • 3、异常值的处理
  • #3、
    #箱线图观察“年龄”属性有无异常值
    data.boxplot(column ='年龄' )
    #对异常值进行标注,标注在out1属性中
    import numpy as np
    data['out1'] = np.where(data['年龄'] < 30,0,1)
    #使用2倍标准差法标注异常值,标注在out2属性中
    data['out2'] = abs((data['年龄']-data['年龄'].mean())/data['年龄'].std()) > 2
  • (1)箱线图观察“年龄”属性有无异常值;
  • (2)对异常值进行标注,标注在out1属性中;
  • (3)使用2倍标准差法标注异常值,标注在out2属性中。
  • 4、数据标准化
  • #4、
    #生成数据
    data2 = pd.DataFrame({'酒精含量(%)': [50, 60, 40, 80, 90], '苹果酸含量(%)': [2, 1, 1, 3, 2]})
    print(data2)
    #对各列进行z-score标准化
    from sklearn.preprocessing import StandardScaler
    data2_new1 = StandardScaler().fit_transform(data2)
    print(data2_new1)
    #对各列进行min-max标准化
    from sklearn.preprocessing import MinMaxScaler
    data2_new2 = MinMaxScaler().fit_transform(data2)
    print(data2_new2)
  • 如下数据:
  • (1)对以上数据的各列进行z-score标准化;
  • (2)对以上数据的各列进行min-max标准化。
  • 5、生成多项式特征
  • #5、
    #生成多项式特征
    from sklearn.preprocessing import PolynomialFeatures
    data3 = np.array([[2,3],[2,4]])
    print(data3)
    pf1=PolynomialFeatures(degree=2)
    print(pf1.fit_transform(data3))
    pf2=PolynomialFeatures(degree=2,include_bias=False)
    print(pf2.fit_transform(data3))
    pf3=PolynomialFeatures(degree=2,include_bias=False,interaction_only=True)
    print(pf3.fit_transform(data3))
    
  • 现在有(a,b)两个特征,生成二次多项式则为(1,a, b , ab, a^2, b^2),并用以下数据做测试:data3:

pf1:

pf2:

pf3:

相关文章:

数据预处理 #数据挖掘 #python

数据分析中的预处理步骤是数据分析流程中的重要环节&#xff0c;它的目的是清洗、转换和整理原始数据&#xff0c;以便后续的分析能够准确、有效。预处理通常包括以下几个关键步骤&#xff1a; 数据收集&#xff1a;确定数据来源&#xff0c;可能是数据库、文件、API或网络抓取…...

VS2022 使用C++访问 mariadb 数据库

首先,下载 MariaDB Connector/C++ 库 MariaDB Products & Tools Downloads | MariaDB 第二步,安装后 第三步,写代码 #include <iostream> #include <cstring> #include <memory> #include <windows.h>#include <mariadb/conncpp.hpp>…...

kotlin 语法糖

Use of “when” Expression Instead of “switch” fun getDayOfWeek(day: Int): String {return when (day) {1 -> "Monday"2 -> "Tuesday"3 -> "Wednesday"4 -> "Thursday"5 -> "Friday"6 -> "Sa…...

.NET MAUI Sqlite数据库操作(一)

一、安装 NuGet 包 安装 sqlite-net-pcl 安装 SQLitePCLRawEx.bundle_green 二、配置数据库&#xff08;数据库文件名和路径&#xff09; namespace TodoSQLite; public static class Constants {public const string DatabaseFilename "TodoSQLite.db3";//数据库…...

SQL 窗口函数

1.窗口函数之排序函数 RANK, DENSE_RANK, ROW_NUMBER RANK函数 计算排序时,如果存在相同位次的记录,则会跳过之后的位次 有 3 条记录排在第 1 位时: 1 位、1 位、1 位、4 位…DENSE_RANK函数 同样是计算排序,即使存在相同位次的记录,也不会跳过之后的位次 有 3 条记录排在…...

staruml怎么合并多个Project工程文件

如图现在有两个staruml文件 现在我想要把project2合并到project1里面 步骤如下&#xff1a; 1、首先打开project2 2、如图选择导出Fragment 3、选中自己想导出的模块&#xff08;可以不止一个&#xff09; 4、将其保存在桌面 5、打开project1 6、选择导入 7、选中刚刚…...

设计模式——外观模式

外观模式(Facade) 为系统中的一组接口提供一个一致的界面&#xff0c;此模式定义了一个高层接口&#xff0c;这个接口使得这一子系统更加容易使用。 #include <iostream>using namespace std;// 四个系统子类 class SubSystemOne { public:void MethodOne(){cout <&l…...

开源-Docker部署Cook菜谱工具

开源-Docker部署Cook菜谱工具 文章目录 开源-Docker部署Cook菜谱工具介绍资源列表基础环境一、安装Docker二、配置加速器三、查看Docker版本四、拉取cook镜像五、部署cook菜谱工具5.1、创建cook容器5.2、查看容器运行状态5.3、查看cook容器日志 六、访问cook菜谱服务6.1、访问c…...

使用PHP对接企业微信审批接口的问题与解决办法(二)

在现代企业中&#xff0c;审批流程是非常重要的一环&#xff0c;它涉及到企业内部各种业务流程的规范和高效运转。而随着企业微信的流行&#xff0c;许多企业希望将审批流程整合到企业微信中&#xff0c;以实现更便捷的审批操作。本文将介绍如何使用PHP对接企业微信审批接口&am…...

RK3288 android7.1 实现ota升级时清除用户数据

一&#xff0c;OTA简介(整包&#xff0c;差分包) OTA全称为Over-The-Air technology(空中下载技术)&#xff0c;通过移动通信的接口实现对软件进行远程管理。 1. 用途&#xff1a; OTA两种类型最大的区别莫过于他们的”出发点“&#xff08;我们对两种不同升级包的创建&…...

okHttp的https请求忽略ssl证书认证

使用okhttp请求第三方https接口返回异常 sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target意思就是非安全的调用&#…...

在Java中使用Spring Boot设置全局的BusinessException

在线工具站 推荐一个程序员在线工具站&#xff1a;程序员常用工具&#xff08;http://cxytools.com&#xff09;&#xff0c;有时间戳、JSON格式化、文本对比、HASH生成、UUID生成等常用工具&#xff0c;效率加倍嘎嘎好用。 程序员资料站 推荐一个程序员编程资料站&#xff1a;…...

Java 异常处理 -- Java 语言的异常、异常链与断言

大家好,我是栗筝i,这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 009 篇文章,在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验,并希望进一步完善自己对整个 Java 技术体系来充实自…...

Spring Cloud Nacos 详解:服务注册与发现及配置管理平台

Spring Cloud Nacos 详解&#xff1a;服务注册与发现及配置管理平台 Spring Cloud Nacos 是 Spring Cloud 生态系统中的一个子项目&#xff0c;提供了服务注册与发现、配置管理等功能&#xff0c;基于 Alibaba 开源的 Nacos 项目。Nacos 是一个易于使用的动态服务发现、配置管…...

java多线程临界区介绍

在Java多线程编程中&#xff0c;"临界区"是指一段必须互斥执行的代码区域。当多个线程访问共享资源时&#xff0c;为了防止数据不一致或逻辑错误&#xff0c;需要确保同一时刻只有一个线程可以进入临界区。Java提供了多种机制来实现这一点&#xff0c;例如synchroniz…...

基于JSP的超市管理系统

你好呀&#xff0c;我是计算机学长猫哥&#xff01;如果有相关需求&#xff0c;文末可以找到我的联系方式。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;JSP MyBatis 工具&#xff1a;IDEA/Eclipse、Navicat、Maven 系统展示 员工管理界面图 管…...

一文讲清:生产报工系统的功能、报价以及如何选择

最近这几年&#xff0c;企业越来越注重生产的速度和成本&#xff0c;尤其是“性价比”&#xff0c;生产报工系统已经变成了制造业里不可或缺的一部分。不过&#xff0c;市场上生产报工系统的选择太多&#xff0c;价格也都不一样&#xff0c;这就给很多企业出了个难题&#xff1…...

blender bpy将顶点颜色转换为UV纹理vertex color to texture

一、关于环境 安装blender的bpy&#xff0c;不需要额外再安装blender软件。在python控制台中直接输入pip install bpy即可。 二、关于代码 本文所给出代码仅为参考&#xff0c;禁止转载和引用&#xff0c;仅供个人学习。 本文所给出的例子是https://download.csdn.net/downl…...

Flink Sql:四种Join方式详解(基于flink1.15官方文档)

JOINs flink sql主要有四种连接方式&#xff0c;分别是Regular Joins、Interval Joins、Temporal Joins、lookup join 1、Regular Joins&#xff08;常规连接 &#xff09; 这种连接方式和hive sql中的join是一样的&#xff0c;包括inner join&#xff0c;left join&#xff…...

(delphi11最新学习资料) Object Pascal 学习笔记---第14章泛型第3节(泛型约束)

14.3 泛型约束 ​ 正如我们所看到的&#xff0c;您在泛型类的方法中可以做的事情非常少。您可以传递它&#xff08;即分配它&#xff09;并执行上面我介绍的泛型类型函数允许的有限操作。 ​ 为了能够执行泛型类的实际操作&#xff0c;通常需要对其进行约束。例如&#xff0c…...

C语言详解(预编译)

Hi~&#xff01;这里是奋斗的小羊&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f4a5;&#x1f4a5;个人主页&#xff1a;奋斗的小羊 &#x1f4a5;&#x1f4a5;所属专栏&#xff1a;C语言 &#x1f680;本系列文章为个人学习…...

解决el-table表格拖拽后,只改变了数据,表头没变的问题

先看看是不是你想要解决的问题 拖拽后表头不变的bug修复 这个问题一般是使用v-for对column的数据进行循环的时候&#xff0c;key值绑定的是个index导致的&#xff0c;请看我上篇文章&#xff1a;eleplus对el-table表格进行拖拽(使用sortablejs进行列拖拽和行拖拽)&#xff1a;-…...

简单塔防小游戏

学习目标&#xff1a;熟悉塔防游戏核心战斗 游戏画面 项目结构目录 核心代码&#xff1a; if ( Input.GetMouseButtonDown(0)){if (EventSystem.current.IsPointerOverGameObject()false){//开发炮台的建造Ray ray Camera.main.ScreenPointToRay(Input.mousePosition);Rayca…...

高考之后第一张大流量卡应该怎么选?

高考之后第一张大流量卡应该怎么选&#xff1f; 高考结束后&#xff0c;选择一张合适的大流量卡对于准大学生来说非常重要&#xff0c;因为假期期间流量的使用可能会暴增。需要综合考虑多个因素&#xff0c;以确保选到最适合自己需求、性价比较高且稳定的套餐。以下是一些建议…...

如何从微软官方下载Edge浏览器的完整离线安装包

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 正文内容 📒🚀 官方直链下载🚬 手动选择下载🎈 获取方式 🎈⚓️ 相关链接 ⚓️📖 介绍 📖 在网上搜索Microsoft Edge浏览器的离线安装包时,很多用户都会发现大部分都是在线安装包,无法满足他们在无网络环境下进…...

git 常用的命令

git 常用的命令 一、基础命令1.1 初始化1.2 添加文件1.3 查看缓存区中的文件1.4 查看上次提交到缓存区中的文件1.5 文件从缓存区取出1.6 提交文件1.6 查看提交中包含的文件1.7 查看commit记录 二、回退命令2.1 git reset2.2 将文件从暂存区取出2.3 将文件从仓库取出2.3.1 保留工…...

【StableDiffusion】Embedding 底层原理,Prompt Embedding,嵌入向量

Embedding 是什么&#xff1f; Embedding 是将自然语言词汇&#xff0c;映射为 固定长度 的词向量 的技术 说到这里&#xff0c;需要介绍一下 One-Hot 编码 是什么。 One-Hot 编码 使用了众多 5000 长度的1维矩阵&#xff0c;每个矩阵代表一个词语。 这有坏处&#xff0c…...

计算机网络(2) 网络层:IP服务模型

一.Internet Protocol在TCP/IP四层模型中的作用 第三层网络层负责数据包从哪里来到哪里去的问题。传输层的数据段提交给网络层后&#xff0c;网络层负责添加IP段&#xff0c;包含数据包源地址与目的地址。将添加IP段的数据包交由数据链路层添加链路头形成最终在各节点传输中所需…...

新人学习笔记之(初识C语言)

一、C语言的简介 1.C语言&#xff1a;1978年1月1日美国贝尔实验室推出的一门非常哇塞计算机语言 2.计算机语言&#xff1a;人与计算机之间进行信息交流沟通的一种特殊语言 二、C语言能做什么 1.操作系统 2.驱动开发 3.引擎开发 4.游戏开发 5.嵌入式开发 三、学习C语言的好处 …...

Unity EasyRoads3D插件使用

一、插件介绍 描述 Unity 中的道路基础设施和参数化建模 在 Unity 中使用内置的可自定义动态交叉预制件和基于您自己导入的模型的自定义交叉预制件&#xff0c;直接创建独特的道路网络。 添加额外辅助对象&#xff0c;让你的场景栩栩如生&#xff1a;桥梁、安全护栏、栅栏、墙壁…...

广州外贸b2c网站建设/有域名后如何建网站

HTTP错误 大全 403 401 400 404 304 200 HTTP 400 - 请求无效 HTTP 401.1 - 未授权&#xff1a;登录失败 HTTP 401.2 - 未授权&#xff1a;服务器配置问题导致登录失败 HTTP 401.3 - ACL 禁止访问资源 HTTP 401.4 - 未授权&#xff1a;授权被筛选器拒绝 HTTP 4…...

游戏网站建设成功案例/seo线上培训班

包括&#xff1a;数字仿真算法、微分方程模型、传递函数模型、状态方程模型、模型转换、控制系统建模。6.1 控制系统的数学描述6.1.1 数学仿真算法 改进的欧拉法 龙格—库塔法1、改进的欧拉法(1) 数学含义&#xff1a;对于一阶微分方程假定y(0)y0已给定&#xff0c;可求得t0处y…...

点击运行显示网站正在建设/优质外链

java nio 通道上一篇文章里就讲述过&#xff0c;channel总是写数据的时候&#xff0c;要先把数据写入到bytebuffer&#xff0c;读数据的时候总是要先从channel中读入到bytebuffer。如下图&#xff0c;这个图是好多知名博客常用的图&#xff0c;很好理解这个channel。channel分为…...

地推平台招代理/seo全国最好的公司

我们简单看一下pairs、ipairs以及自定义按key值顺序遍历的pairsBykeys这3中方式&#xff1a; -- table表的操作 function pairsBykeys(t)local a {}for n in pairs(t) doa[#a1] nendtable.sort(a)local i 0return function()i i 1return a[i], t[a[i]]end end -- table…...

做网站要钱的吗/网站查询进入

...

济南互联网选号网站/长春网络营销公司

配置远程服务器地址 点击 点击 OK 之后 是这个样子的 去服务器创建目录 填写链接信息 点击确定。 下面上传代码到服务器&#xff1a; 执行之前先执行&#xff1a; yum -y install zlib* centos7 下通过nginxuwsgi部署django应用 http://projectsedu.com/2017/08/15/centos7-…...