当前位置：首页 > news >正文

【数据评估与清洗】对数据结构和内容进行清洗

news 2026/2/8 17:17:49

评估数据

结构方面
- 需要清理：乱数据
- 不需要清理：整洁数据
  - 每列是一个变量
  - 每行是一个观察值
  - 每个单元格是一个值
内容方面
- 需要清理：脏数据
  - 丢失数据
  - 重复数据
  - 不一致数据
  - 无效或错误数据
- 不需要清理：干净数据

# 获取整体信息
df.info()
# 获取开头/结尾/随机数据来评估
df.head(10)
df.tail(10)
df.sample(10)
# 调整展示上限
pd.set_option("display.max_columns", 150)
pd.set_option("display.max_colwidth", 500)# 评估丢失数据
# 返回布尔值组成的Series或DataFrame
scores["考试2"].isnull()
df.isnull()
# 获取空缺值数量
scores["考试2"].isnull().sum()
df.isnull().sum()
# 提取丢失数据的行
scores[scores["考试2"].isnull()]# 评估重复数据
students["学号"].duplicated()
students.duplicated(subset=["学号","性别"])# 评估不一致数据
students["班级"].value_counts()# 评估无效/错误数据
# 排序
students["身高"].sort_values()
students.describe()

清洗数据

结构方面：更改为整洁数据结构
内容方面
- 丢失数据
  - 人工填入缺失值
  - 不处理缺失值
  - 把有缺失值的行删除
  - 用例如平均数等填充代替缺失值
- 重复数据：删除
- 不一致数据：统一
- 无效数据：删除或替换
- 数据类型转换
实际操作

# 重命名索引和列名(原变量不变，需要重新赋值或可选参数inplace=True
df1.rename(index={"2_":"2", "_5":"5", "6*":"6"})
df1.rename(columns={"2_":"2", "_5":"5", "6*":"6"})
df2.rename(index=某函数/方法）
df2.rename(columns=str.upper） # 大写
# 更多Series相关方法：https://pandas.pydata.org/docs/reference/api/pandas.Series.html
# 更多DataFrame相关方法：https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html# 重设索引
# 将列值作为索引
df3.set_index("Salesperson")
# 还原
df3.reset_index()# 对索引和列名重新排序(原变量不变，需要重新赋值或可选参数inplace=True
df4.sort_index()# 对数据进行转置
df1 = df1.T
# 对列进行拆分
df2[["人口", "面积"]] = df2["人口密度"].str.split("/", expand=True)
df2 = df2.drop("人口密度", axis=1)
# 把不同列合并成一列
df3["姓].str.cat(df3["名"], sep="-")
# 把宽数据转换成长数据（列名变成列值）
df4 = pf.melt(df4, id_vars=['不变的列名'], var_name='列名所在列列名', value_name='原列值所在列列名')
# 对行进行拆分
df5.explode("课程列表")
# 删除行，删除列(原变量不变，需要重新赋值或可选参数inplace=True
df6.drop(2)
df6.drop(["列","lie"],axis=1)# 对整列缺失值进行填充（索引定位）
df1["国家"] = "中国"
# 对某个缺失值进行填充
df2.loc["003":"004", "销售额"] = 800
# 自动找到缺失值进行填充
df4["B"].fillna(df["B"].mean())
df4.fillna(0)
df4.fillna({'A': 0, 'B': 10}) # 不同列可指定替换值
# 删除存在缺失值的行(原变量不变，需要重新赋值或可选参数inplace=True
df5.dropna()
df5.dropna(subset=["工资"]) # 控制范围
# 删除重复数据(原变量不变，需要重新赋值或可选参数inplace=True
df6["姓名"].drop_duplicates()
df6.drop_duplicates(subset=['a','b']， keep='last') #同时重复，保留最后
# 对值进行替换（不一致数据）(原变量不变，需要重新赋值或可选参数inplace=True
df7.replace(["hnu", "湖大"], "湖南大学")
df7.replace("hnu": "湖南大学")
# 对值的类型进行转换
# 分类数据建议转换为category，有利于减小内存，让Pandas自动选用合适的统计方法或图表类型
s1=pd.Series(["1","2","3"])
s1.astype("category")

保存数据(覆盖原始数据）

df1.to_csv("cleaned_sales_data.csv")
# 读取时会将索引作为第一列，需要更改列名并将其重新设置为索引# 写入时忽略索引(索引无关键信息）
df1.to_csv("cleaned_sales_data2.csv"， index=False)

【数据评估与清洗】对数据结构和内容进行清洗

评估数据结构方面需要清理：乱数据不需要清理：整洁数据每列是一个变量每行是一个观察值每个单元格是一个值内容方面需要清理：脏数据丢失数据重复数据不一致数据无效或错误数据不需要清理：干净数据 # 获取整体信息 df.in…...

编程日记 2024/9/27 4:47:30

机器学习和深度学习的区别

1. 基本概念 1.1 机器学习定义机器学习是人工智能的一个核心分支，它赋予计算机系统无需明确编程即可学习和改进的能力。通过分析大量数据，机器学习算法能够识别数据中的模式和趋势，从而做出预测或决策。这种方法通常涉及统计模型和优化技术…...

编程日记 2024/9/27 4:46:29

UE虚幻引擎云渲染汽车动画的优势！

在汽车广告和动画制作领域，虚幻引擎（UE）结合云渲染技术正掀起一场技术革命。这项技术以其高性能、成本效益和灵活性，为创作者提供了强大的工具，以实现更加逼真和高效的汽车动画制作。一、为什么选择UE虚幻引擎制作汽车…...

编程日记 2024/9/27 4:45:28

Teams集成-会议侧边栏应用开发-实时转写

Teams虽然提供了转写的接口，但是不是实时的，即便使用订阅事件也不是实时的，为了达到实时转写的效果，使用recall.ai的转录和assembly_ai的转写实现。前提：除Teams会议侧边栏应用开发-会议转写-CSDN博客的基本要求外&a…...

编程日记 2024/9/27 4:44:27

归并排序，外排序，计数排序(非比较排序)

归并排序：（MERGE-SORT）是建立在归并操作上的一种有效的排序算法,该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序…...

编程日记 2024/9/27 4:43:26

1. 启动 2.相关配置 2.1 data.yaml path: D:/yolo-tool/yaunshen-yolov8/YOLOv8ys/YOLOv8-CUDA10.2/1/datasets/ceshi001 train: images val: images names: [蔡徐坤,篮球] 2.2 cfg.yaml # Ultralytics YOLOv8, GPL-3.0 license # Default training settings and hyp…...

编程日记 2024/9/27 4:42:25

JavaScript 学习

一、输出为方便调试可以输出内容，但是用户是看不到的。要在开发者模式中看。 console . log ( "Hello" )； 二、外部文件引用可以直接在html中写JS <head> <meta charset"utf-8"> <script> console.log("he…...

编程日记 2024/9/27 4:40:23

【算法】分治：归并之 912.排序数组（medium)

系列专栏双指针模拟算法分治思想目录 1、题目链接 2、题目介绍 3、解法解决方案选择解题步骤 4、代码 1、题目链接 912. 排序数组 - 力扣（LeetCode） 2、题目介绍给你一个整数数组 nums，请你将该数组升序排列。你必须在 …...

编程日记 2024/9/27 4:39:22

Cocos 3.8.3 实现外描边效果（逃课玩法）

本来想着用Cocos 的Shader Graph照搬Unity的思路来加外描边，发现不行，然后我就想弄两个物体不就行了吗，一个是放大的版本，再放大的版本上加一个材质，这个材质面剔除选择前面的面剔除就行了，果不其然还真行。…...

编程日记 2024/9/27 4:38:21

著名建筑物检测与识别系统源码分享

著名建筑物检测与识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Comp…...

编程日记 2024/9/27 4:37:20

使用php生成图片

可以用这方法生成图片水印字体可以在资源绑定下载，如果字体路径不对，则不会输出文字图片 public function generateImage($text,$id) { header("Cache-Control: no-cache, must-revalidate"); header("Expires: Mon, 26 Jul 1997 05:0…...

编程日记 2024/9/27 4:36:19

C++ 数据类型分类

在C中，数据类型可以大致分为内置类型（Built-in Types）、标准库类型（Standard Library Types）和自定义类型（User-Defined Types）三大类。内置类型（Built-in Types） 内置…...

编程日记 2024/9/27 4:35:18

java安装更新jdk11后设置环境JAVA_HOME

背景，已经安装成功，但是环境还是java1.8 java -version openjdk version "11.0.23" 2024-04-16 LTS OpenJDK Runtime Environment (Red_Hat-11.0.23.0.9-2.el7_9) (build 11.0.23+9-LTS) OpenJDK 64-Bit Server VM (Red_Hat-11.0.23.0.9-2.el7_9) (build 11.0.…...

编程日记 2024/9/27 4:30:10

Java.动态代理

1.创建一个接口 package Mydynamicproxy1;public interface Star {public abstract String sing(String str);public abstract void dance(String str); }2.创建一个BigStar类，要实现Star这个接口 package Mydynamicproxy1;public class BigStar implements Star{…...

编程日记 2024/9/27 4:28:06

SpringBoot自定义异常

前言在前后端开发中，后端接口返回的数据都是JSON格式的，但是后端可能会出现一些可以未知从异常，在后端抛出这些异常的时候，也需要返回相同格式的JSON数据，这时候就需要我们设置全局异常处理器。在后端开发中&#xf…...

编程日记 2024/9/27 4:27:06

华为源NAT技术与目的NAT技术

1）源NAT对报文源地址进行转换，分为NAT NO-PAT，NAPT,EASY-IP,三元组NAT； （1）NAT NO-PAT原理： no-port address translation:非端口地址转换：只转换地址，不转换端口&…...

编程日记 2024/9/27 4:23:02

人工智能与机器学习原理精解【25】

文章目录正则化概述一、正则化的种类二、正则化的定义三、正则化的计算四、正则化的性质五、正则化的例子公式与计算一、正则化的种类Dropout正则化一、基本思想二、实现方法三、作用机制四、使用注意事项五、总结Dropout正则化的例子和公式。一、Dropout正则化的例子二、Dro…...

编程日记 2024/9/27 4:19:58

一篇文章讲清楚synchronized关键字的作用及原理

概述在应用Sychronized关键字时需要把握如下注意点： 一把锁只能同时被一个线程获取，没有获得锁的线程只能等待； 每个实例都对应有自己的一把锁(this),不同实例之间互不影响；例外：锁对象是*.class以及synchronized修…...

编程日记 2024/9/27 4:18:57

深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性

原始信息论文： Well-Read Students Learn Better: On the Importance of Pre-training Compact Models作者：Iulia Turc, Ming-Wei Chang, Kenton Lee, Kristina Toutanova地址：arxiv.org/pdf/1908.08…中文：阅读良好的学生学得更…...

编程日记 2024/9/27 4:17:55

【HarmonyOS】深入理解@Observed装饰器和@ObjectLink装饰器：嵌套类对象属性变化

【HarmonyOS】深入理解Observed装饰器和ObjectLink装饰器：嵌套类对象属性变化前言之前就Observed和ObjectLink写过一篇讲解博客【HarmonyOS】多层嵌套对象通过ObjectLink和Observed实现渲染更新处理！ 其中就Observe监听类的使用，Object…...

编程日记 2024/9/27 4:16:54

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/10/22 11:16:20

【力扣数据库知识手册笔记】索引

索引索引的优缺点优点1. 通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度（创建索引的主要原因）。3. 可以加速表和表之间的连接，实现数据的参考完整性。4. 可以在查询过程中，…...

编程新知 2026/1/25 4:36:37

DockerHub与私有镜像仓库在容器化中的应用与管理

哈喽，大家好，我是左手python！ Docker Hub的应用与管理 Docker Hub的基本概念与使用方法 Docker Hub是Docker官方提供的一个公共镜像仓库，用户可以在其中找到各种操作系统、软件和应用的镜像。开发者可以通过Docker Hub轻松获取所…...

编程新知 2025/10/8 10:56:25

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址：pdf 英文是纯手打的！论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

编程新知 2026/2/6 14:42:11

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 （忘了有没有这步了估计有） 刷机程序和镜像就不提供了。要刷的时…...

编程新知 2026/2/6 20:07:35

React19源码系列之事件插件系统

事件类别事件类型定义文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...

编程新知 2026/2/7 8:31:55

leetcodeSQL解题：3564. 季节性销售分析

leetcodeSQL解题：3564. 季节性销售分析题目： 表：sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

编程新知 2025/10/5 19:58:27

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2026/1/31 13:13:32

Python ROS2【机器人中间件框架】简介

销量过万TEEIS德国护膝夏天用薄款优惠券冠生园百花蜂蜜428g 挤压瓶纯蜂蜜巨奇严选鞋子除臭剂360ml 多芬身体磨砂膏280g健70%-75%酒精消毒棉片湿巾1418cm 80片/袋3袋大包清洁食品用消毒优惠券AIMORNY52朵红玫瑰永生香皂花同城配送非鲜花七夕情人节生日礼物送女友热卖妙洁棉…...

编程新知 2026/1/29 9:12:46

【数据评估与清洗】对数据结构和内容进行清洗

评估数据

清洗数据

保存数据(覆盖原始数据）

相关文章：

【数据评估与清洗】对数据结构和内容进行清洗

机器学习和深度学习的区别

UE虚幻引擎云渲染汽车动画的优势！

Teams集成-会议侧边栏应用开发-实时转写

归并排序，外排序，计数排序(非比较排序)

使用离火插件yoloV8数据标注，模型训练

JavaScript 学习

【算法】分治：归并之 912.排序数组（medium)

Cocos 3.8.3 实现外描边效果（逃课玩法）

著名建筑物检测与识别系统源码分享

使用php生成图片

C++ 数据类型分类

java安装更新jdk11后设置环境JAVA_HOME

Java.动态代理

SpringBoot自定义异常

华为源NAT技术与目的NAT技术

人工智能与机器学习原理精解【25】

一篇文章讲清楚synchronized关键字的作用及原理

深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性

【HarmonyOS】深入理解@Observed装饰器和@ObjectLink装饰器：嵌套类对象属性变化

基于大模型的 UI 自动化系统

【力扣数据库知识手册笔记】索引

DockerHub与私有镜像仓库在容器化中的应用与管理

Oracle查询表空间大小

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

linux arm系统烧录

React19源码系列之事件插件系统

leetcodeSQL解题：3564. 季节性销售分析

有限自动机到正规文法转换器v1.0

Python ROS2【机器人中间件框架】简介