当前位置: 首页 > news >正文

数据赋能(122)——体系:数据清洗——技术方法、主要工具

技术方法

数据清洗标准模型是将数据输入到数据清洗处理器,通过一系列步骤“清理”数据,然后以期望的格式输出清理过的数据。数据清洗从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。

数据清洗主要方法如下:

  1. 文本错误:
    1. 对于文本数据,进行去重、去除标点符号、去除停用词、词干提取(Stemming)或词形还原(Lemmatization)等操作。
    2. 使用正则表达式等工具,去除文本中的不合逻辑字符或特殊字符。
  2. 纠正错误:
    1. 识别和纠正数据中的错误,如拼写错误、编码错误、计算错误等。
    2. 对于某些数据,可能需要与原始数据源进行核对以纠正错误。
  3. 处理缺失值:
    1. 识别数据集中的缺失值或空值。
    2. 数据中存在某些字段的缺失,需要根据实际情况选择删除含有缺失值的记录、用默认值填充、或用某种插值方法估算缺失值。
    3. 根据数据的特性和业务需求,选择适当的填充方法,如使用均值、中位数、众数填充,或者使用插值法、机器学习预测等方法进行填充。
    4. 如果缺失值比例过高或无法进行有效填充,可以考虑删除相关记录。
  4. 处理重复数据:
    1. 识别数据集中的重复记录。
    2. 根据业务需求,选择保留重复记录中的一条或全部删除。
    3. 在处理重复值时,需要注意保留原始数据的完整性和准确性。
  5. 处理异常值:
    1. 对于数值数据,使用统计方法(如IQR规则、Z-score方法等)识别异常值。
    2. 对于识别出的异常值,根据业务需求和数据特性选择适当的处理方法。
  6. 逻辑错误处理:
    1. 检查数据之间的逻辑关系,如某些字段的取值范围是否合理,或某些字段之间是否满足特定的业务规则。例如日期时间字段中的无效日期、年龄字段中的负值或超过合理范围的值等。
    2. 对于识别出的逻辑错误,根据业务需求选择适当的处理方法。例如,可以删除包含逻辑错误的数据行,或者将错误值替换为合理的默认值或空值。
  7. 格式化数据:
    1. 统一数据的格式,如日期格式、数值格式等,并纠正或删除错误的内容。
    2. 将数据转换为统一的格式,以便进行后续的分析和处理。
  8. 数据标准化:
    1. 数据标准化是将数据转换为统一尺度的方法,以消除不同特征之间的尺度差异。
    2. 将数据转换为统一的标准或度量单位,以便进行比较和分析。
    3. 这通常用于机器学习算法,因为许多算法对特征的尺度敏感。
  9. 数据转换:
    1. 对数据进行标准化或归一化,以便不同尺度或单位的数据可以在同一尺度上进行比较。
    2. 根据需要,对数据进行各种转换操作,如对数转换、平方根转换、分箱(binning)等。
  10. 验证数据完整性:
    1. 确保数据具有完整性,即数据中的关键字段是否完整,是否存在缺失或错误。
    2. 可以使用数据完整性约束(如主键、外键、唯一约束等)来确保数据的准确性。

数据清洗是一个持续的过程,需不断发现并解决问题。关于过滤与修正,需客户确认。过滤数据应记录于Excel或数据表,ETL初期可每日向业务单位发送过滤数据邮件,促其修正错误,并作为未来验证依据。清洗时须谨慎,避免误删有用数据,每个过滤规则应经验证和用户确认。

主要工具

数据清洗主要工具如下:

  1. 数据清洗工具:
    1. 这类工具专注于利用领域特有的知识对数据进行清洗和整理。
    2. 它们通常具备语法分析和模糊匹配等技术,能够识别并修正数据中的错误、不一致或冗余信息。
    3. 例如,在处理邮政地址时,数据清洗工具可以自动纠正拼写错误、格式化地址格式,并消除重复项。
    4. Integrity和Trillum等工具就属于这一类别,它们通过强大的清洗功能,确保数据的准确性和一致性。
  2. 数据审计工具:
    1. 这类工具主要用于扫描和分析数据,以发现其中的规律和联系。
    2. 它们可以看作是数据挖掘工具的变形,能够自动检测数据中的异常值、缺失值以及潜在的关联关系。
    3. 通过数据审计工具,用户可以更深入地了解数据的分布、质量和潜在价值,为后续的数据分析和决策提供支持。

可以使用Excel、OpenRefine(旧称Google Refine)或Python等工具来辅助完成数据清洗任务。这些工具提供了强大的数据批量处理、筛选、修正和填充功能,可以大大提高数据清洗的效率和准确性。

 

相关文章:

数据赋能(122)——体系:数据清洗——技术方法、主要工具

技术方法 数据清洗标准模型是将数据输入到数据清洗处理器,通过一系列步骤“清理”数据,然后以期望的格式输出清理过的数据。数据清洗从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据…...

【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——中

1. 某学校对入学的新生进行性格问卷调查(没有心理学家的参与),根据学生对问题的回答,把学生的性格分成了8个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务?为什么?并利用该例说明聚类分析和分类分析的异同点。 解答: (a)该数据…...

2024年注册安全工程师报名常见问题汇总!

​ 注册安全工程师报名 24年注册安全工程师报名已正式拉开序幕,报名时间为6月18日—7月10日,考试时间为10月26日—10月27日。 目前经有12个地区公布了2024年注册安全工程师报名时间: 注册安全工程师报名信息完善 根据注安报名系统提示&am…...

JRebel-JVMTI [FATAL] Couldn‘t write to C:\Users\中文用户名-完美解决

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 热部署下载参考博客解决第一步第二步第三步:第四步: 热部署下载 下载后启动报错:JRebel-JVMTI [FATAL] Couldn’t write to C:\…...

STM32基于DMA数据转运和AD多通道

文章目录 1. DMA数据转运 1.1 初始化DMA步骤 1.2 DMA的库函数 1.3 设置当前数据寄存器 1.4 DMA获取当前数据寄存器 2. DMA数据转运 2.1 DMA.C 2.2 DMA.H 2.3 MAIN.C 3. DMAAD多通道 3.1 AD.C 3.2 AD.H 3.3 MAIN.C 1. DMA数据转运 对于DMA的详细解析可以看下面这篇…...

安卓应用开发——Android Studio中通过id进行约束布局

在Android开发中,布局通常使用XML文件来描述,而约束(如相对位置、大小等)可以通过多种方式实现,但直接使用ID进行约束并不直接对应于Android的传统布局系统(如LinearLayout、RelativeLayout等)。…...

Elasticsearch过滤器(filter):原理及使用

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…...

Docker配置与使用详解

一、引言 随着云计算和微服务的兴起,Docker作为一种轻量级的容器化技术,越来越受到开发者和运维人员的青睐。Docker通过容器化的方式,将应用程序及其依赖项打包成一个可移植的镜像,从而实现了应用程序的快速部署和扩展。本文将详…...

触控MCU芯片(1):英飞凌PSoC第6代第7代

前言: 说到触摸MCU芯片,这个历史也是很久了,比如日常经常接触到的洗衣机、电冰箱、小家电,隔着一层玻璃,轻轻一按就能识别按键,感觉比过去纯机械式的按键更高级更美观,不仅白电,现在很多汽车也都在进行触摸按键的改版,不再使用笨重的机械按键,比如空调调温按键、档位…...

git pull报错:unable to pull from remote repository due to conflicting tag(s)

背景 我在vscode里正常拉取代码,突然就报了如题所示的错误。 原因 因为vscode的拉取按钮执行的实际命令是:git pull --tags origin branch-name,该命令的实际含义是从远程仓库拉取指定的分支和该远程仓库上的所有标签。 在拉取标签时本地的…...

Python将字符串用特定字符分割并前面加序号

Python将字符串用特定字符分割并前面加序号 Python将字符串用特定字符分割并前面加序号,今天项目中就遇到,看着不难,得花点时间搞出来急用啊,在网上找了一圈,没发现有完整流程的文章。所以就搞出来并写了这个文章。仅…...

【第16章】Vue实战篇之跨域解决

文章目录 前言一、浏览器跨域二、配置代理1.公共请求2.代理配置 总结 前言 前后端项目分离衍生出浏览器跨域问题,开发之前我们通过配置代理解决这个问题。 一、浏览器跨域 浏览器的跨域问题主要是由于浏览器的同源策略导致的。同源策略是浏览器的一个安全功能&…...

【PB案例学习笔记】-22制作一个语音朗读金额小应用

写在前面 这是PB案例学习笔记系列文章的第22篇,该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习,提高编程技巧,以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码,小凡都上传到了gite…...

glmark2代码阅读总结

glmark2代码阅读总结 一、总体 用输入参数生成testbench项用scene和benchmark管理进行复用通过类的重载,创建出不同的分支和具体的实现点,如scene和mainloop类用例执行又规划,每个scene都统一有setup,等使用scene的继承关系&…...

第 6 章 监控系统 | 监控套路 - 总结

前面,我们使用 Prometheus + Grafana + Node Exporter 实现虚拟机监控及告警。 那么,😇 监控的套路究竟是什么呢? 第 1 步:暴露 metrics,通过某个 exporter 将 metrics 暴露出来第 2 步:配置 Prometheus 抓取上面暴露的 metrics 数据第 3 步:加速 metrics 显示,配置…...

VsCode中C文件调用其他C文件函数失败

之前一直使用CodeBlocks,最近使用vscode多,感觉它比较方便,但在调用其他C文件的时候发现报错以下内容基于单C文件运行成功,否则请移步 博文:VSCode上搭建C/C开发环境 报错信息 没有使用CodeRunner插件,弹…...

css中content属性你了解多少?

在CSS中,content属性通常与伪元素(如 ::before 和 ::after)一起使用,用于在元素的内容之前或之后插入生成的内容。这个属性不接受常规的HTML内容,而是接受一些特定的值,如字符串、属性值、计数器值等。 以…...

JVM-GC-G1垃圾回收器

JVM-GC-G1垃圾回收器 基本概念 card table card table概念是为了解决新生代对象进入老年代时,在进行新生代扫描的时候会遍历老年代对象的问题。将内存分为多个card,如果在一个老年代card中存在引用新生代对象的对象,则将该区域标记及为dirty card。 CS…...

【Ubuntu通用压力测试】Ubuntu16.04 CPU压力测试

使用 stress 对CPU进行压力测试 我也是一个ubuntu初学者,分享是Linux的优良美德。写的不好请大佬不要喷,多谢支持。 sudo apt-get update 日常先更新再安装东西不容易出错 sudo apt-get upgrade -y 继续升级一波 sudo apt-get install -y linux-tools…...

Artix Linux 默认不使用 systemd

开发者选择不使用systemd,而倾向于使用OpenRC或runit作为其初始化系统的原因。 哲学和设计原则:Systemd是一个功能丰富的初始化系统和系统管理器,它集成了许多功能,但这也导致它的设计哲学与一些用户或开发者的偏好不符。有些用户…...

JVM-GC-CMS垃圾回收器

JVM-CMS垃圾回收器 CMS垃圾回收的步骤 1. 初始标记(InitialMarking) 这是一个STW的过程,并行标记,只是标记GC Roots能直接关联到的对象。由于GC Root直接关联的对象少,因此STW时间比较短。 2. 并发标记 非STW的过程&…...

【玩转google云】实战:如何在GKE上使用Helm安装和配置3节点的RabbitMQ集群

需求 因项目需要需要在Google Kubernetes Engine (GKE) 中使用Helm安装一个3节点的RabbitMQ集群,配置用户名和密码,开通公网访问的Web管理界面,指定namespace为mq,并使用5G的硬盘存储MQ的数据。 前提条件 GKE集群:确保你有一个运行中的GKE集群。Helm工具:确保已安装Hel…...

【神经网络】深度神经网络

深度神经网络(Deep Neural Network,简称DNN)是一种模仿人脑神经网络结构和工作原理的机器学习模型。它通过层级化的特征学习和权重调节,能够实现复杂任务的高性能解决方案。深度神经网络由多个神经元层组成,每个神经元…...

机器学习算法 —— K近邻(KNN分类)

🌟欢迎来到 我的博客 —— 探索技术的无限可能! 🌟博客的简介(文章目录) 目录 KNN的介绍和应用KNN的介绍1) KNN建立过程2) 类别的判定KNN的优点KNN的缺点KNN的应用实战KNN分类数据集 —— KNN分类库函数导入数据导入模型训练&可视化原理简析莺尾花数据集 —— KNN分…...

Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码

Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码 可封装APP,适合做猫狗宠物类的发信息发布,当然懂的修改一下,做其他信息发布也是可以的。 Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码...

c++ 智能指针使用注意事项及解决方案

c11智能指针 shared_ptr介绍注意事项示例解决方案 weak_ptr特点示例 unique_ptr特点示例 shared_ptr 介绍 shared_ptr 是一种智能指针,用于自动管理动态分配的对象的生命周期。它通过引用计数机制来确保当最后一个 shared_ptr 指向一个对象时,该对象会…...

SQLite Delete 语句

SQLite Delete 语句 SQLite 的 DELETE 语句用于从表中删除数据。它是 SQL 数据库管理中非常基础且重要的操作之一。在使用 DELETE 语句时,可以删除表中的特定行,也可以删除整个表的数据。本文将详细介绍 SQLite 中的 DELETE 语句,包括其语法、用法以及如何安全地执行删除操…...

vue3的基本使用方法

【 vue3实例 】 【 0 】对象、方法和属性 对象(Object): 对象是编程中的一个数据结构,它可以包含多种数据类型,包括数字、字符串、布尔值、数组、其他对象等。对象通常由一系列属性和方法组成。在面向对象编程&…...

Java数据结构与算法(盛水的容器贪心算法)

前言 . - 力扣(LeetCode) 贪心算法(Greedy Algorithm)是一种在每一步选择中都采取当前状态下最优或最佳的选择,以期望通过一系列的局部最优选择达到全局最优解的算法。贪心算法的核心思想是贪心选择性质和最优子结构性质。 贪心算法的基本步骤 建立模型:将问题分解为一…...

MYSQL 数字(Aggregate)函数

目录 1、AVG() 2、MAX() 3、MIN() 4、SUM() 5、COUNT() 6、LIMIT() 1、AVG() 解释:返回数值列(字段)的平均值。 语法格式:SELECT AVG(column_name) FROM table_name 中文注释:select AVG(数值列/字段) from 表名 ; 用法&#xff1…...

顺义重庆网站建设/全网推广外包公司

经常听到这些MVC,MVP,MVVM这些词,其实这些都是设计模式或者说是构架范式,也就是你一个软件从前端到后端构架的样例模型。 MVC模式: 听到最多的就是MVC模式,上学的时候就讲过这个,Model&#xf…...

网站与微信区别/郑州seo排名优化

由数据中心联盟主办、中国移动通信集团设计院有限公司协办的“2016 IDC创新发展论坛”将于2016年7月21日-22日在北京国宾酒店召开。论坛定位于运营商IDC相关业务部门,将集中进行专题研讨。工业和信息化部信息通信发展司、中国信息通信研究院相关领导以及…...

当阳网站建设/百度账号一键登录

前言 Spring 也算有多年的历史了,已成为Java应用程序开发框架的事实标准。在如此悠久的历史背景下,有人可能会认为Spring放慢了脚步,躺在了自己的荣誉簿上,再也做不出什么新鲜的东西,或者是让人激动的东西。甚至有人说…...

申请一个免费的网站空间/代推广app下载

前段时间,结合Andriod手机做了UDP的C/S通信,简单传送字符串,还有自定义UDP通信协议,作了传送火车票的信息,并进行反馈。 UDP通信:理解几个名词 1.DatagramSocket:用来发送和接收数据包的套接字…...

appapp下载安装官方免费下载/网站优化的主要内容

澳大利亚新南威尔士大学的研究表明,使用现代版本的“麦克斯韦妖”,可将量子比特重置为“0”态的错误减少了20倍。 Andrea Morello教授解释了麦克斯韦妖思想实验如何与他的团队通过仅选择冷电子进行量子计算的成就相类比。(图片来源&#xff1…...

国外主题网站/爱站工具包的模块有哪些

迁移学习(Transfer Learning)是机器学习中的一个重要研究话题,也是在实践中具有重要价值的一类技术。Transfer learning focuses on storing knowledge gained while solving one problem and applying it to a different but related proble…...