当前位置: 首页 > news >正文

掌握这些技巧,让Excel批量数据清洗变得简单高效!

什么是数据清洗

数据清洗是指在数据处理过程中对原始数据进行筛选、转换和修正,以确保数据的准确性、一致性和完整性的过程。它是数据预处理的一部分,旨在处理和纠正可能存在的错误、缺失值、异常值和不一致性等数据质量问题。

为什么要数据清洗

Excel在数据采集场景中非常常用。作为一款电子表格软件,它提供了丰富的功能和易用的界面,使其成为大部分人首选的数据采集工具之一。

而在数据采集的过程中,因为采集渠道多样,数据格式也多种多样,从而会出现部分数据的丢失和不准确的情况,因此为了处理掉这些 “垃圾”数据,需要对数据进行清洗。

哪些数据需要进行清洗

通常在这几种情况下需要进行数据清洗。

1.缺失数据处理:数据在采集或迁移的过程中,出现数据的遗漏。

2.错误数据判断:数据在采集或迁移的过程中与原数据不一致。

3.重复数据处理:一条数据重复出现多次。

4.数据格式转换:数据在采集或迁移的过程中出现了乱码。

数据清洗都需要做些什么

下面让我们看一下数据清洗都会涉及的处理步骤:

  1. 分析需求:通过对数据原本的格式,特征进行分析,规划数据清洗的业务规则及需求。
  2. 打开文件:把Excel文件打开,通常这一步需要依赖Excel组件库,比如使用POI,GcExcel,EasyExcel等。
  3. 读取数据:通过Excel库中的API,读取需要操作的数据,这里比较一下三个产品的特点:

GcExcel提供了**IRange(区域)**的概念,可以通过API快速的读取有数据的区域。POI和EasyExcel(POJO注解)则需要遍历每一个单元格。

根据业务需求,可以选择使用API,也可以选择遍历所有单元格。

  1. 数据清洗:根据需求,结合Excel库的API,进行数据清洗。如:用默认值填写缺失数据的单元格,删除整个空行,删除重复数据,把不符合范围的数据删除掉,或者把日期数字的格式统一起来,等等。
  2. 数据持续化:把处理好的数据回存至Excel文件,或者保存在数据库中或者CSV文件中。

如何使用GcExcel实现数据清洗

GcExcel有IRange的API,可以让数据清洗时代码写的更简单,因此下面我们选择用GcExcel的代码为例解决上面提到的几个场景。

基于IRange,GcExcel提供一些快速查找的API,如下(在文件中查找特殊单元格):

Workbook workbook = new Workbook();workbook.open("data.xlsx");IWorksheet sheet = workbook.getActiveSheet();//寻找sheet中,使用到的所有单元格IRange usedRange = sheet.getUsedRange();//寻找所有的公式单元格IRange allFormulas = sheet.getCells().specialCells(SpecialCellType.Formulas);//寻找所有的常量单元格IRange allConstants = sheet.getCells().specialCells(SpecialCellType.Constants);

虽然GcExcel提供了API,但数据清洗时,也可能有需求需要遍历,下面是GcExcel遍历单元格的代码,后面我们就有可能会用到。

public void FetchCellBasedOnRange(IRange area) {for (int column = 0; column < area.getColumns().getCount(); column++) {for (int row = 0; row < area.getRows().getCount(); row++) {IRange cell = area.get(row, column);//获取单元格的值Object val = cell.getValue();}}}
场景一:缺失数据处理

假如有一个Excel的数据,现在蓝色的格子是空的,我们需要对不同列下的蓝色格子做不同的处理,例如姓名的空格子替换为匿名,年龄替换成-1,身份证号填写N/A,住址填写为未知。

代码如下:

public void replaceBlankCell() {Workbook workbook = new Workbook();workbook.open("resources/BlankCells.xlsx");IWorksheet sheet = workbook.getActiveSheet();IRange blankRanges = sheet.getCells().specialCells(SpecialCellType.Blanks);for (IRange area : blankRanges.getAreas()) {for (int column = 0; column < area.getColumns().getCount(); column++) {for (int row = 0; row < area.getRows().getCount(); row++) {IRange cell = area.get(row, column);Object defaultVal = getDefaultVal(cell.getColumn());cell.setValue(defaultVal);}}}workbook.save("Result.xlsx");}private Object getDefaultVal(int column) {switch (column) {case 1:return "匿名";case 2:return -1;case 3:return "N/A";case 4:return "未知";}return null;}

要注意的是,sheet.getCells().specialCells(SpecialCellType.Blanks);返回的区域是多个,因此我们需要遍历通过遍历areas来对每一个区域进行遍历。

cell.getColumn()可以获取到当前格子对应到sheet上的第几列,因此获取默认值时使用该方法。

场景二:错误数据判断

错误数据的判断,与缺失数据处理相似,通过制定一些规则找出错误的值,对于错误值可以通过修改背景颜色进行高亮处理,用来提示,进行人工修改。

通常规则可以有两种选择:

  1. 使用Java直接编写判断逻辑。
  2. 使用数据校验(Datavalidation)功能,或者条件格式(ConditionFormat)来进行处理。

假如我们有下面一份数据,其中联系电话中有两条是错误的,位数不够,货物ID有两条是错误的,货物ID不能小于0,我们需要把他们找出来。

public void MarkErrorData(){Workbook workbook = new Workbook();workbook.open("resources/ErrorData.xlsx");IWorksheet sheet = workbook.getActiveSheet();IRange telRange = sheet.getRange("C2:D5");for (int r=0; r<telRange.getRows().getCount();r++){IRange cell = telRange.get(r,0);if(cell.getValue().toString().length() != 11){cell.getInterior().setColor(Color.GetOrangeRed());}}IFormatCondition condition =(IFormatCondition) sheet.getRange("D2:D5").getFormatConditions().add(FormatConditionType.CellValue, FormatConditionOperator.Less, 1, null);condition.getInterior().setColor(Color.GetOrangeRed());workbook.save("Result.xlsx");}

在代码中,我们对C2:C5进行遍历,判断字符串长度,然后对长度不合法的数据进行颜色标记。

而对于货物,设置了条件格式,可以让Excel在打开时,自行标记错误的数据。

场景三:重复数据处理

假如我们有一份数据,其中有一些行数据是完全重复的,我们需要删除这些行,如图所示。

public void RemoveDuplicateData() {Workbook workbook = new Workbook();workbook.open("resources/DuplicateRows.xlsx");IWorksheet sheet = workbook.getActiveSheet();IRange usedRange = sheet.getUsedRange();HashSet<String> set = new HashSet<>();Stack<IRange> deleteRows = new Stack<>();for (int r = 1; r < usedRange.getRows().getCount(); r++) {IRange row = usedRange.getRows().get(r);StringBuilder rowKey = new StringBuilder();for (int c = 0; c < row.getColumns().getCount(); c++) {rowKey.append(usedRange.get(r, c).getValue().toString());}if (set.contains(rowKey.toString())) {deleteRows.push(row);} else {set.add(rowKey.toString());}}while (!deleteRows.isEmpty()) {deleteRows.pop().delete();}workbook.save("Result.xlsx");}

可以看到,重复的行被移除掉了。代码中用到了哈希set和栈,其中我们用哈希set来查找重复的行。

另外使用栈来记录需要被删除的行,这里特地用了栈,而没有使用队列,数组或者ArraryList的原因是,GcExcel在删除一行时,会让这行下面的数据上移,这样我们之前记录的行就会便宜,导致删除错误的行。

简而言之,我们需要从下向上删除,来避免行位移导致删错的问题。

场景四:数据格式转换

例如我们有一些日期数据,或者货币数据,在数据采集时数据格式不同,我们需要分别统一订单日期,金额的格式。

代码如下:

public void unifyFormat() {Workbook workbook = new Workbook();workbook.open("resources/DifferentFormat.xlsx");IWorksheet sheet = workbook.getActiveSheet();IRange usedRange = sheet.getUsedRange();for (int row = 1; row < usedRange.getRows().getCount(); row++) {IRange dateCell = usedRange.get(row, 1);IRange priceCell = usedRange.get(row, 2);dateCell.setValue(parseDate(dateCell.getValue()));dateCell.setNumberFormat("yyyy年MM月dd日");priceCell.setValue(parsePrice(priceCell.getValue()));priceCell.setNumberFormat("¥0.00");}sheet.getRange("B1").setNumberFormat("");workbook.save("Result.xlsx");}private Double parsePrice(Object value) {if (value == null)return null;String val = value.toString();if (val.startsWith("$") || val.startsWith("¥")) {val = val.substring(1);}return Double.parseDouble(val);}private LocalDateTime parseDate(Object value) {if (value == null)return null;if (value instanceof LocalDateTime) {return (LocalDateTime) value;}DateTimeFormatter[] formatters = {DateTimeFormatter.ofPattern("yyyy/MM/dd"),DateTimeFormatter.ofPattern("MM-dd-yyyy"),DateTimeFormatter.ofPattern("yyyy年MM月dd日"),DateTimeFormatter.ofPattern("yyyy.MM.dd")};LocalDate datetime = null;for (DateTimeFormatter formatter : formatters) {try {datetime = LocalDate.parse(value.toString(), formatter);break;} catch (DateTimeParseException e) {e.printStackTrace();}}assert datetime != null;return datetime.atStartOfDay();}

需要注意的是在处理日期和金额时,由于value的类型不太一致,需要写特定的方法来进行处理。


扩展链接:

Spring Boot框架下实现Excel服务端导入导出

项目实战:在线报价采购系统(React +SpreadJS+Echarts)

React + Springboot + Quartz,从0实现Excel报表自动化

相关文章:

掌握这些技巧,让Excel批量数据清洗变得简单高效!

什么是数据清洗 数据清洗是指在数据处理过程中对原始数据进行筛选、转换和修正&#xff0c;以确保数据的准确性、一致性和完整性的过程。它是数据预处理的一部分&#xff0c;旨在处理和纠正可能存在的错误、缺失值、异常值和不一致性等数据质量问题。 为什么要数据清洗 Exce…...

成都瀚网科技:抖音上线地方方言自动翻译功能

为了让很多方言的地域历史、文化、习俗能够以短视频的形式生产、传播和保存&#xff0c;解决方言难以被更多用户阅读和理解的问题&#xff0c;平台正式上线推出当地方言自动翻译功能。创作者可以利用该功能&#xff0c;将多个方言视频“一键”转换为普通话字幕供大众观看。 具体…...

【k8s】【docker】web项目的部署

yaml配置文件 后端&#xff1a;springboot项目 前端&#xff1a;vue项目&#xff0c;之前镜像封装的nginx.conf反向代理配置直接使用了docker-compose.yml中services的名称&#xff0c;无法代理成功&#xff0c;可修改为127.0.0.1 # 后端 apiVersion: apps/v1 kind: Deployment…...

【视频去噪】基于全变异正则化最小二乘反卷积是最标准的图像处理、视频去噪研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…...

国庆day3---网络编程知识点脑图整合

...

链表经典面试题(六)

判断链表是否有环 1.题目2.思路分析(文字)3.详细的注释和代码实现 1.题目 2.思路分析(文字) 3.详细的注释和代码实现 public class Solution {public boolean hasCycle(ListNode head) {//定义两个快慢指针ListNode fast head;ListNode slow head;//让快指针走两步,慢指针走…...

SM2签名算法中随机数K的随机性对算法安全的影响

一、构造如下SM2签名算法过程1 Sig1 r1 F2BFC778C66127C74E3613FAA1AB6E207059740B317597A78BBFCDF58AED0A51 Sig1 s1 4FC719D00334CCC23098036DEEAA71DB464A076EFA79283389D3414D70659E88 私钥d B3124DC843BB8BA61F035A7D0938251F5DD4CBFC…...

郁金香2021年游戏辅助技术中级班(六)

郁金香2021年游戏辅助技术中级班&#xff08;六&#xff09; 055-ce,xdbg调试分析接任务交任务完成任务056-C,C写代码测试接任务交任务完成任务我们再来分析一下完成任务 057-C,C写代码测试交任务完成任务 055-ce,xdbg调试分析接任务交任务完成任务 创建一个新角色&#xff0c…...

毛玻璃员工卡片悬停效果

效果展示 页面结构组成 通过效果展示图&#xff0c;我们可以看出页面布局比较常规&#xff0c;最核心的就是卡片&#xff0c;当鼠标没有悬停在卡片上时&#xff0c;文字和头像处于半透明状态&#xff0c;当鼠标悬停在卡片上是&#xff0c;底部会展示社交图标。 CSS 知识点 b…...

闪存工作原理

前言 1、闪存类型 闪存有两种分类&#xff0c;NAND型闪存主要用于存储 2、MOS的特性 MOS管的三个引脚分别是Gate&#xff08;G&#xff09;、Source&#xff08;S&#xff09;和Drain&#xff08;D&#xff09;。Gate&#xff08;G&#xff09;引脚是晶闸管的控制引脚&…...

从0到一配置单节点zookeeper

我的软件&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1nImkjOgzPkgaFOuUPwd1Sg?pwd2wqo 提取码&#xff1a;2wqo 视频教程p1-zookeeper安装和配置以及启动服务和检测是否运行成功_哔哩哔哩_bilibili 一、安装zookeeper http://zookeeper.apache.org/releases.h…...

【JVM】第三篇 JVM对象创建与内存分配机制深度剖析

目录 一. JVM对象创建过程详解1. 类加载检查2. 分配内存2.1 如何划分内存?2.2 并发问题3. 初始化4. 设置对象头5. 执行<init>方法二. 对象头和指针压缩详解三. JVM对象内存分配详解四.逃逸分析 & 栈上分配 & 标量替换详解1. 逃逸分析 & 栈上分配2. 标量替换…...

【信创】麒麟v10(arm)-mysql8-mongo-redis-oceanbase

Win10/Win11 借助qume模拟器安装arm64麒麟v10 前言 近两年的国产化进程一直在推进&#xff0c;基于arm架构的国产系统也在积极发展&#xff0c;这里记录一下基于麒麟v10arm版安装常见数据库的方案。 麒麟软件介绍: 银河麒麟高级服务器操作系统V10 - 国产操作系统、银河麒麟、中…...

maven settings.xml文件(包含了配置阿里云镜像)

mac 的 settings.xml 我配置的位置是&#xff1a; /Applications/IntelliJ IDEA.app/Contents/plugins/maven/lib/maven3/conf/settings.xml 然后 local repository 我配置的位置是&#xff1a; /Applications/IntelliJ IDEA.app/Contents/plugins/maven/lib/maven3/conf/repos…...

分类预测 | MATLAB实现WOA-FS-SVM鲸鱼算法同步优化特征选择结合支持向量机分类预测

分类预测 | MATLAB实现WOA-FS-SVM鲸鱼算法同步优化特征选择结合支持向量机分类预测 目录 分类预测 | MATLAB实现WOA-FS-SVM鲸鱼算法同步优化特征选择结合支持向量机分类预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 MATLAB实现WOA-FS-SVM鲸鱼算法同步优化特征选择结…...

Redis是否要分库的实践

Redis的分库其实没有带来任何效率上的提升&#xff0c;只是提供了一个命名空间&#xff0c;而这个命名空间可以完全通过key的设计来避开这个问题。 一个优雅的Redis的key的设计如下...

String 进阶

字符串拼接 // 常量与常量的拼接结果放在常量池 // 常量池中不会存在相同的常量 String str1 "a" "b"; System.out.println(str1 "ab");// 拼接时有一个为变量&#xff0c;则结果会放在堆中。 // 变量拼接的原理是 StringBuilder append 最后…...

ESP32设备通信-两个ESP32间UART通信

两个ESP32间UART通信 文章目录 两个ESP32间UART通信1、UART介绍2、软件准备3、硬件准备4、代码实现在本文中,我们将使用 Arduino IDE 的 UART 硬件库在两个 ESP32 板之间执行 UART 或串行通信。 要使用 USB 端口调试和编程 ESP32,需要使用称为通用异步接收器/发送器 (UART) 通…...

LCR 052.递增顺序搜索树

​题目来源&#xff1a; leetcode题目&#xff0c;网址&#xff1a;LCR 052. 递增顺序搜索树 - 力扣&#xff08;LeetCode&#xff09; 解题思路&#xff1a; 中序遍历时修改指针即可。 解题代码&#xff1a; /*** Definition for a binary tree node.* public class TreeNo…...

Mysql集群技术问答

前提&#xff1a;Mysql集群服务部署到一个群组的所有服务器上&#xff0c;一般20台为一个群组&#xff0c;群组内所有节点数据实时同步&#xff0c;动态自动维护节点。 问&#xff1a;集群空间跟传统空间的最大不同是什么&#xff1f; 答&#xff1a;集群空间有数据同步和宕机检…...

2023版 STM32实战4 滴答定时器精准延时

SysTick简介与特性 -1- SysTick属于系统时钟。 -2- SysTick定时器被捆绑在NVIC中。 -3- SysTick可以产生中断,且中断不可屏蔽。 SysTick的时钟源查看 通过时钟树可以看出滴答的时钟最大为72MHZ/89MHZ 通过中文参考手册也可以得到这个结论 代码编写&#xff08;已经验证&a…...

ESP32设备驱动-数据持久化到Flash

数据持久化到Flash 文章目录 数据持久化到Flash1、Preferences库介绍2、软件准备3、硬件准备4、代码实现4.1 初始化NVS Flash4.2 读写Key/Value对4.3 保存/读取网络凭据4.4 复位后记住最后的 GPIO 状态在本文中,我们将介绍如何使用 Preferences库将数据存储到 ESP32 的Flash中…...

Swift data范围截取问题

文章目录 一、截取字符串的几种方法1. 截取前几位2. 截取后几位3. subData4. 下标截取 二、subData(in:) 报错 EXC_BREAKPOINT 一、截取字符串的几种方法 1. 截取前几位 mobileID.prefix(32)2. 截取后几位 mobileID.suffix(3)3. subData data.subdata(in: 0..<4)4. 下标…...

PICO首届XR开发者挑战赛正式启动,助推行业迈入“VR+MR”新阶段

9月25日&#xff0c;“PICO 2023首届XR开发者挑战赛”&#xff08;下文简称“挑战赛”&#xff09;媒体启动会在北京圆满落幕&#xff0c;官方赛事报名通道已于今日开启。据悉&#xff0c;本次挑战赛是PICO首次针对全球开发者举办的大型挑战赛事&#xff0c;旨在与开发者保持连…...

【计算机网络】应用层协议原理

文章目录 网络应用程序体系结构客户-服务器体系结构P2P体系结构 进程通信客户和服务器进程进程与计算机网络之间的接口进程寻址 可供应用程序使用的运输服务可靠数据传输吞吐量定时安全性 因特网提供的运输服务TCP服务面向连接的服务可靠数据传输服务TCP安全 UDP服务因特网运输…...

buuctf-[WUSTCTF2020]CV Maker

打开环境 随便登录注册一下 进入到了profile.php 其他没有什么页面&#xff0c;只能更换头像上传文件&#xff0c;所以猜测是文件上传漏洞 上传一句话木马看看 <?php eval($_POST[a]);?>回显 搜索一下 添加文件头GIF89a。上传php文件 查看页面源代码&#xff0c;看…...

数据库表操作详解

在数据库管理中,表操作是最基础也最常用的一项功能。不论是临时存储一些数据,还是通过派生表进行复杂的查询,表操作的灵活性和多样性都使其在数据库中发挥着重要的作用。 本文将详细解析数据库中常见的表操作,包括临时表、派生表以及与视图、子查询的比较。我们将使用游戏…...

axios配置代理ip

axios配置代理ip 对于在nodejs中使用axios作为请求库时&#xff0c;有需要配置代理ip的需求&#xff08;比如爬虫等等&#xff09; 最离谱的是&#xff0c;在网上搜了一圈&#xff0c;全是关于axios配置proxy跨域的解决办法&#xff0c;没有配置代理ip的方法。 const axios …...

Apache Commons Pool2 池化技术

对象池是一种设计模式&#xff0c;用于管理和重用对象&#xff0c;以提高性能和资源利用率。对象池的概念在许多应用程序中都有广泛应用&#xff0c;特别是在需要频繁创建和销毁对象的情况下&#xff0c;例如数据库连接、线程、HTTP连接等 对象池通过预先创建一组对象并将它们存…...

二叉树的最近公共祖先LCA

系列题目 236. 二叉树的最近公共祖先 1676. 二叉树的最近公共祖先IV 1644. 二叉树的最近公共祖先 II 235. 二叉搜索树的最近公共祖先 1650. 二叉树的最近公共祖先 III class LowestCommonAncestor:"""236. 二叉树的最近公共祖先题目强调p和q一定存在于二叉树中&…...

wordpress左右翻转页面/搜索引擎的工作原理是什么

摘要&#xff1a; 日前据悉&#xff0c;全球最大的客户关系管理&#xff08;CRM&#xff09;软件提供商Salesforce公司在日本开通运营了其第二家数据中心。 该数据中心设施位于大阪以西约19英里的神户&#xff0c;它将提供包括销售云&#xff0c;服务云&#xff0c;应用云&…...

高端模板网站建设/百度网页版怎么切换

把列表中的正数和负数分开排列. lst [1, -2, 10, -11, 123, -124] lst.sort(keylambda x: (x < 0, abs(x))) print(lst) [1, 10, 123, -2, -11, -124] 把多维列表转为一维列表 list_1 [[1, 2], [3, 4, 5], [6, 7], [8], [9]] # function 1 print([i for k in list_1 for i…...

企业网站建设北京公司排名/海南seo代理加盟供应商

为了保证线程的安全,和保证程序的有序执行,通过给线程加锁的方式来进行限制. 锁:控制线程 1 lock 锁(会有死锁现象):一次放一个 import threading import timev[] lock threading.Lock()#创建锁def func(arg):lock.acquire()#添加锁v.append(arg)#给列表添加元素time.sleep(0…...

长沙装修公司电话号码大全/seo关键词排名优化专业公司

这是一篇反面教材&#xff0c;希望也能引起部分程序员的警惕。 最近半个月时间&#xff0c;经过几次面试&#xff0c;差不多已经对自己有了定位————距离腾讯T3岗位还是有一点距离。 因为在一家小公司呆的习惯了&#xff08;6年&#xff09;&#xff0c;公司没有人在技术层面…...

wordpress vip会员插件/淄博信息港聊天室网址

模板介绍 精美PPT模板设计&#xff0c;中国农业大学本科毕业论文答辩PPT模板。一套高校PPT幻灯片模板&#xff0c;内含青色多种配色&#xff0c;精美风格设计&#xff0c;动态播放效果&#xff0c;精美实用。 一份设计精美的PPT模板&#xff0c;可以让你在汇报演讲时脱颖而出…...

asp做留言板网站/火星培训机构收费明细

CleverCode最近在研究sphinx使用rt实时索引,总结了一下php调用的过程&#xff0c;并且总结了一下rt分布式架构设计。 1 安装Sphinx 安装详解请查看&#xff1a;http://blog.csdn.net/clevercode/article/details/52204124。 2 配置rt索引文件 vim /usr/local/sphinx2/etc/rea…...