当前位置: 首页 > news >正文

【机器学习】数据清洗之处理异常点

🎈个人主页:甜美的江
🎉欢迎 👍点赞✍评论⭐收藏
🤗收录专栏:机器学习
🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步!

【机器学习】数据清洗之处理异常点

  • 一 确定处理策略:
    • 1.1 考虑因素
    • 1.2 常用处理策略
  • 二 删除异常值
  • 三 替代异常值:
  • 四 转换异常值:
  • 五 三种处理策略的优缺点及应用场景
    • 5.1 删除异常点:
    • 5.2 替换异常点:
    • 5.3 转换异常点:
  • 六 总结

引言:

在数据分析和建模的过程中,我们常常会面对一个重要的问题:异常值。这些异常值可能是由于数据采集过程中的误差、设备故障或其他未知原因引起的。处理异常值是确保我们的模型能够稳健、准确地进行预测的关键一环。

本博客将深入探讨处理异常值的不同策略,以及它们各自的优缺点。首先,我们会详细介绍在确定处理策略时需要考虑的因素,然后深入研究常用的三种处理策略:删除、替代和转换异常值。通过这些讨论,我们旨在帮助读者更好地理解如何在实际应用中选择最适合的处理方法,以确保数据的质量和模型的鲁棒性。

在这里插入图片描述

一 确定处理策略:

1.1 考虑因素

1 异常值的来源:

首先要确定异常值是由于数据录入错误、测量错误、自然变异还是其他原因导致的。这有助于确定适当的处理方法。

2 数据的背景知识:

对数据所代表的领域有一定的了解是很重要的,因为某些领域的数据可能会有特定的异常模式或行为。

3 异常值的影响程度:

确定异常值对数据分析或建模的影响程度。如果异常值影响不大,可以考虑忽略它们;如果影响较大,则需要采取适当的处理措施。

4 数据的分布情况:

分析数据的分布情况,包括均值、中位数、标准差、四分位数等,以确定异常值的位置和数量。

5 处理方法的选择:

根据异常值的性质和数据的特点,选择合适的处理方法,如删除、替代、转换等。

6 数据完整性:

考虑处理异常值对数据完整性的影响。有时候,删除异常值可能会导致数据的缺失,需要权衡处理。

1.2 常用处理策略

1 删除异常值:

当异常值是由于数据录入错误或测量错误导致时,可以考虑直接删除这些异常值。删除异常值可能会影响数据的完整性,因此需要谨慎处理,并根据实际情况确定删除的阈值和方法。

2 替代异常值:

当异常值是真实存在的、但对数据分析或建模有不利影响时,可以考虑使用替代值来代替异常值。常用的替代值包括中位数、均值、众数等,也可以使用插值方法来估算异常值。

3 转换异常值:

对于无法删除或替代的异常值,可以考虑对其进行转换,使其更接近正常范围。常见的转换方法包括取对数、开方等变换。

4 使用专门算法处理异常值:

对于复杂的数据集或特定的异常值情况,可以考虑使用专门的异常值检测算法,如基于聚类的方法、孤立森林、One-Class SVM等。

5 综合考虑多种方法:

综合考虑多种方法来确定处理异常值的策略,可以提高处理的准确性和鲁棒性。

在实践中,确定处理异常值的策略通常是一个综合考虑多个因素的过程,需要根据具体情况灵活选择合适的方法。

二 删除异常值

在数据清洗过程中,删除异常值是一种常见的处理方法之一。异常值可能会严重影响数据分析和建模的结果,因此在某些情况下,删除异常值是合理的做法。下面是详细介绍数据清洗中删除异常值的步骤和注意事项:

1 确定异常值的阈值:

在删除异常值之前,需要先确定异常值的阈值。通常可以使用统计方法,如四分位距(IQR)来识别异常值。通过计算数据的上下四分位数(Q1和Q3),然后计算IQR(IQR = Q3 - Q1),再乘以一个常数(通常为1.5或3),得到异常值的上下限。

2 识别异常值:

使用确定的阈值,对数据集进行扫描,识别出超出阈值范围的数据点。这些数据点即被认定为异常值。

3 删除异常值:

一旦识别出异常值,可以选择将其删除。删除的方法包括完全删除异常值所在的行,或者将异常值替换为缺失值(如NaN)。

4 谨慎处理:

在删除异常值之前,需要仔细考虑异常值的来源和可能的影响。有时候,异常值可能是真实存在的极端情况,而不是数据错误。因此,在删除之前要确保异常值不是有意义的数据。

5 观察删除后的数据分布:

删除异常值之后,需要观察数据分布是否更加符合预期,并且数据的统计性质是否得到改善。可以绘制直方图、盒图等图表来比较删除前后的数据分布情况。

6 注意数据完整性:

删除异常值可能会导致数据的缺失,因此需要注意处理后数据的完整性。在删除异常值时,要确保删除的数据量不会影响到整体数据的可用性和代表性。

7 敏感性分析:

可以进行敏感性分析,尝试不同的异常值阈值,并观察结果的稳定性和可信度。有时候,异常值的识别阈值可能会影响最终的分析结果。

8 记录处理过程:

在数据清洗过程中,记录删除异常值的操作,包括删除的数据数量、删除的原因、使用的阈值等信息。这有助于保留数据处理的记录和可追溯性。

总的来说,删除异常值是数据清洗中常用的一种处理方法,但在使用之前需要慎重考虑异常值的来源和可能的影响,以及删除后数据的完整性和可信度。

三 替代异常值:

在数据清洗过程中,除了删除异常值之外,另一种常见的处理方法是替代异常值。替代异常值意味着用其他数值代替异常值,从而保留数据点并降低异常值对分析结果的影响。下面是详细介绍数据清洗中替代异常值的步骤和方法:

1 确定替代策略:

在替代异常值之前,需要确定替代策略。

常见的替代策略包括用平均值、中位数、众数、特定分布的随机值或者利用插值方法估算的值来替代异常值。

2 识别异常值:

与删除异常值相同,首先需要识别数据中的异常值。

可以使用统计方法(如四分位距)或基于领域知识进行识别。

3 选择替代值:

一旦识别出异常值,根据确定的替代策略选择替代值。

选择替代值时,要考虑数据的分布、异常值的数量和位置,以及替代值对后续分析的影响。

4 替代方法:

替代异常值的方法有多种,包括:

1使用平均值或中位数:
将异常值替换为整个数据集的平均值或中位数。这种方法简单直接,但可能会受到异常值的影响。

2 使用众数
对于分类变量,可以将异常值替换为该变量的众数。

3 随机替代:
从特定分布中随机生成值来替代异常值。例如,可以根据数据的分布(如正态分布)生成随机值来替代异常值。

4 插值方法:
使用插值技术(如线性插值、多项式插值或样条插值)根据异常值前后的数据点估算替代值。

5 利用领域知识:
根据数据背景和领域知识来确定替代值,例如使用相邻时间点的数据或相关变量的数据进行替代。

5 观察替代后的数据分布

替代异常值之后,需要观察数据分布是否更加符合预期,并且数据的统计性质是否得到改善。

可以绘制直方图、盒图等图表来比较替代前后的数据分布情况。

6 谨慎选择替代值

在选择替代值时要谨慎,确保替代值不会引入更大的偏差或错误。

合理的替代值应该尽可能地保留原始数据的特征和信息。

7 记录处理过程

与删除异常值一样,对替代异常值的操作也需要记录,包括使用的替代方法、替代值的选择原因等信息,以便于后续分析和可追溯性。

总的来说,替代异常值是数据清洗中常用的一种处理方法,适用于保留异常值的情况下,并通过合理的替代值降低异常值对分析结果的影响。

四 转换异常值:

在数据清洗过程中,转换异常值是一种处理异常点的方法,其目的是通过对异常值进行变换或转换,将其调整为符合数据分布的合理值。

这种方法与替代异常值有所不同,因为它不是简单地用其他数值代替异常值,而是通过某种变换方式将异常值转换为更接近正常数据点的值。

下面是关于数据清洗中转换异常值的详细介绍:

1 识别异常值:

首先,需要识别数据中的异常值。这可以通过基于统计方法(如四分位距)或基于领域知识进行识别。

2 确定转换方式:

一旦异常值被识别出来,需要确定如何对其进行转换。

这通常需要结合数据的特点和异常值的分布情况来决定。

一些常见的转换方式包括:

对数转换:将数据取对数可以减小异常值的影响,并使得数据更接近正态分布。

平方根转换:类似地,平方根转换也可以减小异常值的影响,并且可以用于处理偏态分布。

Box-Cox转换:Box-Cox转换是一种参数化的转换方法,可以使数据更加接近正态分布。

截尾转换:将超出某个阈值的异常值截尾,使其等于该阈值。

Winsorization转换:将超出某个阈值的异常值替换为该阈值,类似于截尾转换,但是替换的方式不同。

3 应用转换:

选择合适的转换方式后,将其应用于异常值。

这可能需要对整个数据集进行转换,或者仅对异常值进行转换,具体取决于转换方式和数据的分布特点。

4 观察转换后的数据分布:

转换异常值之后,需要观察数据分布是否更加符合预期,并且数据的统计性质是否得到改善。

可以使用直方图、盒图等图表来比较转换前后的数据分布情况。

5 谨慎选择转换方式:

在选择转换方式时要谨慎,确保选择的方式能够有效地调整异常值,并且不会引入更大的偏差或错误。

合理的转换方式应该能够保留原始数据的特征和信息。

6 记录处理过程:

与其他数据清洗操作一样,对转换异常值的操作也需要进行记录,包括使用的转换方式、转换的原因以及转换后的结果等信息,以便于后续分析和可追溯性。

总的来说,转换异常值是数据清洗中常用的一种处理方法,适用于需要调整异常值以使其更符合数据分布的情况。通过合适的转换方式,可以有效地减小异常值对分析结果的影响,并提高数据的质量和可解释性。

五 三种处理策略的优缺点及应用场景

处理异常点的三种主要策略是删除、替换和转换。这些策略都有各自的优缺点,适用于不同的情况和需求。

5.1 删除异常点:

优点:

简单直接:删除异常点是最直观和简单的方法,不需要额外的计算或复杂的处理步骤。

不影响模型:删除异常点可以确保模型不受异常值的影响,从而提高模型的稳定性和准确性。

缺点:

信息丢失:删除异常点可能会导致数据信息的丢失,尤其是在数据量本来就不多的情况下,删除异常点可能会导致数据不足以训练出健壮的模型。

潜在偏见:删除异常点可能会引入数据偏见,特别是在异常点实际上是重要信息或特殊情况的情况下。

应用场景:

当异常点数量较少且对模型性能有负面影响时,可以考虑删除异常点。

对于异常点明显且对建模任务不重要的情况下,删除异常点是一个有效的处理方法。

5.2 替换异常点:

优点:

保留数据信息:替换异常点可以保留数据集的信息,避免了删除异常点可能导致的信息丢失问题。

维护数据结构:替换异常点可以确保数据集的结构和完整性,使其适合于一些模型的训练和应用。

缺点:

引入偏见:替换异常点可能会引入偏见,尤其是当替换方法不合理或不准确时,可能会导致结果不准确。

难以确定替换值:确定如何替换异常值通常是一个挑战,需要根据具体情况和领域知识来选择合适的替换方法。

应用场景:

当异常点数量较少且有合理的替换方法时,可以考虑替换异常点。

对于异常点对模型影响不大,但需要保留数据信息的情况下,替换异常点是一个合适的选择。

5.3 转换异常点:

优点:

保留异常信息:转换异常点可以将异常值转换成其他值,从而保留了异常点的信息,同时降低了其对模型的影响。

灵活性:转换异常点可以根据具体情况采取不同的转换方法,使其更加灵活适应各种场景。

缺点:

需要领域知识:转换异常点需要对数据和领域有深入的理解,以确保选取的转换方法合理且有效。

增加复杂度:转换异常点可能会增加数据处理的复杂度,并且需要谨慎地选择合适的转换方法。

应用场景:

当需要保留异常点信息同时减少其对模型的影响时,可以考虑转换异常点。

对于异常点数量较多且需要根据具体情况进行个性化处理时,转换异常点是一个合适的选择。

在实际应用中,通常需要根据具体情况综合考虑这三种策略的优缺点,并根据数据特点、领域知识和建模需求选择合适的处理方法。

六 总结

在本博客中,我们深入研究了处理异常值的三种主要策略:删除、替代和转换。我们首先讨论了确定处理策略时需要考虑的因素,包括数据特点、领域知识和建模需求。
接着,我们详细介绍了删除异常值、替代异常值和转换异常值的方法,并对每种方法的优缺点进行了全面分析。

删除异常点是一种简单直接的方法,但可能导致信息丢失;

替代异常点保留了数据信息,但可能引入偏见;

而转换异常点则在保留异常信息的同时减少其对模型的影响,但需要更多的领域知识。

最后,我们总结了每种策略的应用场景,以帮助读者在实际应用中做出明智的选择。无论您是在进行数据清洗、建模还是分析,选择合适的异常值处理策略都将对最终结果产生深远的影响。

这篇文章到这里就结束了

谢谢大家的阅读!

如果觉得这篇博客对你有用的话,别忘记三连哦。

我是甜美的江,让我们我们下次再见

在这里插入图片描述

在这里插入图片描述

相关文章:

【机器学习】数据清洗之处理异常点

🎈个人主页:甜美的江 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步…...

JavaScript学习之旅10------掌握jQuery:实用应用案例深度解析

目录 写在开头1. jQuery基础知识回顾1.1. 选择器1.2. 事件1.3. 效果1.4. DOM操作1.5. AJAX 2. 实用应用案例分析2.1. 动态内容加载2.2. 表单验证2.3. 图像滑动门效果2.4. 创建动态导航菜单 3. 高级技巧与最佳实践3.1. 优化jQuery代码的性能3.2. jQuery插件的使用和自定义3.3. j…...

017_逆向工程搭建和使用

文章目录 启动代码生成器然后访问第一步处理:前端代码删除逆向生成的代码中有好多东西要引入创建gulimall-common插曲:修改模块名dao层entity层service层controllerRQuery文件当中的报错☆ 调整renren-generator的逆向工程逆向生成代码当中有什么总结...

位运算+leetcode(1)

基础 1.基础知识 以下都是针对数字的二进制进行操作 >> 右移操作符<< 左移操作符~ 取反操作符 & 有0就是0&#xff0c;全一才一 | 有一才一 &#xff0c;全0才0^ 相同为0&#xff0c;相异为1 异或( ^ )运算的规律 a ^ 0 a a ^ a 0a ^ b ^ c a ^ (b …...

如何在 JavaScript 中比较两个日期 – 技术、方法和最佳实践

在 JavaScript 中&#xff0c;您可以使用 date 对象有效地处理应用程序中的日期、时间和时区。 Date 对象可帮助您有效地操作数据、处理各种与日期相关的任务&#xff0c;并在创建实际应用程序时执行一些计算。 &#xff08;本文内容参考&#xff1a;java567.com&#xff09;…...

【More Effective C++】条款17:考虑使用lazy evaluation

含义&#xff1a;将计算拖延到必须计算的时候&#xff0c;以下为4个场景 优点&#xff1a;避免不必要的计算&#xff0c;节省成本 缺点&#xff1a; 管理复杂性&#xff1a;可能会增加代码复杂性&#xff0c;特别是在多线程环境中需要正确处理同步和并发问题。性能开销&…...

深入探索Pandas读写XML文件的完整指南与实战read_xml、to_xml【第79篇—读写XML文件】

深入探索Pandas读写XML文件的完整指南与实战read_xml、to_xml XML&#xff08;eXtensible Markup Language&#xff09;是一种常见的数据交换格式&#xff0c;广泛应用于各种应用程序和领域。在数据处理中&#xff0c;Pandas是一个强大的工具&#xff0c;它提供了read_xml和to…...

如何在我们的模型中使用Beam search

在上一篇文章中我们具体探讨了Beam search的思想以及Beam search的大致工作流程。根据对Beam search的大致流程我们已经清楚了&#xff0c;在这我们来具体实现一下Beam search并应用在我们的seq2seq任务中。 1. python中的堆&#xff08;heapq&#xff09; 堆是一种特殊的树形…...

PKI - 借助Nginx 实现Https 服务端单向认证、服务端客户端双向认证

文章目录 Openssl操系统默认的CA证书的公钥位置Nginx Https 自签证书1. 生成自签名证书和私钥2. 配置 Nginx 使用 HTTPS3. 重启 Nginx 服务4. 直接访问5. 不验证证书直接访问6. 使用server.crt作为ca证书验证服务端解决方法1&#xff1a;使用 --resolve 参数进行请求域名解析解…...

WebSocket原理详解

目录 1.引言 1.1.使用HTTP不断轮询 1.2.长轮询 2.websocket 2.1.概述 2.2.websocket建立过程 2.3.抓包分析 2.4.websocket的消息格式 3.使用场景 4.总结 1.引言 平时我们打开网页&#xff0c;比如购物网站某宝。都是点一下列表商品&#xff0c;跳转一下网页就到了商品…...

在面试中如何回复擅长vue还是react

当面试官问及这个问题的时候&#xff0c;我们需要思考面试官是否是在乎你是掌握vue还是react吗&#xff1f;&#xff1f;&#xff1f; 在大前端的一个环境下&#xff0c;当前又有AI人工智能的加持辅助&#xff0c;我们是不是要去思考企业在进行前端岗位人员需求的时候&#xf…...

使用Vue.js输出一个hello world

导入vue.js <script src"https://cdn.jsdelivr.net/npm/vue2/dist/vue.js"></script> 创建一个标签 <div id"app">{{message}}</div> 接管标签内容&#xff0c;创建vue实例 <script type"text/javascript">va…...

15 ABC基于状态机的按键消抖原理与状态转移图

1. 基于状态机的按键消抖 1.1 什么是按键&#xff1f; 从按键结构图10-1可知&#xff0c;按键按下时&#xff0c;接点&#xff08;端子&#xff09;与导线接通&#xff0c;松开时&#xff0c;由于弹簧的反作用力&#xff0c;接点&#xff08;端子&#xff09;与导线断开。 从…...

λ-矩阵的多项式展开

原文链接 定义. 对于 m n m \times n mn 的 λ \lambda λ-矩阵 A ( λ ) [ a 11 ( λ ) . . . a 1 n ( λ ) ⋮ ⋮ a m 1 ( λ ) . . . a m n ( λ ) ] \mathbf{A}(\lambda)\begin{bmatrix} a_{11}(\lambda) & ... & a_{1n}(\lambda)\\ \vdots & & \vdo…...

如何在PDF 文件中删除页面?

查看不同的工具以及解释如何在 Windows、Android、macOS 和 iOS 上从 PDF 删除页面的步骤&#xff1a; PDF 是最难处理的文件格式之一。曾经有一段时间&#xff0c;除了阅读之外&#xff0c;无法用 PDF 做任何事情。但是今天&#xff0c;有许多应用程序和工具可以让您用它们做…...

蓝桥杯官网填空题(质数拆分)

问题描述 将 2022 拆分成不同的质数的和&#xff0c;请问最多拆分成几个&#xff1f; 答案提交 本题为一道结果填空的题&#xff0c;只需要算出结果后&#xff0c;在代码中使用输出语句将结果输出即可。 运行限制 import java.util.Scanner;public class Main {static int …...

【数据结构】二叉树的顺序结构及链式结构

目录 1.树的概念及结构 1.1树的概念 1.2树的相关概念 ​编辑 1.3树的表示 1.4树在实际中的运用&#xff08;表示文件系统的目录树结构&#xff09; 2.二叉树概念及结构 2.1二叉树的概念 2.2现实中的二叉树 ​编辑 2.3特殊的二叉树 2.4二叉树的性质 2.5二叉树的存储结…...

海外IP代理:解锁网络边界的实战利器

文章目录 引言&#xff1a;正文&#xff1a;一、Roxlabs全球IP代理服务概览特点&#xff1a;覆盖范围&#xff1a;住宅IP真实性&#xff1a;性价比&#xff1a;在网络数据采集中的重要性&#xff1a; 二、实战应用案例一&#xff1a;跨境电商竞品分析步骤介绍&#xff1a;代码示…...

如何写好一个简历

如何编写求职简历 论Java程序员求职中简历的重要性 好简历的作用 在求职过程中&#xff0c;一份好的简历是非常重要的&#xff0c;它甚至可以直接决定能否被面试官认可。一份出色或者说是成功的个人简历&#xff0c;最根本的作用是能让看这份简历的人产生一定要见你的强烈愿…...

【AutoML】AutoKeras 进行 RNN 循环神经网络训练

由于最近这些天都在人工审查之前的哪些问答数据&#xff0c;所以迟迟都没有更新 AutoKeras 的训练结果。现在那部分数据都已经整理好了&#xff0c;20w 的数据最后能够使用的高质量数据只剩下 2k。这 2k 的数据已经经过数据校验并且对部分问题的提问方式和答案内容进行了不改变…...

H12-821_74

74.在某路由器上查看LSP&#xff0c;看到如下结果&#xff1a; A.发送目标地址为3.3.3.3的数据包时&#xff0c;打上标签1026&#xff0c;然后发送。 B.发送目标地址为4.4.4.4的数据包时&#xff0c;不打标签直接发送。 C.当路由器收到标签为1024的数据包&#xff0c;将把标签…...

有趣儿的组件(HTML/CSS)

分享几个炫酷的组件&#xff0c;起飞~~ 评论区留爪&#xff0c;继续分享哦~ 文章目录 1. 按钮2. 输入3. 工具提示4. 单选按钮5. 加载中 1. 按钮 HTML&#xff1a; <button id"btn">Button</button>CSS&#xff1a; button {padding: 10px 20px;text-tr…...

1、深度学习环境配置相关下载地址整理(cuda、cudnn、torch、miniconda、pycharm、torchvision等)

一、深度学习环境配置相关&#xff1a; 1、cuda&#xff1a;https://developer.nvidia.com/cuda-toolkit-archive 2、cudnn&#xff1a;https://developer.nvidia.com/rdp/cudnn-archive 4、miniconda&#xff1a;https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/?C…...

Spring Boot3自定义异常及全局异常捕获

⛰️个人主页: 蒾酒 &#x1f525;系列专栏&#xff1a;《spring boot实战》 &#x1f30a;山高路远&#xff0c;行路漫漫&#xff0c;终有归途。 目录 前置条件 目的 主要步骤 定义自定义异常类 创建全局异常处理器 手动抛出自定义异常 前置条件 已经初始化好一个…...

【python】网络爬虫与信息提取--Beautiful Soup库

Beautiful Soup网站&#xff1a;https://www.crummy.com/software/BeautifulSoup/ 作用&#xff1a;它能够对HTML.xml格式进行解析&#xff0c;并且提取其中的相关信息。它可以对我们提供的任何格式进行相关的爬取&#xff0c;并且可以进行树形解析。 使用原理&#xff1a;它能…...

谷歌浏览器,如何将常用打开的网站创建快捷方式到电脑桌面?

打开谷歌浏览器&#xff0c;打开想要创建的快捷方式的网页 点击浏览器右上角的三个点&#xff1a; 点击选择【更多工具】 选择【创建快捷方式】 然后&#xff0c;在浏览器上方会弹出一个框&#xff0c;让命名此创建的快捷方式的名称 命名好之后&#xff0c;再点击【创…...

产品经理面试题解析:业务架构是通往成功的关键吗?

大家好&#xff0c;我是小米&#xff01;今天我要和大家聊的是产品经理面试中的一个热门话题&#xff1a;“业务架构”&#xff01;相信不少小伙伴在准备面试的时候都会遇到这个问题&#xff0c;究竟什么是业务架构&#xff1f;它又与产品经理的工作有着怎样的关系呢&#xff1…...

【蓝桥杯】灭鼠先锋

一.题目描述 二.解题思路 博弈论&#xff1a; 只能转移到必胜态的&#xff0c;均为必败态。 可以转移到必败态的&#xff0c;均为必胜肽。 最优的策略是&#xff0c;下一步一定是必败态。 #include<iostream> #include<map> using namespace std;map<string,bo…...

2024年华为OD机试真题-求字符串中所有整数的最小和-Python-OD统一考试(C卷)

题目描述: 输入字符串s,输出s中包含所有整数的最小和 说明 1. 字符串s,只包含 a-z A-Z +- ; 2. 合法的整数包括 1) 正整数 一个或者多个0-9组成,如 0 2 3 002 102 2)负整数 负号 - 开头,数字部分由一个或者多个0-9组成,如 -0 -012 -23 -00023 输入描述: 包含…...

数据分析基础之《pandas(7)—高级处理2》

四、合并 如果数据由多张表组成&#xff0c;那么有时候需要将不同的内容合并在一起分析 1、先回忆下numpy中如何合并 水平拼接 np.hstack() 竖直拼接 np.vstack() 两个都能实现 np.concatenate((a, b), axis) 2、pd.concat([data1, data2], axis1) 按照行或者列…...

fluent脱硝SCR相对标准偏差、氨氮比、截面速度计算

# -*- coding: utf-8 -*- """ Created on Wed Sep 20 20:40:30 2023 联系QQ:3123575367&#xff0c;专业SCR脱硝仿真。 该程序用来处理fluent通过export-solution-ASCII-Space导出的数据&#xff0c;可计算标准偏差SD、相对标准偏差RSD,适用于求解平面的相对均匀…...

Codeforces Round 925 (Div. 3)(A~E)

题目暂时是AC&#xff0c;现在是Hack阶段&#xff0c;代码仅供参考。 A. Recovering a Small String 题目给出的n都可以由字母来组成&#xff0c;比如4可以是aab&#xff0c;字母里面排第一个和第二个&#xff0c;即1124。但是会歧义&#xff0c;比如aba为1214&#xff0c;也是…...

@RequestBody、@RequestParam、@RequestPart使用方式和使用场景

RequestBody和RequestParam和RequestPart使用方式和使用场景 1.RequestBody2.RequestParam3.RequestPart 1.RequestBody 使用此注解接收参数时&#xff0c;适用于请求体格式为 application/json&#xff0c;只能用对象接收 2.RequestParam 接收的参数是来自HTTP 请求体 或 请…...

LeetCode、1143. 最长公共子序列【中等,二维DP】

文章目录 前言LeetCode、1143. 最长公共子序列【中等&#xff0c;二维DP】题目链接与分类思路2022年暑假学习思路及题解二维DP解决 资料获取 前言 博主介绍&#xff1a;✌目前全网粉丝2W&#xff0c;csdn博客专家、Java领域优质创作者&#xff0c;博客之星、阿里云平台优质作者…...

162基于matlab的多尺度和谱峭度算法对振动信号进行降噪处理

基于matlab的多尺度和谱峭度算法对振动信号进行降噪处理&#xff0c;选择信号峭度最大的频段进行滤波&#xff0c;输出多尺度谱峭度及降噪结果。程序已调通&#xff0c;可直接运行。 162 matlab 信号处理 多尺度谱峭度 (xiaohongshu.com)...

Android Studio六大基本布局的概览和每个布局的关键特性以及实例分析

1. 线性布局 (LinearLayout) 描述: 线性布局是一种按指定方向(水平或垂直)排列其子视图的布局容器。通过android:orientation属性可设置为horizontal或vertical。 关键属性: android:orientation: 指定布局方向。android:layout_weight: 子视图权重,用于分配剩余空间。示…...

【go语言】一个简单HTTP服务的例子

一、Go语言安装 Go语言&#xff08;又称Golang&#xff09;的安装过程相对简单&#xff0c;下面是在不同操作系统上安装Go语言的步骤&#xff1a; 在Windows上安装Go语言&#xff1a; 访问Go语言的官方网站&#xff08;golang.org&#xff09;或者使用国内镜像站点&#xff0…...

LeetCode Python - 15.三数之和

目录 题目答案运行结果 题目 给你一个整数数组 nums &#xff0c;判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k &#xff0c;同时还满足 nums[i] nums[j] nums[k] 0 。请 你返回所有和为 0 且不重复的三元组。 注意&#xff1a;答案中不可…...

C#中implicit和explicit

理解: 使用等号代替构造函数调用的效果以类似重载操作符的形式定义用于类型转换的函数前者类型转换时候直接写等号赋值语法,后者要额外加目标类型的强制转换stirng str -> object o -> int a 可以 int a (int)(str as object)转换通过编译,但没有转换逻辑所以运行会报错…...

探讨java系统中全局唯一ID实现方案

为什么需要全局唯一ID 我们这里引用美团 Leaf 的场景介绍&#xff1a;在复杂分布式系统中&#xff0c;往往需要对大量的数据和消息进行唯一标识。如在美团点评的金融、支付、餐饮、酒店、猫眼电影等产品的系统中&#xff0c;数据日渐增长&#xff0c;对数据分库分表后需要有一…...

微信小程序(四十四)鉴权组件插槽-登入检测

注释很详细&#xff0c;直接上代码 新增内容&#xff1a; 1.鉴权组件插槽的用法 2.登入检测示范 源码&#xff1a; app.json {"usingComponents": {"auth":"/components/auth/auth"} }app.js App({globalData:{//定义全局变量isLoad:false} })…...

【ES】--ES集成热更新自定义词库(字典)

目录 一、问题描述二、具体实施1、Tomcat实现远程扩展字典2、验证生效3、ES配置远程扩展字典4、为何不重启ES能实现热更新 一、问题描述 问题现象: 前面完成了自定义分词器词库集成到ES中。在实际项目中词库是时刻在变更的&#xff0c;但又不希望重启ES&#xff0c;对此我们应…...

能源管理师——为能源可持续发展护航

能源管理师是在能源管理领域具有专业知识和技能的专业人士&#xff0c;他们的工作对于实现能源的有效利用和可持续发展至关重要。 能源管理师的主要职责是协助企业或组织进行能源管理&#xff0c;包括能源规划、能源审计、节能措施的实施和能源绩效的评估等。他们通过对能源使…...

设计模式理解:单例模式+工厂模式+建设者模式+原型模式

迪米特法则&#xff1a;Law of Demeter, LoD, 最少知识原则LKP 如果两个软件实体无须直接通信&#xff0c;那么就不应当发生直接的相互调用&#xff0c;可以通过第三方转发该调用。其目的是降低类之间的耦合度&#xff0c;提高模块的相对独立性。 所以&#xff0c;在运用迪米特…...

DataX源码分析 writer

系列文章目录 一、DataX详解和架构介绍 二、DataX源码分析 JobContainer 三、DataX源码分析 TaskGroupContainer 四、DataX源码分析 TaskExecutor 五、DataX源码分析 reader 六、DataX源码分析 writer 七、DataX源码分析 Channel 文章目录 系列文章目录前言DataX的Writer写入流…...

为自己的项目媒体资源添加固定高度

为自己的项目媒体资源添加固定高度 未媒体资源添加固定高度&#xff0c;不仅有利于确定懒加载后的切确位置&#xff0c;还可以做骨架屏、loading动画等等&#xff0c;但是因为历史数据中很多没有加高度的媒体资源&#xff0c;所以一直嫌麻烦没有做。 直到这个季度有一个自上而…...

家政小程序系统源码开发:引领智能生活新篇章

随着科技的飞速发展&#xff0c;小程序作为一种便捷的应用形态&#xff0c;已经深入到我们生活的方方面面。尤其在家庭服务领域&#xff0c;家政小程序的出现为人们带来了前所未有的便利。它不仅简化了家政服务的流程&#xff0c;提升了服务质量&#xff0c;还为家政服务行业注…...

多表查询

目录 统计出一张数据表中的数据量 查询 dept 表中的数据量 查询 emp 表中的数据量 实现 emp 与 dept 的多表查询 笛卡尔积 消除笛卡尔积 把数据表 emp 的别名定为 e&#xff0c;数据表 dept 的别名定为 d&#xff0c;然后在查询中分别使用 e 和 d 代替这两个表 Oracle从…...

PHP开发日志 ━━ 深入理解三元操作与一般条件语句的不同

概况 三元运算符的功能与“if…else”流程语句一致。 在一般情况下&#xff0c;三元操作替换if条件语句可以精简代码&#xff0c;并且更为直观&#xff0c;但是在下面的情况中使用三元操作将会返回警告。 借图&#xff1a; 案例 比如原代码&#xff1a; class classA{publ…...

多维时序 | Matlab实现RF-Adaboost随机森林结合Adaboost多变量时间序列预测

多维时序 | Matlab实现RF-Adaboost随机森林结合Adaboost多变量时间序列预测 目录 多维时序 | Matlab实现RF-Adaboost随机森林结合Adaboost多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现RF-Adaboost随机森林结合Adaboost多变量时间序列预…...