当前位置: 首页 > news >正文

pandas 基础操作3

数据删减

虽然我们可以通过数据选择方法从一个完整的数据集中拿到我们需要的数据,但有的时候直接删除不需要的数据更加简单直接。Pandas 中,以 .drop 开头的方法都与数据删减有关。

DataFrame.drop 可以直接去掉数据集中指定的列和行。一般在使用时,我们指定 labels 标签参数,然后再通过 axis 指定按列或按行删除即可。当然,你也可以通过索引参数删除数据,具体查看官方文档。

  • axis=0axis='index':删除行。这是默认设置。
  • axis=1axis='columns':删除列。
df.drop(labels=['Median Age', 'Total Males'], axis=1)

DataFrame.drop_duplicates 则通常用于数据去重,即剔除数据集中的重复值。使用方法非常简单,默认情况下,它会根据所有列删除重复的行。也可以使用 subset 指定要删除的特定列上的重复项,要删除重复项并保留最后一次出现,请使用 keep=‘last’。

一个删除列的例子

在 Pandas 中,删除 DataFrame 的列通常通过指定列的名称来完成。你不需要直接写列数(索引),而是使用列的名称。例如,如果你的 DataFrame 是这样的:

import pandas as pddata = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

现在假设你想删除列 'B',你可以这样做:

df = df.drop('B', axis=1)

这里 'B' 是列的名称,axis=1 指定了你想删除的是列,而不是行(行是 axis=0)。这种方法避免了直接使用列的数值索引,使代码更加清晰易懂。

[DataFrame.drop_duplicates] 则通常用于数据去重,即剔除数据集中的重复值。使用方法非常简单,默认情况下,它会根据所有列删除重复的行。也可以使用 subset 指定要删除的特定列上的重复项,要删除重复项并保留最后一次出现,请使用 keep=‘last’。

除此之外,另一个用于数据删减的方法 [DataFrame.dropna] 也十分常用,其主要的用途是删除缺少值,即数据集中空缺的数据列或行。

数据填充

既然提到了数据删减,反之则可能会遇到数据填充的情况。而对于一个给定的数据集而言,我们一般不会乱填数据,而更多的是对缺失值进行填充。

在真实的生产环境中,我们需要处理的数据文件往往没有想象中的那么美好。其中,很大几率会遇到的情况就是缺失值。缺失值主要是指数据丢失的现象,也就是数据集中的某一块数据不存在。除此之外、存在但明显不正确的数据也被归为缺失值一类。例如,在一个时间序列数据集中,某一段数据突然发生了时间流错乱,那么这一小块数据就是毫无意义的,可以被归为缺失值。

检测缺失值

Pandas 为了更方便地检测缺失值,将不同类型数据的缺失均采用 NaN 标记。这里的 NaN 代表 Not a Number,它仅仅是作为一个标记。例外是,在时间序列里,时间戳的丢失采用 NaT 标记。

Pandas 中用于检测缺失值主要用到两个方法,分别是:isna()notna(),故名思意就是「是缺失值」和「不是缺失值」。默认会返回布尔值用于判断。

接下来,我们人为生成一组包含缺失值的示例数据。

df = pd.DataFrame(np.random.rand(9, 5), columns=list('ABCDE'))
# 插入 T 列,并打上时间戳
df.insert(value=pd.Timestamp('2017-10-1'), loc=0, column='Time')
# 将 1, 3, 5 列的 2,4,6,8 行置为缺失值
df.iloc[[1, 3, 5, 7], [0, 2, 4]] = np.nan
# 将 2, 4, 6 列的 3,5,7,9 行置为缺失值
df.iloc[[2, 4, 6, 8], [1, 3, 5]] = np.nan
df
TimeABCDE
02017-10-010.6049150.2057690.2655890.1336210.348693
1NaT0.731832NaN0.110929NaN0.430827
22017-10-01NaN0.243280NaN0.927472NaN
3NaT0.514475NaN0.616544NaN0.314332
42017-10-01NaN0.951334NaN0.620587NaN
5NaT0.279080NaN0.298142NaN0.527567
62017-10-01NaN0.345831NaN0.023264NaN
7NaT0.522263NaN0.757472NaN0.072000
82017-10-01NaN0.928859NaN0.718561NaN

首先,我们可以用相同的标量值替换 NaN,比如用 0

df.fillna(0)

除了直接填充值,我们还可以通过参数,将缺失值前面或者后面的值填充给相应的缺失值。例如使用缺失值前面的值进行填充:

df.fillna(method='pad') #使用缺失值前面的数填补
df.fillna(method='bfill') #使用缺失值后面的数填补

上面的例子中,我们的缺失值是间隔存在的。那么,如果存在连续的缺失值是怎样的情况呢?试一试。首先,我们将数据集的第 2,4 ,6 列的第 3,5 行也置为缺失值。

df.iloc[[3, 5], [1, 3, 5]] = np.nan
df
TimeABCDE
02017-10-010.6049150.2057690.2655890.1336210.348693
1NaT0.731832NaN0.110929NaN0.430827
22017-10-01NaN0.243280NaN0.927472NaN
3NaTNaNNaNNaNNaNNaN
42017-10-01NaN0.951334NaN0.620587NaN
5NaTNaNNaNNaNNaNNaN
62017-10-01NaN0.345831NaN0.023264NaN
7NaT0.522263NaN0.757472NaN0.072000
82017-10-01NaN0.928859NaN0.718561NaN

下面的操作是基于上面的表格来的,不互相影响

可以看到,连续缺失值也是按照前序数值进行填充的,并且完全填充。这里,我们可以通过 limit= 参数设置连续填充的限制数量。

填充一项

df.fillna(method='pad', limit=1)  # 最多填充一项
TimeABCDE
02017-10-010.6049150.2057690.2655890.1336210.348693
12017-10-010.7318320.2057690.1109290.1336210.430827
22017-10-010.7318320.2432800.1109290.9274720.430827
32017-10-01NaN0.243280NaN0.927472NaN
42017-10-01NaN0.951334NaN0.620587NaN
52017-10-01NaN0.951334NaN0.620587NaN
62017-10-01NaN0.345831NaN0.023264NaN
72017-10-010.5222630.3458310.7574720.0232640.072000
82017-10-010.5222630.9288590.7574720.7185610.072000

正向填充多项:

df.fillna(method='pad')
TimeABCDE
02017-10-010.6049150.2057690.2655890.1336210.348693
12017-10-010.7318320.2057690.1109290.1336210.430827
22017-10-010.7318320.2432800.1109290.9274720.430827
32017-10-010.7318320.2432800.1109290.9274720.430827
42017-10-010.7318320.9513340.1109290.6205870.430827
52017-10-010.7318320.9513340.1109290.6205870.430827
62017-10-010.7318320.3458310.1109290.0232640.430827
72017-10-010.5222630.3458310.7574720.0232640.072000
82017-10-010.5222630.9288590.7574720.7185610.072000

除了上面的填充方式,还可以通过 Pandas 自带的求平均值方法等来填充特定列或行。举个例子:

df.fillna(df.mean()['C':'E'])

相关文章:

pandas 基础操作3

数据删减 虽然我们可以通过数据选择方法从一个完整的数据集中拿到我们需要的数据,但有的时候直接删除不需要的数据更加简单直接。Pandas 中,以 .drop 开头的方法都与数据删减有关。 DataFrame.drop 可以直接去掉数据集中指定的列和行。一般在使用时&am…...

开发知识点-Maven包管理工具

Maven包管理工具 SpringBootSpringSecuritydubbo图书电商后台实战-环境设置(JDK8, STS, Maven, Spring IO, Springboot)点餐小程序Java版本的选择和maven仓库的配置视频管理系统&&使用maven-tomcat7插件运行web工程SpringTool suite——maven项目…...

104. 二叉树的最大深度

104. 二叉树的最大深度 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode left, TreeNode right…...

JAVA毕业设计113—基于Java+Springboot+Vue的体育馆预约系统(源代码+数据库+12000字论文)

基于JavaSpringbootVue的体育馆预约系统(源代码数据库12000字论文)113 一、系统介绍 本项目前后端分离,本系统分为管理员、用户两种角色 用户角色包含以下功能: 注册、登录、场地(查看/预订/收藏/退订)、在线论坛、公告查看、我的预订管理、我的收藏…...

【自动化测试】pytest 用例执行中print日志实时输出

author: jwensh date: 20231130 pycharm 中 pytest 用例执行中 print 日志 standout 实时命令行输出 使用场景 在进行 websocket 接口进行测试的时候,希望有一个 case 是一直执行并接受接口返回的数据 def on_message(ws, message):message json.loads(message)…...

【深度学习】KMeans中自动K值的确认方法

1 前言 聚类常用于数据探索或挖掘前期,在没有做先验经验的背景下做的探索性分析,也适用于样本量较大情况下的数据预处理等方面工作。例如针对企业整体用户特征,在未得到相关知识或经验之前先根据数据本身特点进行用户分群,然后再…...

github问题解决(持续更新中)

1、ssh: connect to host github.com port 22: Connection refused 从.ssh文件夹中新建文件名为config,内容为: Host github.com Hostname ssh.github.com Port 4432、解决 git 多用户提交切换问题 使用系统命令ssh创建rsa公私秘钥 C:\Users\fyp01&g…...

如何创建一个vue工程

1.打开vue安装网址:安装 | Vue CLI (vuejs.org) 2.创建一个项目文件夹 3.复制地址 4.打开cmd,进入这个地址 5.复制粘贴vue网页的安装命令 npm install -g vue/cli 6.创建vue工程 vue create vue这里可以通过上下键来进行选择。选最后一个选项按回车。 …...

50 代码审计-PHP无框架项目SQL注入挖掘技巧

目录 演示案例:简易SQL注入代码段分析挖掘思路QQ业务图标点亮系统挖掘-数据库监控追踪74CMS人才招聘系统挖掘-2次注入应用功能(自带转义)苹果CMS影视建站系统挖掘-数据库监控追踪(自带过滤) 技巧分析:总结: demo段指的是代码段,先…...

基于Spring、SpringMVC、MyBatis的企业博客网站

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于Spring、SpringMVC、MyBatis的企业博…...

spring日志输出到elasticsearch

1.maven <!--日志elasticsearch--><dependency><groupId>com.agido</groupId><artifactId>logback-elasticsearch-appender</artifactId><version>3.0.8</version></dependency><dependency><groupId>net.l…...

谷歌 Gemini 模型发布计划推迟:无法可靠处理部分非英语沟通

本心、输入输出、结果 文章目录 谷歌 Gemini 模型发布计划推迟&#xff1a;无法可靠处理部分非英语沟通前言由谷歌 CEO 桑达尔・皮查伊做出决策从一开始&#xff0c;Gemini 的目标就是多模态、高效集成工具、API花有重开日&#xff0c;人无再少年实践是检验真理的唯一标准 谷歌…...

Ubuntu显卡及内核更新问题

显卡安装&#xff08;2023.12.04&#xff09; # 查看显卡型号 lspci | grep -i nvidia # 卸载原nvidia 显卡驱动 sudo apt-get --purge remove nvidia*# 禁用nouveau&#xff08;nouveau是ubuntu自带显卡驱动&#xff09; sudo gedit /etc/modprobe.d/blacklist.conf # 新增2行…...

SpringBoot错误处理机制解析

SpringBoot错误处理----源码解析 文章目录 1、默认机制2、使用ExceptionHandler标识一个方法&#xff0c;处理用Controller标注的该类发生的指定错误1&#xff09;.局部错误处理部分源码2&#xff09;.测试 3、 创建一个全局错误处理类集中处理错误&#xff0c;使用Controller…...

牛客剑指offer刷题模拟篇

文章目录 顺时针打印矩阵题目思路代码实现 扑克牌顺子题目思路代码实现 把字符串转换成整数题目思路代码实现 表示数值的字符串题目思路代码实现 顺时针打印矩阵 题目 描述 输入一个矩阵&#xff0c;按照从外向里以顺时针的顺序依次打印出每一个数字&#xff0c;例如&#xf…...

Locust单机多核压测,以及主从节点的数据通信处理!

一、背景 这还是2个月前做的一次接口性能测试&#xff0c;关于locust脚本的单机多核运行&#xff0c;以及主从节点之间的数据通信。 先简单交代下背景&#xff0c;在APP上线之前&#xff0c;需要对登录接口进行性能测试。经过评估&#xff0c;我还是优先选择了locust来进行脚…...

ERROR: [pool www] please specify user and group other than root

根据提供的日志信息&#xff0c;PHP-FPM 服务未能启动的原因是配置文件中的一个错误。错误消息明确指出了问题所在&#xff1a; [29-Nov-2023 14:28:26] ERROR: [pool www] please specify user and group other than root [29-Nov-2023 14:28:26] ERROR: FPM initialization …...

京东商品详情接口在电商行业中的重要性及实时数据获取实现

一、引言 随着电子商务的快速发展&#xff0c;商品信息的准确性和实时性对于电商行业的运营至关重要。京东作为中国最大的电商平台之一&#xff0c;其商品详情接口在电商行业中扮演着重要的角色。本文将深入探讨京东商品详情接口的重要性&#xff0c;并介绍如何通过API实现实时…...

WT2003H MP3语音芯片方案:强大、灵活且易于集成的音频解决方案

在当今的数字化时代&#xff0c;音频技术的普遍性已不容忽视。从简单的音乐播放&#xff0c;到复杂的语音交互&#xff0c;音频技术的身影无处不在。在这个背景下&#xff0c;WT2003H MP3语音芯片方案应运而生&#xff0c;它提供了一种强大、灵活且易于集成的音频解决方案。 1…...

机器学习深度学学习分类模型中常用的评价指标总结记录与代码实现说明

在机器学习深度学习算法模型大开发过程中&#xff0c;免不了要对算法模型进行对应的评测分析&#xff0c;这里主要是总结记录分类任务中经常使用到的一些评价指标&#xff0c;并针对性地给出对应的代码实现&#xff0c;方便读者直接移植到自己的项目中。 【混淆矩阵】 混淆矩阵…...

Scarab:自动化解决《空洞骑士》模组依赖冲突的跨平台管理工具

Scarab&#xff1a;自动化解决《空洞骑士》模组依赖冲突的跨平台管理工具 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 引言&#xff1a;告别模组安装的技术门槛 《空洞骑士…...

如何用MVP.css快速创建响应式网站:终极完整指南

如何用MVP.css快速创建响应式网站&#xff1a;终极完整指南 【免费下载链接】mvp MVP.css — Minimalist classless CSS stylesheet for HTML elements 项目地址: https://gitcode.com/gh_mirrors/mv/mvp MVP.css是一个极简主义的无类CSS样式表&#xff0c;专为快速创建…...

被裁两次,赔了30万,我真得感谢公司。21年赔10万,24年赔20万,平时月光,全靠裁员攒下第一桶金

今天刷到一个帖子&#xff0c;一个程序员说自己被裁了两次&#xff0c;21年赔了10万&#xff0c;24年赔了20万&#xff0c;加起来30万。他说平时一分钱都攒不下&#xff0c;全靠这两次裁员才有了存款&#xff0c;真得感谢公司。我第一反应是&#xff1a;这话听着挺魔幻&#xf…...

seo关键词排名如何提升_seo关键词堆砌会不会被搜索引擎惩罚

SEO关键词排名如何提升_SEO关键词堆砌会不会被搜索引擎惩罚 在当前竞争激烈的网络环境中&#xff0c;提升SEO关键词排名已经成为网站运营者必须面对的重要课题。在追求高排名的过程中&#xff0c;如何避免关键词堆砌这一问题&#xff0c;成为了许多人关心的问题。本文将从问题…...

FineReport 11安装配置全攻略:从下载到问题解决一站式指南

FineReport 11实战指南&#xff1a;从零搭建企业级报表平台 在企业数字化转型浪潮中&#xff0c;数据可视化与报表工具已成为刚需。作为国内领先的商业智能解决方案&#xff0c;FineReport 11凭借其强大的数据连接能力、灵活的报表设计功能和直观的操作界面&#xff0c;正成为越…...

数据库---Day6 数据库约束

本系列可作为数据库学习系列的笔记&#xff0c;文中提到的一些练习的代码&#xff0c;小编会将代码复制下来&#xff0c;大家复制下来就可以练习了&#xff0c;方便大家学习。 点赞关注不迷路&#xff01;您的点赞、关注和收藏是对小编最大的支持和鼓励&#xff01; 系列文章目…...

20轮对话后GPT开始“胡说八道“:我用Subagent分层架构让上下文永不清零

复杂任务跑20轮后&#xff0c;Agent开始"胡说八道"——重复已做过的操作、提出已否决的方案。 这不是模型变笨了&#xff0c;是上下文窗口被污染。本文用Subagent分层架构&#xff0c;让父Agent保持清醒&#xff0c;子Agent承担脏活&#xff0c;实现20轮对话上下文仅…...

计算机毕业设计:Python居民出行规律可视化分析系统 Django框架 可视化 数据分析 PyEcharts 交通 深度学习(建议收藏)✅

博主介绍&#xff1a;✌全网粉丝50W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战8年之久&#xff0c;选择我们就是选择放心、选择安心毕业✌ > &#x1f345;想要获取完整文章或者源码&#xff0c;或者代做&#xff0c;拉到文章底部即可与…...

传感器与变送器:工业自动化的感知与信号处理核心

1. 传感器与变送器的核心差异解析在工业自动化领域&#xff0c;传感器和变送器就像人的感官神经与语言翻译系统。传感器如同触觉、视觉等感官末梢&#xff0c;直接感知外界物理量变化&#xff1b;而变送器则像专业的同声传译&#xff0c;将原始感知信息转化为标准化的表达方式。…...

017、任务运行时间统计与运行状态跟踪:你的系统真的在“干活”吗?

017、任务运行时间统计与运行状态跟踪:你的系统真的在“干活”吗? 去年调试一个电机控制项目,系统偶尔会丢脉冲。用逻辑分析仪抓信号,发现任务调度周期出现了几毫秒的抖动。老板问我:“到底是哪个任务偷了时间?”我愣了半天——FreeRTOS默认只告诉我任务在运行,可没告诉…...