当前位置: 首页 > news >正文

pandas数据分析(三)

书接pandas数据分析(二)

文章目录

  • DataFrame数据处理与分析
    • 处理超市交易数据中的异常值
    • 处理超市交易数据中的缺失值
    • 处理超市交易数据中的重复值
    • 使用数据差分查看员工业绩波动情况
    • 使用透视表与交叉表查看业绩汇总数据
    • 使用重采样技术按时间段查看员工业绩

DataFrame数据处理与分析

处理超市交易数据中的异常值

导入数据

import pandas as pd
# 设置列对齐
pd.set_option('display.unicode.ambiguous_as_wide',True)
pd.set_option('display.unicode.east_asian_width',True)
# 读取全部数据,使用默认索引
df=pd.read_excel('./超市营业额2.xlsx')
df[df.交易额<200]#交易额低于200的数据

在这里插入图片描述

# 上浮50%之后仍低于200的数据
df.loc[df.交易额<200,'交易额']=df[df.交易额<200]['交易额'].map(lambda num:num*1.5)
df[df.交易额<200]

在这里插入图片描述

# 交易额高于3000的数据
df[df['交易额']>3000]

在这里插入图片描述

# 交易额低于200或高于3000的数据
df[(df.交易额<200)|(df.交易额>3000)]

在这里插入图片描述

# 低于200的交易额替换为固定的200
df.loc[df.交易额<200,'交易额']=200
# 高于3000的交易额替换为固定的3000
df.loc[df.交易额>3000,'交易额']=3000
# 交易额低于200或高于3000的数据
df[(df.交易额<200)|(df.交易额>3000)]

在这里插入图片描述

处理超市交易数据中的缺失值

DataFrame结构支持dropna()方法丢弃带有缺失值的数据行,或者使用fillna()方法对缺失值进行批量替换。

dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)
  • how=any表示只要某行包含缺失值就丢弃;all表示某行全部为缺失值才丢弃。
  • thresh:用来指定保留包含几个非缺失值数据的行。
  • subset:用来指定在判断缺失值时只考虑哪些列。
fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=None,**kwargs)
  • value:用来指定要替换的值
  • method:用来指定填充缺失值的方式。pad/ffill使用扫描过程中遇到的最后一个有效值一直填充到下一个有效值。backfill/bfill使用缺失值之后遇到的第一个有效值填充前面遇到的所有连续缺失值。
  • limit:用来指定设置了参数method时最多填充多少个连续的缺失值。
  • inplace:True原地替换,修改原数据;False返回一个新的DataFrame,不修改原数据。
len(df)#数据总行数

在这里插入图片描述

len(df.dropna())#丢弃缺失值后的行数

在这里插入图片描述

df[df['交易额'].isnull()]#包含缺失值的行

在这里插入图片描述

#使用固定值替换缺失值
from copy import deepcopy
dff=deepcopy(df)#深复制,不影响原来的df
dff.loc[dff.交易额.isnull(),'交易额']=1000
print(dff.iloc[[110,124,168],:])

在这里插入图片描述

#使用每人交易额均值替换缺失值
dff=deepcopy(df)
for i in dff[dff.交易额.isnull()].index:dff.loc[i,'交易额']=round(dff.loc[dff.姓名==dff.loc[i,'姓名'],'交易额'].mean())
print(dff.iloc[[110,124,168],:])

在这里插入图片描述

#使用整体均值的80%替换缺失值
df.fillna({'交易额':round(df['交易额'].mean()*0.8)},inplace=True)#替换原数据
print(df.iloc[[110,124,168],:])

在这里插入图片描述

处理超市交易数据中的重复值

len(df)#数据总行数

在这里插入图片描述

df[df.duplicated()]#重复行

在这里插入图片描述

# 一人同时负责多个柜台的排班
dff=df[['工号','姓名','日期','时段']]
dff=dff[dff.duplicated()]
for row in dff.values:print(df[(df.工号==row[0])&(df.日期==row[2])&(df.时段==row[3])])
df=df.drop_duplicates()#直接丢弃重复行
print('有效数据行数:',len(df))

在这里插入图片描述

#查看是否有录入错误的工号和姓名
dff=df[['工号','姓名']]
print(dff.drop_duplicates())

在这里插入图片描述

使用数据差分查看员工业绩波动情况

数据差分diff(periods=1,axis=0)
periods=1且axis=0表示每一行数据减去紧邻的上一行数据
periods=2且axis=0表示每一行数据减去此行上面第二行数据
axis=0表示按行进行纵向差分,axis=1表示按列进行横向差分

#每天交易额变化情况
dff=df.groupby(by='日期').sum()['交易额'].diff()
#格式化,正数前面带加号
print(dff.map(lambda num:'%+.2f'%num)[:5])

在这里插入图片描述

#张三每天交易总额变化情况
dff=df[df.姓名=='张三'].groupby(by='日期').sum()['交易额'].diff()
print(dff.map(lambda num:'%+.2f'%num)[:5])

在这里插入图片描述

使用透视表与交叉表查看业绩汇总数据

#每人每天交易总额
dff=df.groupby(by=['姓名','日期'],as_index=False).sum()
dff=dff.pivot(index='姓名',columns='日期',values='交易额')
dff

在这里插入图片描述

#交易总额低于5万元的员工前5天业绩
dff[dff.sum(axis=1)<50000].iloc[:,:5]

在这里插入图片描述

#交易总额低于5万元的员工姓名
print(dff[dff.sum(axis=1)<50000].index.values)
['周七' '钱八']
df.pivot_table(values='交易额',index='姓名',columns='日期',aggfunc='sum',margins=True)

在这里插入图片描述

#每人在各柜台的交易总额
dff=df.groupby(by=['姓名','柜台'],as_index=False).sum()
dff.pivot(index='姓名',columns='柜台',values='交易额')

在这里插入图片描述

#每人每天上班次数
df.pivot_table(values='交易额',index='姓名',columns='日期',aggfunc='count',margins=True)

在这里插入图片描述

#每人在各柜台上班次数
df.pivot_table(values='交易额',index='姓名',columns='柜台',aggfunc='count',margins=True)

在这里插入图片描述

#每人每天上班次数
pd.crosstab(df.姓名,df.日期,margins=True).iloc[:,:5]

在这里插入图片描述

#每人在各柜台上班总次数
pd.crosstab(df.姓名,df.柜台,margins=True)

在这里插入图片描述

#每人在各柜台交易总额
pd.crosstab(df.姓名,df.柜台,df.交易额,aggfunc='sum')

在这里插入图片描述

#每人在各柜台交易额平均值
pd.crosstab(df.姓名,df.柜台,df.交易额,aggfunc='mean').apply(lambda num:round(num,2))#保留两位小数

在这里插入图片描述

使用重采样技术按时间段查看员工业绩

重采样时间间隔 7D表示每7天采样一次。
label='left’表示使用采样周期的起始时间作为结果DataFrame的index;label='right’表示使用采样周期的结束时间作为结果DataFrame的index;
on指定根据哪一列进行重采样,要求该列数据为日期时间类型。

df.日期=pd.to_datetime(df.日期)
#每7天营业总额
df.resample('7D',on='日期').sum()['交易额']

在这里插入图片描述

#每7天营业总额
df.resample('7D',on='日期',label='right').sum()['交易额']

在这里插入图片描述

#每7天营业额平均值
func=lambda num:round(num,2)
df.resample('7D',on='日期',label='right').mean().apply(func)['交易额']

在这里插入图片描述

#每7天营业额平均值
import numpy as np
func=lambda item:round(np.sum(item)/len(item),2)
df.resample('7D',on='日期',label='right')['交易额'].apply(func)

在这里插入图片描述

相关文章:

pandas数据分析(三)

书接pandas数据分析&#xff08;二&#xff09; 文章目录DataFrame数据处理与分析处理超市交易数据中的异常值处理超市交易数据中的缺失值处理超市交易数据中的重复值使用数据差分查看员工业绩波动情况使用透视表与交叉表查看业绩汇总数据使用重采样技术按时间段查看员工业绩Da…...

cpu performance profiling

精彩文章分享1. android performanceAndroid 性能分析工具介绍 (qq.com)手机Android存储性能优化架构分析 (qq.com)抖音 Android 性能优化系列&#xff1a;启动优化之理论和工具篇 (qq.com)那些年&#xff0c;我们一起经历过的 Android 系统性能优化 (qq.com)Android卡顿&#…...

vue2启动项目npm run dev报错 Error: Cannot find module ‘babel-preset-es2015‘ 修改以及问题原因

报错内容如下图&#xff1a; 说找不到模块 babel-preset-es2015。 在报错之前&#xff0c;我正在修改代码&#xff0c;使用 ElementUI 的按需引入方式&#xff0c;修改了 babel.config.js 。 注意&#xff1a;vue/cli 脚手架4版本已经使用了 babel7 &#xff0c;所以项目中…...

*9 set up 注意点

1、set up 执行的时机&#xff1a;beforeCreate 之前执行一次&#xff0c;this 是 undefined 2、set up 的参数&#xff1a; props&#xff1a;值为对象&#xff0c;组件外传递属性&#xff0c;内部声明并且接收属性 context&#xff1a;上下文对象&#xff0c;其内部包含三个…...

linux目录——文件管理

个人简介&#xff1a;云计算网络运维专业人员&#xff0c;了解运维知识&#xff0c;掌握TCP/IP协议&#xff0c;每天分享网络运维知识与技能。座右铭&#xff1a;海不辞水&#xff0c;故能成其大&#xff1b;山不辞石&#xff0c;故能成其高。个人主页&#xff1a;小李会科技的…...

使用new bing简易教程

申请new bing 首先先申请new bing然后等待通过&#xff0c;如下图 申请完&#xff0c;用edge浏览器&#xff0c;若有科学方法&#xff0c;就能在右上角的聊天进行向AI提问 使用插件来进行直接访问New Bing 在edge浏览器中安装一个插件&#xff0c;地址为&#xff1a;Mod…...

idea插件分享 显著提高开发效率

idea插件 Prettier 作用&#xff1a;支持代码格式化&#xff08;java、js等&#xff09; 另外支持js内方法跳转和js中ajax请求跳转到java代码里面 下载&#xff1a;Prettier SQL Params Setter 作用&#xff1a;将日志中mapper输出preparing和paramters处理成完整可直接执行…...

文心一言发布我怎么看?

文心一言发布会 有想看发布会视频的朋友,关注爱书不爱输的程序猿,私信找我拿 我只简短的回答两个问题: 1.文心一言能否为百度止颓&#xff1f; 首先,百度的颓势是由于多种因素导致的&#xff0c;包括市场竞争压力、业务发展战略的失误、管理体制的问题等。要想止颓&#xff0c;…...

100. 增减序列

给定一个长度为 n 的数列 a1,a2,…,an&#xff0c;每次可以选择一个区间 [l,r]&#xff0c;使下标在这个区间内的数都加一或者都减一。 求至少需要多少次操作才能使数列中的所有数都一样&#xff0c;并求出在保证最少次数的前提下&#xff0c;最终得到的数列可能有多少种。 输入…...

操作系统之进程的初步认识(1)

进程1. 进程的相关概念1.1 进程的定义1.2 进程的概念(1)1.3 进程的概念(2)2. 进程和程序的区别3. 进程管理:3.1 进程的结构体有哪些属性(1) Pid(操作系统里指进程识别号)(2) 内存指针(3) 文件描述符表4. 进程调度:(1) 并行(2) 并发5. 进程调度需要的属性(1) 进程状态(2) 进程优…...

【Java】你真的懂封装吗?一文读懂封装-----建议收藏

博主简介&#xff1a;努力学习的预备程序媛一枚~博主主页&#xff1a; 是瑶瑶子啦所属专栏: Java岛冒险记【从小白到大佬之路】 前言 write in the front: 如何理解封装&#xff1f; 试想&#xff1a;我们使用微波炉的时候&#xff0c;只用设置好时间&#xff0c;按下“开始”…...

使用MobaXterm ssh远程登录Ubuntu 20.04

使用MobaXterm 远程登录Ubuntu 20.04 首先需要到官网下载一个MobaXterm 准备一台Ubuntu20.04的虚拟机。使用ifconfig查看IP 我这里的虚拟机是新安装的&#xff0c;所以会提示命令不存在&#xff0c;只要按照提示输入&#xff1a; sudo apt install net-tools接着等待安装完成…...

蓝桥杯历年真题训练

2012年第四届全国电子专业人才设计与技能大赛“自动售水机”设计任务书1. 系统框图接下来我们将任务分块&#xff1a; 1. 按键控制单元 设定按键 S7 为出水控制按键&#xff0c;当 S7 按下后&#xff0c;售水机持续出水&#xff08;继电器接通&#xff0c;指示 灯 L10 点亮&…...

Spring事务报错: org.springframework.transaction.UnexpectedRollbackException

异常信息&#xff1a;支持当前事务&#xff0c;如果不存在则抛出异常。事务被回滚&#xff0c;因为它被标记为仅回滚 org.springframework.transaction.UnexpectedRollbackException: Transaction rolled back because it has been marked as rollback-onlyat org.springframe…...

Spring:IOC和AOP

Spring&#xff1a;IOC和AOP一. IOC(1) 引入(2) 定义(3) 作用(4) 实现(5) DI依赖注入二. AOP(1) 概念(2) Spring中的AOP(3) 入门案例0. 准备&#xff1a;1. 定义通知类和通知方法&#xff1b;2. 在通知类中描述和定义切入点 pointcut3. 用注释绑定切入点和通知方法4. 通知类&am…...

【笔记】效率之门——Python中的函数式编程技巧

文章目录Python函数式编程1. 数据2. 推导式3. 函数式编程3.1. Lambda函数3.2. python内置函数3.3. 高阶函数4. 函数式编程的应用Python函数式编程 我的AI Studio项目&#xff1a;【笔记】LearnDL第三课&#xff1a;Python高级编程——抽象与封装 - 飞桨AI Studio (baidu.com) p…...

Java【多线程基础2】 Thread类 及其常用方法

文章目录前言一、Thread类1, 构造方法2, 常用成员属性3, 常用成员方法3.1, start 启动线程3.2, interrupt 中断线程 (重点)3.2.1, 手动设置标记位3.2.2, 使用内置标记位3.3.3, interrupt 方法 的作用3.3 sleep 休眠线程3.4, jion 等待线程3.5 获取当前线程的引用总结前言 各位读…...

JVM调优实战及常量池详解

目录 阿里巴巴Arthas详解 Arthas使用场景 Arthas使用 GC日志详解 如何分析GC日志 CMS G1...

ChatGPT研究分析:GPT-4做了什么

前脚刚研究了一轮GPT3.5&#xff0c;OpenAI很快就升级了GPT-4&#xff0c;整体表现有进一步提升。追赶一下潮流&#xff0c;研究研究GPT-4干了啥。本文内容全部源于对OpenAI公开的技术报告的解读&#xff0c;通篇以PR效果为主&#xff0c;实际内容不多。主要强调的工作&#xf…...

我为什么要写博客,写博客的意义是什么??

曾经何时我也不知道&#xff0c;怎样才能变成我自己所羡慕的大佬&#xff01;&#xff01;在一次次的CSDN阅读的过程中&#xff0c;结实了许多志同道合的人&#xff01;&#xff01;包过凉哥&#xff0c;擦姐……大佬&#xff0c;但是&#xff0c;很遗憾&#xff0c;与这些人只…...

Z-Image-Turbo-辉夜巫女开发者部署教程:Docker Compose编排Xinference+Gradio服务

Z-Image-Turbo-辉夜巫女开发者部署教程&#xff1a;Docker Compose编排XinferenceGradio服务 1. 开篇&#xff1a;快速搭建你的专属二次元画师 想不想拥有一个能随时召唤“辉夜巫女”的AI画师&#xff1f;今天&#xff0c;我们就来手把手教你&#xff0c;如何用最简单的方式&…...

基于粒子群优化随机森林(PSO-RF)的时间序列预测 PSO-RF时间序列 优化参数为决策树数...

基于粒子群优化随机森林(PSO-RF)的时间序列预测 PSO-RF时间序列 优化参数为决策树数目和深度&#xff0c; 采用交叉验证抑制过拟合问题 matlab代码暂无Matlab版本要求 -- 推荐 2018B 版本及以上 采用 RF 工具箱&#xff08;无需安装&#xff0c;可直接运行&#xff09;&#xf…...

TLV320音频编解码器WAV播放库设计与嵌入式实现

1. WavPlayer 库概述&#xff1a;面向 TLV320 系列音频编解码器的嵌入式 WAV 播放解决方案WavPlayer 是一个专为资源受限嵌入式平台设计的轻量级音频播放库&#xff0c;其核心目标是实现标准 PCM 编码 WAV 文件在基于 TI TLV320 系列音频编解码器&#xff08;如 TLV320AIC3104、…...

tao-8k Embedding模型部署实录:从空服务器到WebUI可用的完整时间线记录

tao-8k Embedding模型部署实录&#xff1a;从空服务器到WebUI可用的完整时间线记录 1. 为什么选择tao-8k&#xff1f;一个能“理解”长文本的模型 如果你正在找一款能处理长文档的文本向量化工具&#xff0c;tao-8k可能就是你需要的那个。简单来说&#xff0c;它能把一大段文…...

5分钟掌握本地千万级图片搜索:隐私优先的图像检索神器

5分钟掌握本地千万级图片搜索&#xff1a;隐私优先的图像检索神器 【免费下载链接】ImageSearch 基于.NET8的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享 项目地址: https://gitcode.com/gh_mirrors/im/ImageSearch 还在为电脑里堆积如山的图片找不…...

espeak-ng语音合成终极指南:快速掌握127种语言免费TTS技术

espeak-ng语音合成终极指南&#xff1a;快速掌握127种语言免费TTS技术 【免费下载链接】espeak-ng espeak-ng: 是一个文本到语音的合成器&#xff0c;支持多种语言和口音&#xff0c;适用于Linux、Windows、Android等操作系统。 项目地址: https://gitcode.com/GitHub_Trendi…...

别再只会调库了!手把手带你用C语言和GPIO操作28BYJ-48步进电机(基于I.MX6ULL)

从寄存器操作到精准控制&#xff1a;I.MX6ULL裸机驱动28BYJ-48步进电机全解析 在嵌入式开发领域&#xff0c;能够脱离现成驱动库直接操作硬件是工程师的核心竞争力。本文将带你用最原始的方式——直接操作I.MX6ULL的GPIO寄存器&#xff0c;实现28BYJ-48步进电机的精准控制。不同…...

开源多模态模型gemma-3-12b-it完整指南:从CSDN镜像拉取到API封装

开源多模态模型Gemma-3-12b-it完整指南&#xff1a;从CSDN镜像拉取到API封装 1. 引言&#xff1a;为什么你需要关注Gemma-3-12b-it&#xff1f; 如果你正在寻找一个既能理解文字又能看懂图片的AI模型&#xff0c;而且希望它足够强大又能在普通电脑上运行&#xff0c;那么Gemm…...

EmbeddingGemma-300M微服务架构:高并发向量检索方案

EmbeddingGemma-300M微服务架构&#xff1a;高并发向量检索方案 1. 引言 想象一下这样的场景&#xff1a;你的电商平台每天需要处理数百万次商品搜索请求&#xff0c;用户输入"红色连衣裙"后&#xff0c;系统需要在毫秒级别返回最相关的商品。传统的关键词匹配已经…...

告别Protobuf?在Skynet游戏服务器里用Cap‘n Proto+Lua实现零拷贝序列化

告别Protobuf&#xff1f;在Skynet游戏服务器里用Capn ProtoLua实现零拷贝序列化 当你的游戏服务器同时在线人数突破10万时&#xff0c;每个毫秒的延迟都会被放大成玩家体验的鸿沟。我们团队在开发一款MMORPG时&#xff0c;发现Protobuf序列化竟然占用了近15%的CPU时间——这促…...