【Python知识】一个强大的数据分析库Pandas
文章目录
- Pandas概述
- 1. 安装 Pandas
- 2. 基本数据结构
- 3. 数据导入和导出
- 4. 数据清洗
- 5. 数据选择和过滤
- 6. 数据聚合和摘要
- 7. 数据合并和连接
- 8. 数据透视表
- 9. 时间序列分析
- 10. 数据可视化
- 📈 如何使用 Pandas 进行复杂的数据分析?
- 1. 数据预处理
- 2. 处理缺失值
- 3. 处理异常值
- 4. 数据转换
- 5. 去重
- 6. 特征工程
- 7. 数据划分
Pandas概述
Pandas 是一个强大的 Python 数据分析库,它提供了快速、灵活且富有表现力的数据结构,旨在使数据清洗、处理和分析工作变得更加简单和高效。以下是 Pandas 的详细说明:
1. 安装 Pandas
如果你还没有安装 Pandas,可以通过 pip 命令安装:
pip install pandas
2. 基本数据结构
Pandas 提供了两种主要的数据结构:Series
和 DataFrame
。
-
Series:
- 类似于一维数组,可以包含任何数据类型(整数、字符串、浮点数、Python 对象等)。
- 每个
Series
都有一个索引(Index),它可以是默认的整数索引,也可以是自定义的标签。
import pandas as pd s = pd.Series([1, 3, 5, np.nan, 6, 8]) print(s)
-
DataFrame:
- 类似于二维表格型数据结构,可以被看作是由多个
Series
组成的(每列一个Series
)。 DataFrame
有行索引和列索引,可以包含不同类型的列。
data = {'Column1': [1, 2, 3, 4],'Column2': ['a', 'b', 'c', 'd']} df = pd.DataFrame(data) print(df)
- 类似于二维表格型数据结构,可以被看作是由多个
3. 数据导入和导出
Pandas 支持多种格式的数据导入和导出,包括 CSV、Excel、JSON、HTML 和 SQL 数据库等。
# 从 CSV 文件读取数据
df = pd.read_csv('data.csv')# 将数据写入 CSV 文件
df.to_csv('output.csv', index=False)# 从 Excel 文件读取数据
df = pd.read_excel('data.xlsx')# 将数据写入 Excel 文件
df.to_excel('output.xlsx', index=False)
4. 数据清洗
Pandas 提供了丰富的函数来处理缺失数据、重复数据、数据类型转换等。
# 处理缺失值
df.dropna(inplace=True) # 删除缺失值
df.fillna(value='default_value', inplace=True) # 填充缺失值# 删除重复数据
df.drop_duplicates(inplace=True)# 数据类型转换
df['Column'] = df['Column'].astype('int')
5. 数据选择和过滤
Pandas 提供了灵活的方法来选择和过滤数据。
# 选择列
selected_columns = df[['Column1', 'Column2']]# 选择行
selected_rows = df[df['Column'] > value]# 使用条件过滤
filtered_df = df[df['Column'].apply(lambda x: x > value)]
6. 数据聚合和摘要
Pandas 允许你轻松地对数据进行聚合和摘要统计。
# 数据描述性统计
print(df.describe())# 数据聚合
aggregated_data = df.groupby('Column').agg(['mean', 'sum', 'max'])
7. 数据合并和连接
Pandas 提供了 merge
、join
和 concat
等函数来合并和连接数据。
# 合并两个 DataFrame
merged_df = pd.merge(df1, df2, on='key', how='inner')# 连接两个 DataFrame
concatenated_df = pd.concat([df1, df2], axis=0)
8. 数据透视表
Pandas 的 pivot_table
功能允许你快速创建数据透视表。
pivot_table = pd.pivot_table(df, values='Column', index='RowColumn', columns='ColumnColumn', aggfunc='mean')
9. 时间序列分析
Pandas 有强大的时间序列分析功能,可以轻松处理和分析时间序列数据。
# 创建时间序列索引
time_series = pd.Series(data, index=pd.date_range('20210101', periods=len(data)))# 时间序列数据的重采样
resampled_data = time_series.resample('M').sum()
10. 数据可视化
Pandas 可以与 Matplotlib 集成,提供数据可视化功能。
df.plot(kind='line', x='Column1', y='Column2')
plt.show()
Pandas 是 Python 数据分析和处理的强大工具,它的功能远远超出了这里介绍的内容。通过学习 Pandas,你可以更有效地处理和分析数据,从而提高工作效率。更多详细信息和使用指南,可以参考 Pandas 的官方文档。
📈 如何使用 Pandas 进行复杂的数据分析?
使用Pandas进行复杂的数据清洗通常涉及多个步骤,包括数据预处理、异常值处理、缺失值处理、数据转换、去重、特征工程等。以下是一些常用的数据清洗技巧和示例代码:
1. 数据预处理
读取数据:
import pandas as pd# 读取CSV文件
df = pd.read_csv('data.csv')# 读取Excel文件
df = pd.read_excel('data.xlsx')# 读取数据库
from sqlalchemy import create_engine
engine = create_engine('database_url')
df = pd.read_sql_query('SELECT * FROM table_name', con=engine)
初步查看数据:
# 查看数据前几行
print(df.head())# 查看数据基本信息
print(df.info())# 查看数据描述性统计
print(df.describe())
2. 处理缺失值
删除缺失值:
# 删除含有缺失值的行
df = df.dropna()# 删除含有缺失值的列
df = df.dropna(axis=1)
填充缺失值:
# 用常数填充缺失值
df = df.fillna(value=0)# 用前一个值填充缺失值
df = df.fillna(method='ffill')# 用后一个值填充缺失值
df = df.fillna(method='bfill')
插值填充缺失值:
# 线性插值填充缺失值
df = df.interpolate(method='linear')
3. 处理异常值
识别异常值:
# 假设数值列的Z分数大于3或小于-3为异常值
from scipy import stats
df = df[(np.abs(stats.zscore(df['column'])) < 3)]
处理异常值:
# 将异常值替换为中位数
median_value = df['column'].median()
df['column'] = np.where(np.abs(stats.zscore(df['column'])) > 3, median_value, df['column'])
4. 数据转换
类型转换:
# 将列转换为数值类型
df['column'] = pd.to_numeric(df['column'], errors='coerce')# 将列转换为日期类型
df['date_column'] = pd.to_datetime(df['date_column'])
编码分类数据:
# 将分类变量转换为哑变量(One-Hot Encoding)
df = pd.get_dummies(df, columns=['categorical_column'])
5. 去重
删除重复数据:
# 删除完全重复的行
df = df.drop_duplicates()# 删除基于某些列的重复行
df = df.drop_duplicates(subset=['column1', 'column2'])
6. 特征工程
创建新特征:
# 根据现有数据创建新特征
df['new_column'] = df['column1'] * df['column2']
特征选择:
# 使用方差选择特征
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold(threshold=0.5)
df = df.iloc[:, selector.get_support(indices=True)]
7. 数据划分
训练集和测试集划分:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.drop('target_column', axis=1), df['target_column'], test_size=0.2, random_state=42)
这些是使用Pandas进行复杂数据清洗的一些关键步骤和技巧。在实际应用中,你可能需要根据具体的数据特点和分析目标来调整这些步骤。Pandas提供了丰富的功能和灵活性,使得它成为数据清洗和预处理的强大工具。
相关文章:
【Python知识】一个强大的数据分析库Pandas
文章目录 Pandas概述1. 安装 Pandas2. 基本数据结构3. 数据导入和导出4. 数据清洗5. 数据选择和过滤6. 数据聚合和摘要7. 数据合并和连接8. 数据透视表9. 时间序列分析10. 数据可视化 📈 如何使用 Pandas 进行复杂的数据分析?1. 数据预处理2. 处理缺失值…...
10.26学习
1.整形的定义和输出 在C语言中,整形(Integer)是一种基本数据类型,用于存储整数。整形变量可以是正数、负数或零。在定义和输出整形变量时,需要注意以下几点: ①定义整形变量: 使用 int 关键字…...
CSS易漏知识
复杂选择器可以通过(id的个数,class的个数,标签的个数)的形式,计算权重。 如果我们需要将某个选择器的某条属性提升权重,可以在属性后面写!important;注意!importent要写在;前面 很多公司不允许…...
【10天速通Navigation2】(三) :Cartographer建图算法配置:从仿真到实车,从原理到实现
前言 往期内容: 第一期:【10天速通Navigation2】(一) 框架总览和概念解释第二期:【10天速通Navigation2】(二) :ROS2gazebo阿克曼小车模型搭建-gazebo_ackermann_drive等插件的配置和说明 本教材将贯穿nav2的全部内容,…...
测试造数,excel转insert语句
目录 excel转sql的insert语句一、背景二、直接上代码 excel转sql的insert语句 一、背景 在实际测试工作中,需要频繁地进行测试造数并插入数据库验证,常规的手写sql语句过于浪费时间,为此简单写个脚本,通过excel来造数࿰…...
Python 应用可观测重磅上线:解决 LLM 应用落地的“最后一公里”问题
作者:彦鸿 背景 随着 LLM(大语言模型)技术的不断成熟和应用场景的不断拓展,越来越多的企业开始将 LLM 技术纳入自己的产品和服务中。LLM 在自然语言处理方面表现出令人印象深刻的能力。然而,其内部机制仍然不明确&am…...
从零开始:用Spring Boot搭建厨艺分享网站
2 相关技术 2.1 Spring Boot框架简介 Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。通过这种方式,Sprin…...
《2024中国泛娱乐出海洞察报告》解析,垂直且多元化方向发展!
随着以“社交”为代表的全球泛娱乐市场规模不断扩大以及用户需求不断细化,中国泛娱乐出海产品正朝着更加垂直化、多元化的方向发展。基于此,《2024中国泛娱乐出海洞察报告》深入剖析了中国泛娱乐行业出海进程以及各细分赛道出海现状及核心特征。针对中国…...
强化学习数学原理学习(一)
前言 总之开始学! 正文 先从一些concept开始吧,有一个脉络比较好 state 首先是就是状态和状态空间,显而易见,不多说了 action 同理,动作和动作空间 state transition 状态转换,不多说 policy 策略,不多说 reward 奖励,不多说 MDP(马尔科夫) 这里需要注意到就是这个是无…...
获 Sei 基金会投资的 MetaArena :掀起新一轮链上游戏革命
MetaArena 是一个综合性的 Web3 游戏开发和发布平台,集成了最先进的技术架构,包括 Unreal Engine 5.3、去中心化虚拟资产交易市场和分布式计算资源支持。平台不仅为开发者提供了高效的开发工具,还通过跨链功能和 AI 模块,极大简化…...
react-signature-canvas 实现画笔与橡皮擦功能
react-signature-canvas git 地址 代码示例 import React, { Component } from react import { createRoot } from react-dom/clientimport SignaturePad from ../../src/index.tsximport * as styles from ./styles.module.cssclass App extends Component {state { trimmed…...
004:ABBYY PDF Transformer安装教程
引言:本文主要讲解。 一、软件介绍 ABBYY PDF Transformer由ABBYY公司出品,属于一款家庭及商业都适用的PDF文档转换工具。它结合了ABBYY的OCR(光学字符识别)技术和Adobe PDF库技术,以确保能够便捷地处理任何类型的PDF…...
FlinkSQL之temporary join开发
在实时开发中,双流join获取目标对应时刻的属性时,经常使用temporary join。笔者在流量升级的实时迭代中,需要让流量日志精准的匹配上浏览时间里对应的商品属性,使用temporary join开发过程中踩坑不少,将一些经验沉淀在…...
第二十六节 直方图均衡化
图像直方图均衡化 图像直方图均衡化可以增强图像增强,对输入图像进行直方图均衡化处理,提升后续对象检测的准确率在Opencv人脸检测的代码演示中已经很常见了,此外对医学影像图像与卫星遥感图像也经常通过直方图均衡化来提升图像质量 Opencv…...
工单管理用什么工具好?8款推荐清单
本文推荐的8款项目工单管理系统有:1. PingCode; 2.Worktile; 3.Teambition; 4.致远OA; 5.TAPD; 6.Gitee; 7.Wrike; 8.Trello。 很多企业在处理项目工单时,依然依赖电子邮件、Excel表格,甚至是手动记录。这样做不仅效率低下,还容易导致工单遗漏…...
工地安全新突破:AI视频监控提升巡检与防护水平
在建筑工地和其他劳动密集型行业,工人的安全一直是管理工作的重中之重。为了确保工地的安全管理更加高效和智能化,AI视频监控卫士。通过人工智能技术,系统不仅能实时监控,还能自动识别工地现场的安全隐患,为工地管理者…...
World of Warcraft [CLASSIC][80][the Ulduar]
Ulduar 奥杜尔副本介绍 奥杜尔共计14个BOSS,通常说的10H就是10个苦难模式就是全通,9H就是除了【观察者奥尔加隆】,特别说明开启【观察者奥尔加隆】,是需要打掉困难模式4个守护者的。 所以人们经常说的类似“10H 观察者”、“10H…...
python实现数据库的增删改查功能,图形化版本
import tkinter from tkinter import * import psycopg2 from tkinter import messagebox#连接信息 t_conn{"dbname": "d1","user": "u1","password": "123qqq...A","port": "15400","h…...
pipeline开发笔记
pipeline开发笔记 jenkins常用插件Build Authorization Token Root配置GitLab的webhooks(钩子)配置构建触发器--示例 piblish over sshBlue OceanWorkspace Cleanup PluginGit插件PipelineLocalization: Chinese (Simplified) --中文显示Build Environment Plugin 显示构建过程…...
spark读取parquet文件
源码 parquet文件读取的入口是FileSourceScanExec,用parquet文件生成对应的RDD 非bucket文件所以走createNonBucketedReadRDD方法。 createNonBucketedReadRDD 过程: 确定文件分割参数 openCostInBytes4M 相关参数spark.sql.files.openCostInBytes4M…...
redis详细教程(1.String类型)
Redis 的 String 类型内部使用了一种叫做 SDS(Simple Dynamic String)的结构。SDS 的设计比传统的 C 语言字符串更加高效和安全,主要特点如下: 头部信息:SDS 的头部包含了一些元数据,比如字符串的长度、剩…...
用友U8接口-库存管理(7)
概括 本文的操作需要正确部署U8API主要讲述库存管理接口的使用,以产成品入库单作为说明,其他单据接口都是大同小异的!许多时候先在ERP做个单,然后仿造ERP单据参数,构造接口JSON参数是不错的做法。 获取Token访问令牌…...
Spring Boot HikariCP数据库连接池入门
1. 概述 在我们的项目中,数据库连接池基本是必不可少的组件。在目前数据库连接池的选型中,主要是 Druid ,为监控而生的数据库连接池。HikariCP ,号称性能最好的数据库连接池。 至于怎么选择,两者都非常优秀&#x…...
Docker快速上手教程:MacOS系统【安装/配置/使用/原理】全链路速通
背景 最近换了个 Macbook Air M3, 写个人项目需要用到 Docker,配置过程有一点点坎坷,还是得记录下避免重蹈覆辙。 什么。为什么是买 Air 而不是 Pro Max? 因为码农的钱也是钱啊。 这里我不会先讲原理,我认为工程的事情都是先看到现象,有了概念的轮廓,才应该去研究原理,…...
【JavaSE】认识String类,了解,进阶到熟练掌握
#1024程序员节 | 征文# 下面就让博主带领大家一起解决心中关于String类的疑问吧~~~ 1.字符串构造: 第一种和第二种(有一定的区别,在常量池上) public static void main(String[] args) { // 使用常量串构造 String s1 "h…...
vue3 vben-admin 窗口大小更改后 echarts尺寸变为 100px的问题
问题描述: 当切换切换tab 并且窗口尺寸更改时, echarts的尺寸因为父元素为 0, 自动设置为 100px 网上查找资料的结果: 1,使用vue 中的 v-if 来重新设置dom树 缺点: 频繁操作dom树结构, 极其消耗性能 优点: 自适应展示 2,设置固定宽高 缺点: 不能自适应展示, 无需消耗额外…...
Web应用框架-Django应用基础(3)-Jinja2
1.创建姓名模板 username里的数据发生改变,页面中渲染的数据发生改变,该效果称为动态数据 #hello/views:def hello_user(request):username000html <!DOCTYPE html><html lang"en"><head><meta charset"UTF-8&quo…...
js(深浅拷贝,节流防抖,this指向,改变this指向的方法)
一、深浅拷贝 1.基本数据类型和引用数据类型的区别: 1. 基本数据类型的变量存储的是值 引用数据类型的变量存储的是地址值 2. 基本数据类型的变量存储的值在栈内存 引用数据类型的变量存储的值在堆内存 3. 基本数据类型的变量存储的是值和值之间相互不影响 引用数据…...
香橙派5(RK3588)使用npu加速yolov5推理的部署过程
香橙派5使用npu加速yolov5推理的部署过程 硬件环境 部署过程 模型训练(x86主机) 在带nvidia显卡(最好)的主机上进行yolo的配置与训练, 获取最终的best.pt模型文件, 详见另一篇文档 模型转换(x86主机) 下载airockchip提供的yolov5(从pt到onnx) 一定要下这个版本的yolov5, …...
基于MWORKS的蓝桥杯「智能装备数字化建模大赛」正式发布,首期培训本周六开启
为强化装备数字化人才培养,推动装备数字化技术快速发展,第十六届蓝桥杯全国软件和信息技术专业人才大赛设置专项赛暨智能装备数字化建模大赛,使用MWORKS作为参赛软件。关于参赛软件授权、技术支持与培训、教材与案例开发支持、成果转化培训及…...
为什么高德地图没有外国位置信息/seo全网优化推广
后面要做数传了。 我先做了不带数传的测试。 这是测试视频(视频前半段):https://v.youku.com/v_show/id_XNDIyMzUxMTY2NA.html?spma2h3j.8428770.3416059.1 然后再刷了飞控,接上数传发射机。另外还用Arduino uno做了数传接收机…...
专业机票网站建设/网站站点
贴一个博客地址: 、http://www.cnblogs.com/CCBB/archive/2009/04/25/1443455.html 讲的很详细。 5-1 最大子列和问题 (20分) 给定KK个整数组成的序列{ N_1N1, N_2N2, ..., N_KNK },“连续子列”被定义为{ N_iNi, N_{i1}Ni1…...
南昌成都网站建设方案/企业网站排名优化
-- Start 我们已经知道了在正常情况下,点号(.)能够匹配除换行符以外的任何字符。事实上这句话并不准确,确切的说,点号(.)能够匹配除换行符以外的任何单个代码点。由于处于辅助平面内的字符由两个代码点构成,所以,为了匹…...
杭州网站关键词优化/seo干什么
之前的文章中介绍过STM32F0列的内部Flash读写《STM32CubeMX之内部Flash读写》,F1系列的也是一样的。而F4系列的单片机与F0和F1略有不同,HAL库对应的函数也不同,今天来简单介绍一下。以TM32F429IGT6单片机为例,其内部Flash起始地址…...
网站建设与管理专业自我评价/建设网站的十个步骤
Linked实现了Collection接口 Collection学习 LinkedList底层结构 LinkedList的说明 LinkedList的底层操作机制 案例 源码的CRUD和双向链表一模一样 方法 remove()默认是删除第一个元素,里面调用了removeFirst(),如果要删除的节点不为空,又…...
2022年中国企业500强榜单/seo视频教程我要自学网
Java数组初始化有3种方式:动态初始化,静态初始化,默认初始化。 var[]; 或type[] var; 声明数组时不能指定其长度(数组中元素的个数), Java中使用关键字new创建数组对象,格式为:数组名…...