当前位置: 首页 > news >正文

商业数据分析概论

🐳 我正在和鲸社区参加“商业数据分析训练营活动” https://www.heywhale.com/home/competition/6487de6649463ee38dbaf58b ,以下是我的学习笔记:

学习主题:波士顿房价数据快速查看

日期:2023.9.4

关键概念/知识点:

  • 数据导入
  • 查看数据
  • 缺失值的处理
  • 统计特征描述

掌握的新函数/方法:

  • pandas.read_csv()
  • df.head()
  • df.tail()
  • df.iloc[ ]
  • df.loc[ ]
  • df.dropna (inplace=True)
  • df.describe()

代码举例

数据导入:

# 一切的工作都从引入 python 库包开始,import 是引入库包的语句,加一个 as 就可以把原先比较长的库包名改成简写
import pandas as pd
# 读取本地数据
# Pandas数据分析库中read_csv函数能够进行读取本地数据,我们将读取到的数据存储在名为 df(DataFrame)的变量中
df = pd.read_csv('/home/mw/input/data_analysis8875/Boston Housing Data.csv')

查看数据:

# Head of the data
# 现在我们将展示数据的前五行,以便快速查看数据结构和内容
# head()函数默认显示前五行,可以传入一个整数参数来指定显示的行数,例如df.head(10)将显示前十行。
print(df.head())# Tail of the data
# 接着,我们展示数据的最后五行,以了解数据尾部的情况
# 与head()函数类似,tail()函数也是默认显示前五行,也可传入一个整数参数来指定显示的行数
print(df.tail())
# Python还提供了查看特定某行或某列数据的方法,可以用到iloc或者loc属性进行查看
# 如提取数据第一列的前五行
# iloc 用于基于整数索引的数据切片,逗号前的 ":" 代表选取所有行,而逗号后的 "0" 代表选取第一列
print(df.iloc[:,0].head())# 提取从1120行前3列数据
print(df.iloc[10:20,0:3])# 提取从1120行,CRIMRMAGE三列中数据
print(df.loc[10:20,['CRIM','RM','AGE']])

缺失值的处理:

查找并打印数据集中每列的缺失值数量

# isna() 函数检查每个元素是否为缺失值,sum() 函数将每列的缺失值数量加总
print(df.isna().sum())

若数据中包含缺失值,可使用如下方法进行处理:
删除缺失值:若缺失值不是很多,可以直接选择删除缺失值

df.dropna (inplace=True)

补充缺失值:若数据量不大,还要进行预测,建议选择数据填充

# 填充空值核心代码(将 A 列中缺失值填充为 B):
df.loc [df ['A'].isna (),'A'] = B

统计特征描述:

# 使用 describe() 函数生成数据集的描述性统计信息,如计数、均值、标准差、最小值、四分位数和最大值
# 输出行依次代表:数据量、平均值、标准差、最小值、下四分位点、中值、上四分位点、最大值
print(df.describe())

关键总结:

导入数据是进行数据分析的第一步,通常来说,数据一般是 csv 格式,在 Python 中,利用pd.read_csv()导入数据;
有数据之后,就要进行数据变换。通常会在这一步移除分析中的非必要数据,在移除之前首先需要查看一下已有数据,包括查看数据的前几行、后几行以及选择特定列的数据;
通过df.isna().sum()查找缺失值数量,并按照实际需要对缺失值进行删除或填充;
python 中通过 describe 属性对数据的统计特征进行描述,获取数据集的描述性统计信息,例如平均值、标准差、最小值、最大值和四分位数。
… …

问题/困惑:

只是先对于数据的加载有了初步的了解,对于后续数据分析的流程尚不清楚

下一步计划:

通过练习掌握pandas数据导入、查看数据、数据描述

参考资料/相关资源链接:

Pandas文档:https://pandas.pydata.org/docs/

相关文章:

商业数据分析概论

🐳 我正在和鲸社区参加“商业数据分析训练营活动” https://www.heywhale.com/home/competition/6487de6649463ee38dbaf58b ,以下是我的学习笔记: 学习主题:波士顿房价数据快速查看 日期:2023.9.4 关键概念/知识点&…...

Golang GUI框架

Golang GUI框架fyne fyne简介第一个fyne应用fyne应用程序和运行循环fyne更新GUI内容fyne窗口处理fyne解决中文乱码问题fyne应用打包fyne画布和画布对象fyne容器和布局fyne绘制和动画fyne盒子布局fyne网格grid布局fyne网格包裹布局fyne边框布局fyne表单布局fyne中心布局fyne ma…...

LeetCode刷题笔记【24】:贪心算法专题-2(买卖股票的最佳时机II、跳跃游戏、跳跃游戏II)

文章目录 前置知识122.买卖股票的最佳时机II题目描述贪心-直观写法贪心-优化代码更简洁 55. 跳跃游戏题目描述贪心-借助ability数组贪心-只用int far记录最远距离 45.跳跃游戏II题目描述回溯算法贪心算法 总结 前置知识 参考前文 参考文章: LeetCode刷题笔记【23】…...

游戏出现卡顿有哪些因素

一、服务器CPU内存占用过大会导致卡顿,升级CPU内存或者优化自身程序占用都可以解决。 二、带宽跑满导致卡,可以升级带宽解决。 二、平常不卡,有大型的活动的时候会卡,这方面主要是服务器性能方面不够导致的,性能常说…...

学习Bootstrap 5的第八天

目录 加载器 彩色加载器 实例 闪烁加载器 实例 加载器大小 实例 加载器按钮 实例 分页 分页的基本结构 实例 活动状态 实例 禁用状态 实例 分页大小 实例 分页对齐 实例 面包屑(Breadcrumbs) 实例 加载器 彩色加载器 在 Bootstr…...

vue中自定义指令

什么是指令 在Vue.js中,指令是一种特殊的 token,用于在模板中以声明式方式将响应式数据绑定到 DOM 元素上,从而实现与 DOM 元素的交互和操作。指令以 “v-” 前缀开始,后跟指令的名称,例如 v-model、v-bind 和 v-on。…...

Python:安装Flask web框架hello world

安装easy_install pip install distribute 安装pip easy_install pip 安装 virtualenv pip install virtualenv 激活Flask pip install Flask 创建web页面demo.py from flask import Flask app Flask(__name__)app.route(/) def hello_world():return Hello World! 2023if _…...

小程序点击复制功能制作

在wxml文件中添加一个按钮或需要点击的元素&#xff0c;并绑定点击事件监听器2 <button bindtap"copyText">点击复制</button> 2 在对应的js文件中定义点击事件处理函数&#xff0c;并在函数中调用小程序的API进行复制操作&#xff0c; copyText(e){co…...

20230909java面经整理

1.java常用集合 ArrayList动态数组&#xff0c;动态调整大小&#xff0c;实现List接口 LinkedList双向链表&#xff0c;实现list和queue接口&#xff0c;适用于频繁插入和删除操作 HashSet无序&#xff0c;使用哈希表实现 TreeSet有序&#xff0c;使用红黑树实现 HashMap无序&…...

常用的css命名规则

一、命名规则说明&#xff1a; 1&#xff09;、所有的命名最好都小写 2&#xff09;、属性的值一定要用双引号(“”)括起来 3&#xff09;、给图片加上alt标签 4&#xff09;、尽量使用英文命名原则 5&#xff09;、尽量不缩写&#xff0c;除非一看就明白的单词 二、相对网页外…...

【Linux编程Shell自动化脚本】03 shell四剑客(find、sed、grep、awk)

文章目录 一、find1. 常用expression2. 时间参数3. 其他选项参数3.1 查找深度3.2 执行命令 二、sed1. 常用命令选项2. 常用动作脚本命令2.1 s 替换2.2 已匹配字符串标记&2.3 在当前行前后插入文本 a\ 和 i\2.4 p 打印指定行2.5 匹配行的方式2.5.1 以数字形式指定行区间2.5.…...

java的springboot框架中使用logback日志框架使用RabbitHandler注解为什么获取不到消费的traceId信息?

当使用 Logback 日志框架和 RabbitMQ 的 RabbitHandler 注解时&#xff0c;如果无法获取消费的 traceId 信息&#xff0c;可能是因为在处理 RabbitMQ 消息时&#xff0c;没有正确地将 traceId 传递到日志中。 为了将 traceId 传递到日志中&#xff0c;你可以利用 MDC&#xff…...

初探Vue.js及Vue-Cli

一、使用vue框架的简单示例 我们本次的vue系列就使用webstorm来演示&#xff1a; 对于vue.js的安装我们直接使用script的cdn链接来实现 具体可以参考如下网址&#xff1a; https://www.bootcdn.cn/ 进入vue部分&#xff0c;可以筛选版本,我这里使用的是2.7.10版本的&#xff…...

大数据课程K21——Spark的SparkSQL基础语法

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握Spark的SparkSQL通过方法来使用; ⚪ 掌握Spark的SparkSQL通过sql语句来调用; 一、SparkSQL基础语法——通过方法来使用 1. 查询 df.select("id","name").show()…...

【实践篇】Redis最强Java客户端(三)之Redisson 7种分布式锁使用指南

文章目录 0. 前言1. Redisson 7种分布式锁使用指南1.1 简单锁&#xff1a;1.2 公平锁&#xff1a;1.3 可重入锁&#xff1a;1.4 红锁&#xff1a;1.5 读写锁&#xff1a;1.6 信号量&#xff1a;1.7 闭锁&#xff1a; 2. Spring boot 集成Redisson 验证分布式锁3. 参考资料4. 源…...

卫星通话过后,卫星导航产业被彻底激活

华为新手机发布后&#xff0c;其主打的卫星通话功能备受热议。在卫星产业链发展的背后&#xff0c;下一个大产业在哪里让人颇为好奇。 目前&#xff0c;卫星导航颇被看好&#xff0c;或将引领下一个技术狂潮。它的特点是产业大、发展快、参与者多。继电动汽车、新能源和芯片产…...

【算法训练-链表 七】【排序】:链表排序、链表的奇偶重排、重排链表

废话不多说&#xff0c;喊一句号子鼓励自己&#xff1a;程序员永不失业&#xff0c;程序员走向架构&#xff01;本篇Blog的主题是【链表的排序】&#xff0c;使用【链表】这个基本的数据结构来实现&#xff0c;这个高频题的站点是&#xff1a;CodeTop&#xff0c;筛选条件为&am…...

LGB的两种写法

方法一 import lightgbm as lgb import pandas as pd from sklearn.model_selection import train_test_split, KFold from sklearn.metrics import accuracy_score# 读取训练集和测试集数据 train_data pd.read_csv(train.csv) test_data pd.read_csv(test.csv)# 分割特征和…...

【Unity的HDRP下ShaderGraph实现权重缩放全息投影_(内附源码)】

实现权重缩放全息投影 效果如下 效果如下 顶点位置偏移 链接&#xff1a; 提取码&#xff1a;1234...

透视俄乌网络战之二:Conti勒索软件集团(上)

透视俄乌网络战之一&#xff1a;数据擦除软件 Conti勒索软件集团&#xff08;上&#xff09; 1. Conti简介2. 组织架构3. 核心成员4. 招募途径5. 工作薪酬6. 未来计划参考 1. Conti简介 Conti于2019年首次被发现&#xff0c;现已成为网络世界中最危险的勒索软件之一&#xff0…...

【华为OD机试python】拔河比赛【2023 B卷|100分】

【华为OD机试】-真题 !!点这里!! 【华为OD机试】真题考点分类 !!点这里 !! 题目描述 公司最近准备进行拔河比赛,需要在全部员工中进行挑选。 选拔的规则如下: 按照身高优先、体重次优先的方式准备比赛阵容; 规定参赛的队伍派出10名选手。 请实现一个选拔队员的小程序。 输…...

05 CNN 猴子类别检测

一、数据集下载 kaggle数据集[10 monkey] 二、数据集准备 2.1 指定路径 from tensorflow import keras import tensorflow as tf import numpy as np import pandas as pd import matplotlib.pyplot as plttrain_dir /newdisk/darren_pty/CNN/ten_monkey/training/ valid_d…...

【C#】关于Array.Copy 和 GC

关于Array.Copy 和 GC //一个简单的 数组copy 什么情况下会触发GC呢[ReliabilityContract(Consistency.MayCorruptInstance, Cer.MayFail)]public static void Copy(Array sourceArray,long sourceIndex,Array destinationArray,long destinationIndex,long length);当源和目…...

Vue前端框架08 Vue框架简介、VueAPI风格、模板语法、事件处理、数组变化侦测

目录 一、Vue框架1.1渐进式框架1.2 Vue的版本 二、VueAPI的风格三、Vue开发准备工作四、模板语法文本插值属性绑定条件渲染列表渲染key管理状态 四、事件处理定义事件事件参数事件修饰符 五、数组变化侦测 一、Vue框架 渐进式JavaScript框架&#xff0c;易学易用&#xff0c;性…...

WebStorm使用PlantUML

虽然 WebStorm 没有官方的 PlantUML 插件&#xff0c;但我们可以使用第三方插件 PlantUML Integration 来实现在 WebStorm 中使用 PlantUML。 以下是使用 PlantUML Integration 插件&#xff0c;在 WebStorm 中设计一个 Vue 模块的步骤&#xff1a; 安装 PlantUML Integratio…...

Python做批处理,给安卓设备安装应用和传输图片

场景&#xff1a;几台新安卓平板过来了&#xff0c;需要安4个应用并复制4张图片。手工操作其实也未尝不可&#xff0c;但是能自动化起来&#xff0c;岂不是美哉。 python调用系统命令&#xff0c;我选用了os.system&#xff0c;最简单粗暴&#xff0c;也能有回显&#xff0c;就…...

如何获取springboot中所有的bean

代码 Component public class TestS {Autowiredprivate Map<String, Object> allBean Maps.newConcurrentMap();public void testA(){System.out.println("测试下");}}这段代码是一个使用 Spring Framework 的依赖注入&#xff08;DI&#xff09;功能的示例。…...

大数据技术之Hadoop:HDFS存储原理篇(五)

目录 一、原理介绍 1.1 Block块 1.2 副本机制 二、fsck命令 2.1 设置默认副本数量 2.2 临时设置文件副本大小 2.3 fsck命令检查文件的副本数 2.4 block块大小的配置 三、NameNode元数据 3.1 NameNode作用 3.2 edits文件 3.3 FSImage文件 3.4 元素据合并控制参数 …...

用C语言实现牛顿摆控制台动画

题目 用C语言实现牛顿摆动画&#xff0c;模拟小球的运动&#xff0c;如图所示 拆解 通过控制台API定位输出小球运动的只是2边小球&#xff0c;中间小球不运动&#xff0c;只需要固定位置输出左边小球上升下降时&#xff0c;X、Y轴增量一致。右边小球上升下降时&#xff0c;X、…...

如何自己开发一个前端监控SDK

最近在负责团队前端监控系统搭建的任务。因为我们公司有统一的日志存储平台、日志清洗平台和基于 Grafana 搭建的可视化看板&#xff0c;就剩日志的采集和上报需要自己实现了&#xff0c;所以决定封装一个前端监控 SDK 来完成日志的采集和上报。 架构设计 因为想着以后有机会…...

wordpress系列文章/seo专业培训中心

问题报错&#xff1a; Plugin execution not covered by lifecycle configuration: org.apache.maven.plugins:maven-resources-plugin:2.6:resources 问题原因&#xff1a; m2e在其执行maven的生命周期管理时没有定义该插件 解决办法&#xff1a; 1、eclipse&#xff1a…...

中国建设业管理协会网站/整站seo定制

Linux LVM逻辑卷配置过程详解 许多Linux使用者安装操作系统时都会遇到这样的困境&#xff1a;如何精确评估和分配各个硬盘分区的容量&#xff0c;如果当初评估不准确&#xff0c;一旦系统分区不够用时可能不得不备份、删除相关数据&#xff0c;甚至被迫重新规划分区并重装操作系…...

wordpress icp/免费的关键词挖掘工具

很抱歉的告诉大家&#xff0c;我博客出现了很严重的问题。之前&#xff0c;我博客一直存在这个问题&#xff0c;只是当时我用的Google Dns&#xff0c;所以一直没发现&#xff0c;直到后来&#xff0c;有越来越多的朋友跟我反映&#xff0c;说我博客打不开&#xff0c;我才意识…...

哪些网站适合新手编程做项目/怎样进行网络推广效果更好

ECMAScript 2015 中引入的 JavaScript 类实质上是 JavaScript 现有的基于原型的继承的语法糖。类语法不会为JavaScript引入新的面向对象的继承模型。 这并不意味着JavaScript中有“类”的概念&#xff0c;由于类是一种设计模式。所以你可以使用一些方法近似实现累的功能。Java…...

微信公众号影视网站怎么做/关键词怎么选择技巧

租车骑绿道 题目 部门组织绿岛骑行团建活动。租用公共双人自行车骑行,每辆自行车最多坐两人、做大载重 M。 给出部门每个人的体重,请问最多需要租用多少双人自行车。 输入 第一行两个数字 m、n,自行车限重 m,代表部门总人数 n。 第二行,n 个数字,代表每个人的体重。体…...

wordpress 批量 发布/搜索引擎优化seo网站

根据html5实现的简单的音频播放&#xff0c;还是挺好的&#xff0c;可以借鉴&#xff0c;下面上代码了html5 audio音频播放*{ margin: 0; padding:0;}body{-webkit-tap-highlight-color: rgba(0,0,0,0); font-family: "微软雅黑"}h1{ width: 100%; font-size: 1.5em;…...