Part 4 描述性统计分析(占比 10%)——上
文章目录
- 【后续会持续更新CDA Level I&II备考相关内容,敬请期待】
- 【考试大纲】
- 【考试内容】
- 【备考资料】
- 1、统计基本概念
- 1.1、统计学的含义及应用
- 1.1.1、统计学的含义
- 1.2.1、统计学的应用
- 1.2、统计学的基本概念
- 1.2.1、数据及数据的分类
- 1.2.2、总体和样本
- 1.2.3、参数和统计量
- 1.2.4、变量
- 2、数据的描述性统计
- 2.1、描述性统计图表
- 2.1.1、直方图
- 2.1.2、散点图
- 2.1.3、箱型图
- 3、集中趋势的描述
- 3.1、众数
- 3.2、分位数及中位数
- 3.3、平均数
- 3.4.1、算数平均数
- 3.4.2、几何平均数
- 3.4.3、调和平均数
- 4、离散程度的描述
- 4.1、极差
- 4.2、平均差
- 4.3、方差与标准差
- 4.4、离散系数
- 4.5、相对位置的度量——标准化值
- 5、分布形态的描述
- 5.1、矩的相关概念
- 5.2、偏态
- 偏度计算公式的理解
- 5.3、峰态
- 峰度计算公式的理解
【后续会持续更新CDA Level I&II备考相关内容,敬请期待】
【考试大纲】

【考试内容】


【备考资料】
1、统计基本概念
1.1、统计学的含义及应用
1.1.1、统计学的含义
- 统计学的含义:统计学是一门收集、处理、分析、解释数据并从数据中得出结论的学科。
- 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。
- 统计学主要又分为描述统计学和推断统计学。
- 描述性统计分析:研究数据收集、处理和描述的统计学方法,如总体规模、对比关系、集中趋势、离散程度、偏态、峰态等。
- 推断性统计分析:研究如何利用样本数据来推断总体特征的统计学方法,如估计、假设检验、列联分析、方差分析、相关分析、回归分析等。
1.2.1、统计学的应用
随着计算机的发展和各种统计软件的开发,作为一门基础学科的统计学在金融、保险、生物、经济等领域得到了广泛应用
1.2、统计学的基本概念
1.2.1、数据及数据的分类
数据是统计学的分析对象。数据有不同的表现形式,也有不同的分类。
数据的表现形式:
- 数字:可以进行比较、加减乘除四则运算等,有严格的数据符号,常用阿拉伯数字表示。
- 文字:不可运算,例如男,女;好,坏等
数据的分类:
- 按照计量尺度分类
- 分类型数据:对事物进行分类的结果,特点是不可排序,不可计算。如人的性别分为:男、女
- 顺序型数据:对事物类别顺序的测度,特点是可排序,不可计算。如产品分为:一等品、二等品、三等品
- 数值型数据:对事物的精确测度,特点是可排序,可计算。如身高:175cm、180cm
- 总结:分类型数据和顺序型数据是定性数据,数值型数据是定量数据,等级自上而下。不同类型的数据之间可以进行转换,处理低级数据的方法高级数据可以用,处理高级数据的方法低级数据不能用。
- 按计量层次分类
- 定类数据:这是数据的最低层。它将数据按照类别属性进行分类,各类别之间是平等并列关系。这种数据不带数量信息,并且不能在各类别间进行排序。例如红色、白色;性别中的男、女;
- 定序数据:这时数据的中间级别。定序数据不仅可以将数据分成不同的类别,而且各类别之间还可以通过排序来比较优劣。也就是说,定序数据与定类数据最主要的区别是定序数据之间还是可以比较顺序的
- 定距数据。定距数据是具有一定单位的实际测量值(如摄氏温度、考试成绩等)。此时不仅可以知道两个变量之间存在差异,还可以通过加、减法运算准确的计算出各变量之间的实际差距是多少。
- 定比数据。这是数据的最高等级。它的数据表现形式同定距数据一样,均为实际的测量值。定比数据与定距数据唯一的区别是:在定比数据中是存在绝对零点的,而定距数据中是不存在绝对零点的(零点是人为制定的)。因此定比数据间不仅可以比较大小,进行加、减运算,还可以进行乘、除运算。
- 按来源不同分类
- 直接来源:一手数据,原始资料
- 间接来源:二手资料,次级资料
- 按收集方式不同分类:
- 观测数据
- 实验数据
- 按与时间的关系不同分类:
- 时间序列数据:它是指在不同的时间上搜集到的数据,反映现象随时间变化的情况。
- 截面型数据。它是指在相同的或近似的时间点上搜集到的数据,描述现象在某一时刻的变化情况。
- 面板数据(混合数据、平行数据):截面型数据。它是指在相同的或近似的时间点上搜集到的数据,描述现象在某一时刻的变化情况。
- 按概型不同分类:
- 离散型数据
- 连续型数据
- 特殊的数据类型:虚拟变变量数据,在数据集中可能以集中方式出现
- 可以反映数据的固有属性,如一家公司属于医疗行业(虚拟变量=1),或者不属于医疗行业(虚拟变量=0) ;
- 可能是数据的一个识别特征。可以通过一个为真或者为假的条件来引入这样的二进制变量。例如日期可能在2008年之前(金融危机爆发前,虚拟变量= 0),也可能在2008年之后(金融危机爆发后,虚拟变量= 1)
- 可以由数据的某些特征构建。虚拟变量将反映一个或真或假的条件。比如特定的公司规模(如果营收超过10亿元,虚拟变量= 1,否则= 0)
1.2.2、总体和样本
- 总体(population):指研究的所有元素的集合,其中每个元素称为个体。例如研究全校学生的平均年龄,总体是全校学生。和总体相关的事物,统计学上用希腊字母表示。
- 样本(sample):从总体中抽取的一部分元素的集合。实际中,总体的个体往往难以一一研究,所以可以从中抽取一部分来进行研究。例如研究全校学生的平均年龄,总体过大,从中抽取100人进行研究,样本就是抽取的这100个学生。和样本相关的事物,统计学上用英文字母表示。
- 样本容量:构成样本的元素的数目称为样本容量。上面的例子中,100就是样本容量。
1.2.3、参数和统计量
-参数(parameter):指研究者想要了解的总体的某种特征值,主要有总体均值(μ)、总体标准差(σ)、总体比例(π)等。
- 统计量(statistic):指根据样本数据计算出来的一个量,即样本的某个特征值。常见的统计量有样本均值(x)、样本标准差(S)、样本比例(p)等。
1.2.4、变量
- 概念:指描述实木某种特征的概念。如商品销售额、受教育程度、产品的质量等级等。
- 变量与数据的关系:变量的具体表现称为变量值,即数据。
- 变量的分类:根据变量的数据计量尺度不同来分
- 分类变量(categorical variable):说明事物类别的一个名称;
- 顺序变量(rank variable):说明事物有序类别的一个名称;
- 数值型变量(metric variable):说明事物数据特征的一个名称。
2、数据的描述性统计
- 总量指标:反映一定时间、空间下某种现象的总体规模、总水平或总成功的统计指标。
- 相对指标:是两个有相互联系的指标数值之比,例如目标完成率
2.1、描述性统计图表
建议大家多看些分析案例,有好的分析案例的练习,希望大佬们分享给我,谢谢~~
构成类图标主要突出的是部分在整体中的占比关系,饼图属于构成类图表;散点图属于描述类图表;折线图属于序列类图表;条形图属于比较类图表;词云图是比较类图表
2.1.1、直方图
【篇幅过长,收集在专栏下的《描述性统计图表——直方图》中】传送门 ↓↓↓
《描述性统计图表——直方图》
2.1.2、散点图
【篇幅过长,收集在专栏下的《描述性统计——散点图》中】传送门 ↓↓↓
《描述性统计图表——散点图》
2.1.3、箱型图
【篇幅过长,收集在专栏下的《描述性统计——箱线图》中】传送门 ↓↓↓
《描述性统计图表——箱线图》
3、集中趋势的描述

3.1、众数
众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。 也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。用M表示。
3.2、分位数及中位数
详细定义见:《描述性统计图表——箱线图》
3.3、平均数
对于同一组数据,一定满足:算数平均数>=几何平均数>=调和平均数,当所有数据取至相同的时候,等号成立;
3.4.1、算数平均数

加权平均数例题:

3.4.2、几何平均数


3.4.3、调和平均数

4、离散程度的描述

4.1、极差

4.2、平均差


4.3、方差与标准差



自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。
4.4、离散系数
离散系数又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计 量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小

4.5、相对位置的度量——标准化值
标准化:z=(z-样本均值)/样本标准差


切比雪夫不等式


5、分布形态的描述
5.1、矩的相关概念
- k阶原点矩,又叫k阶矩:E(Xk),也就是随机变量X的k次方的均值;
- k阶中心矩:E{[X-E(X)]k},也就是随机变量X与X的均值的差的k次方形成的新的随机变量的均值;
- k+l混合矩:E(XkYl):也就是随机变量X的k次方与随机变量Y的l次方形成的新的随机变量的均值。
- k+l混合中心矩:E{[E-E(X)]k[Y-E(Y)]l}:也就是随机变量X与X的均值的差的k次方乘以随机变量Y与Y的均值的差的l次方后乘积形成的新的随机变量的均值。
5.2、偏态
扩展知识——偏态分布:偏态分布
偏度(skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。一般来说,偏度的绝对值超过0.5,意味着偏度非常大。在风险管理当中,较大程度的负偏是需要格外关注的问题,因为这可能导致大的损失的发生。


偏度计算公式的理解
- 对于未分组数据:求出样本均值、方差以及标准差。
- 分母=(样本容量-1)(样本容量-2)*标准差的三次方;
- 分子=样本容量*[(每个样本值-样本均值)3的累计值]
- 对于分组数据:求出加权算数平均数,根据加权算数平均数算出方差以及标准差。
- 加权算数平均数

- 方差及标准差

- 分母=样本容量*样本标准差3
- 分子=(组中值-样本均值)3与频数乘积得到的值的累加

- 加权算数平均数
正态分布的偏度为0,两侧尾部长度对称。若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。
5.3、峰态
峰态(kurtosis)一词是由统计学家皮尔逊于1905年首次提出的。它是对数据分布平峰或尖峰程度的测度。测度峰态的统计量则是峰态系数(coefficient of kurtosis),记作K。峰态通常是与标准正态分布相比较而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0;若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。
对于峰度而言,尖峰态的峰度大于3,低峰态的峰度小于3,而正态分布的峰度正好等于3。有的峰度的计算公式当中,直接在计算公式中减去了3。那么就变成了尖峰态的峰度大于0,低峰态的峰度小于0,而正态分布的峰度等于0。


峰度计算公式的理解
- 对于未分组数据:求出样本均值、方差以及标准差。
- 分母=(样本容量-1)(样本容量-2)(样本容量-3)*标准差的四次方;
- 分子=样本容量*(样本容量+1)[(每个样本值-样本均值)4的累计值]-3倍的[样本值与样本均值的差的平方和]2(样本容量-1)
- 对于分组数据:求出加权算数平均数,根据加权算数平均数算出方差以及标准差。
- 加权算数平均数

- 方差及标准差

- 分母=样本容量*样本标准差3
- 分子=(组中值-样本均值)4与频数乘积得到的值的累加-3倍的样本容量*样本标准差4
- 加权算数平均数


较高的峰度通常表明数据的变动是由一些极值相对于期望的变动引起的,而非许多相对较小的差异。
相关文章:
Part 4 描述性统计分析(占比 10%)——上
文章目录【后续会持续更新CDA Level I&II备考相关内容,敬请期待】【考试大纲】【考试内容】【备考资料】1、统计基本概念1.1、统计学的含义及应用1.1.1、统计学的含义1.2.1、统计学的应用1.2、统计学的基本概念1.2.1、数据及数据的分类1.2.2、总体和样本1.2.3、…...
Linux系统安全:安全技术和防火墙
目录 一、安全技术 1、安全技术 2、防火墙分类 二、防火墙 1、iptables五表五链 2、黑白名单 3、iptables基本语法 4、iptables选项 5、控制类型 6、隐藏扩展模块 7、显示扩展模块 8、iptables规则保存 9、自定义链使用 一、安全技术 1、安全技术 ①入侵检测系统…...
【干货】Python:turtle库的用法
【干货】Python:turtle库的用法1. turtle库概述2. turtle库与基本绘图2.1 导入库的三种方式2.1.12.1.22.1.32.2 窗体函数2.2 画笔状态函数2.2.1 seed(s)2.2.2 random()2.2.3 randint(a, b)2.2.4 getrandbits(k)2.2.5 randrange(start, stop[ , step])2.2.6 uniform(…...
信息安全与网络安全有什么区别?
生活中我们经常会听到要保障自己的或者企业的信息安全。那到底什么是信息安全呢?信息安全包含哪些内容?与网络安全又有什么区别呢?今天我们就一起来详细了解一下。什么叫做信息安全?信息安全定义如下:为数据处理系统建…...
花了5年时间,用过市面上95%的工具,终于找到这款万能报表工具
经常有粉丝问我有“哪个报表工具好用易上手?”或者是“有哪些适合绝大多数普通职场人的万能报表工具?” 从这里我大概总结出了大家选择报表工具最期望满足的3点: (1)简单易上手:也就是所谓的学习门槛要低…...
ESP32S3系列--SPI主机驱动详解(一)
一、目的SPI是一种串行同步接口,可用于与外围设备进行通信。ESP32S3自带4个SPI控制器外设,其中SPI0/SPI1内部专用,共用一组信号线,通过一个仲裁器访问外部Flash和PSRAM;SPI2/3各自使用一组信号线;开发者可以使用SPI2/3控制外部SPI…...
2023开工开学火热!远行的人们,把淘特箱包送上顶流
春暖花开,被疫情偷走的三年在今年开学季找补回来了。多个数据反馈,居民消费意愿大幅提升。在淘特上,开工开学节点就很是明显:1月30日以来,淘特箱包品类甚至远超2022年双11,成为开年“第一爆品”。与此同时&…...
Intel x86_64 PMU简介
文章目录前言一、性能监控概述二、CPUID information三、架构性能监控3.1 架构性能监控 Version 13.1.1 架构性能监控 Version 1 Facilities3.1.2 预定义的体系结构性能事件3.1.3 cmask demo测试参考资料前言 Intel 64 和 IA-32 架构提供了 PMU(Performance Monito…...
Vue (2)
文章目录1. 模板语法1.1 插值语法1.2 指令语法2. 数据绑定3. 穿插 el 和 data 的两种写法4. MVVM 模型1. 模板语法 root 容器中的代码称为 vue 模板 1.1 插值语法 1.2 指令语法 图一 : 简写 : v-bind: 是可以简写成 : 的 总结 : …...
ESP8266 + STC15基于AT指令通过TCP通讯协议获取时间
ESP8266 + STC15基于AT指令通过TCP通讯协议获取时间 如果纯粹拿32位的ESP8266模块给8位的单片机仅供授时工具使用,有点大材小用了。这里不讨论这个拿esp8266来单独开发使用。本案例只是通过学习esp8266 AT指令功能来验证方案的可行性。 🔖STC15 单片机采用的是:STC15F2K60S…...
谈谈Spring中Bean的生命周期?(让你瞬间通透~)
目录 1.Bean的生命周期 1.1、概括 1.2、图解 2、代码示例 2.1、初始化代码 2.2、初始化的前置方法和后置方法(重写) 2.3、Spring启动类 2.4、执行结果 2.5、经典面试问题 3.总结 1.Bean的生命周期 1.1、概括 Spring中Bean的生命周期就是Bean在…...
如何将VirtualBox虚拟机转换到VMware中
转换前的准备 首先需要你找到你的virtualbox以及VM安装到哪个文件夹里了,需要将这两个文件夹添加进环境变量Path中。 如果你记不清了,可以用everything全局搜索一下“VBoxManage.exe’以及“vmware-vdiskmanager.exe”,看一眼这个程序放到哪…...
洞庭龙梦(开发技巧和结构理论集)
1、经验来源,单一获取方式。进行形态等级展示。唯一游戏系统经验来源。无主线和支线剧情。2、玩家使用流通货币(充值货币),到玩家空间商城充值游戏,两人以上玩家进行游戏,掉落道具。交易系统游戏玩法&#…...
【23种设计模式】创建型模式详细介绍
前言 本文为 【23种设计模式】创建型模式详细介绍 相关内容介绍,下边具体将对单例模式,工厂方法模式,抽象工厂模式,建造者模式,原型模式,具体包括它们的特点与实现等进行详尽介绍~ 📌博主主页&…...
@Bean的处理流程,源码分析@Bean背后发生的事
文章目录写在前面关键类ConfigurationClassPostProcessor1、ConfigurationClassPostProcessor的注册2、ConfigurationClassPostProcessor的处理过程(1)parse方法中,Bean方法的处理(2)注册解析Bean标注的方法写在前面 …...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...
【网络安全产品大调研系列】2. 体验漏洞扫描
前言 2023 年漏洞扫描服务市场规模预计为 3.06(十亿美元)。漏洞扫描服务市场行业预计将从 2024 年的 3.48(十亿美元)增长到 2032 年的 9.54(十亿美元)。预测期内漏洞扫描服务市场 CAGR(增长率&…...
Module Federation 和 Native Federation 的比较
前言 Module Federation 是 Webpack 5 引入的微前端架构方案,允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...
土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等
🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...
.Net Framework 4/C# 关键字(非常用,持续更新...)
一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...
Yolov8 目标检测蒸馏学习记录
yolov8系列模型蒸馏基本流程,代码下载:这里本人提交了一个demo:djdll/Yolov8_Distillation: Yolov8轻量化_蒸馏代码实现 在轻量化模型设计中,**知识蒸馏(Knowledge Distillation)**被广泛应用,作为提升模型…...
【Android】Android 开发 ADB 常用指令
查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...
比较数据迁移后MySQL数据库和OceanBase数据仓库中的表
设计一个MySQL数据库和OceanBase数据仓库的表数据比较的详细程序流程,两张表是相同的结构,都有整型主键id字段,需要每次从数据库分批取得2000条数据,用于比较,比较操作的同时可以再取2000条数据,等上一次比较完成之后,开始比较,直到比较完所有的数据。比较操作需要比较…...
Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement
Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement 1. LAB环境2. L2公告策略2.1 部署Death Star2.2 访问服务2.3 部署L2公告策略2.4 服务宣告 3. 可视化 ARP 流量3.1 部署新服务3.2 准备可视化3.3 再次请求 4. 自动IPAM4.1 IPAM Pool4.2 …...
全面解析数据库:从基础概念到前沿应用
在数字化时代,数据已成为企业和社会发展的核心资产,而数据库作为存储、管理和处理数据的关键工具,在各个领域发挥着举足轻重的作用。从电商平台的商品信息管理,到社交网络的用户数据存储,再到金融行业的交易记录处理&a…...


