了解统计学中不同类型的分布
目录
一、说明
二、均匀分布:
三、机器学习和数据科学中的均匀分布示例:
3.1 对数正态分布:
3.2 机器学习和数据科学中的对数正态分布示例:
四、 帕累托分布
4.1 什么是幂律?
4.2 机器学习和数据科学中的帕累托分布示例:
4.3 伯努利分布:
4.4 机器学习和数据科学中的伯努利分布示例:
4.5. 二项分布:
4.6 机器学习和数据科学中的二项分布示例:
五、概率分布变换:
5.1. 统计假设
5.2. 提高算法性能
5.3. 稳定方差
5.4. 减少偏斜
5.5 实现常态的常见转换
一、说明
统计学是理解数据的有力工具,其核心在于分布的概念。统计学中的分布有助于我们理解数据的分布方式,为各种数据集的概率和行为提供重要的见解。从熟悉的钟形曲线的正态分布到其他偏斜和重尾模式,本博客旨在解开不同类型的分布,清楚地了解它们在统计分析中的特征、应用和意义。
二、均匀分布:
均匀分布是一种概率分布,其中所有结果在给定范围内的可能性相同。这意味着,如果要从此范围中选择一个随机值,则任何值都与任何其他值一样可能。例如,从一篮子苹果中随机选择的苹果的重量在 100 到 200 克之间,将遵循连续的均匀分布。
骰子结果的离散均匀分布
连续均匀分布的概率密度函数为:
均匀分布的CDF由下式给出:
均匀分布图中不存在偏度。
三、机器学习和数据科学中的均匀分布示例:
- 随机初始化:在许多机器学习算法中,例如神经网络和 k 均值聚类,参数的初始值可能会对最终结果产生重大影响。均匀分布通常用于随机初始化参数,因为它可以确保范围内的所有值都具有相等的选择
概率。 - 采样:均匀分布也可用于采样。例如,如果数据集中每个类的样本数相等,则可以使用均匀分布随机选择代表所有类的数据子集。
- 数据增强:在某些情况下,您可能希望通过生成与原始数据相似的新示例来人为地增加数据集的大小。均匀分布可用于生成原始数据指定范围内的新数据点。
- 超参数优化:均匀分布也可用于超参数优化,在超参数优化中,您需要为机器学习模型搜索超参数的最佳组合。通过为每个超参数定义均匀的先验分布,可以从分布中采样以探索超参数空间。
3.1 对数正态分布:
在概率论和统计学中,对数正态分布是对数呈正态分布的随机变量的重尾连续概率分布,即,如果取每个值的自然对数并绘制此分布,则得到正态分布。 对数正态的PDF方程由下式给出:
这种分布是右偏的,因为它倾向于在右侧产生更长的尾部,这意味着大多数数据点集中在左侧,少数较大的值延伸到右侧。
对数正态的概率分布
对数正态的累积分布
3.2 机器学习和数据科学中的对数正态分布示例:
- 在 Internet 论坛中发布的评论长度遵循对数正态分布。
- 用户在在线文章(笑话、新闻等)上的停留时间遵循对数正态分布。
- 国际象棋比赛的长度往往遵循对数正态分布。
在经济学中,有证据表明 97%-99% 的人口的收入是按对数正态分布的。
四、 帕累托分布
帕累托分布是一种概率分布,通常用于模拟财富、收入和其他表现出类似幂律行为的量的分布。
4.1 什么是幂律?
在数学中,幂律是两个变量之间的函数关系,其中一个变量与另一个变量的幂成正比。具体来说,如果 y 和 x 是幂律相关的两个变量,则关系可以写为:
y = k * x^a
帕累托分布的概率分布
维尔弗雷多·帕累托(Vilfredo Pareto)最初使用这种分布来描述个人之间的财富分配,因为它似乎很好地表明了任何社会财富的很大一部分由该社会中较小比例的人拥有的方式。他还用它来描述收入分配。这个想法有时更简单地表达为帕累托原则或“80-20规则”,即20%的人口控制着80%的财富。
4.2 机器学习和数据科学中的帕累托分布示例:
- 人类住区的规模(少数城市,/村庄)。
- 使用 TCP 协议的 Internet 流量的文件大小分布(许多较小的文件,少数较大的文件)
4.3 伯努利分布:
伯努利分布是一种对二元结果进行建模的概率分布,其中结果可以是成功(由值 1 表示)或失败(由值 0 表示)。伯努利分布的特征是单个参数,即成功概率,用 p 表示。
4.4 机器学习和数据科学中的伯努利分布示例:
伯努利分布通常用于机器学习中,用于对二元结果进行建模,例如客户是否会购买,电子邮件是否为垃圾邮件,或者患者是否患有某种疾病。
4.5. 二项分布:
二项分布是一种概率分布,它描述了在固定数量的独立伯努利试验中的成功次数,该试验具有两种可能的结果(通常称为“成功”和“失败”),其中每个试验的成功概率是恒定的。二项分布由两个参数表征:试验次数 n 和成功概率 p。
4.6 机器学习和数据科学中的二项分布示例:
- 模型精度:在测试预测电子邮件是否为垃圾邮件的机器学习模型时,可能会运行它 100 次。每次,您都会检查它是否正确(成功)或不正确(失败)。二项分布可帮助您了解在给定一定准确率的情况下,模型可能正确预测的次数为 100 次。
- A/B 测试:在 A/B 测试中,您可以比较某些内容的两个版本(例如网站或广告),看看哪个版本效果更好。通过二项分布,您可以根据一定的成功概率来估计一个版本更成功的频率,例如获得更多点击或转化。
五、概率分布变换:
在分布方面,变换是指将数学函数应用于数据以改变其底层分布的过程。分布描述了数据如何分布在一系列值中,转换用于实现各种目标,包括修改分布的形状、比例或分布。
当您需要使用假定正态分布的算法时,变换在统计学和机器学习中可能至关重要。许多统计方法和机器学习算法在数据遵循正态分布时表现最佳,这要归功于对称性、定义的均值和标准差以及一致的分布等特性。
以下是应用转换使数据更正态分布的一些原因:
5.1. 统计假设
统计检验(如 t 检验、方差分析和许多回归模型)假定基础数据或残差(误差)呈正态分布。当数据不符合此假设时,结果可能会有偏见或具有误导性。转换有助于确保数据符合这些假设。
5.2. 提高算法性能
机器学习算法,特别是线性回归和逻辑回归,在数据或残差呈正态分布时可能表现更好。这是因为这些算法所依据的假设与正态性密切相关。通过转换使数据分布更均匀,可以提高算法的预测准确性并减少偏差。
5.3. 稳定方差
当数据具有不稳定的方差(异方差)时,可能会导致建模错误,并降低期望一致方差的算法的有效性。转换有助于稳定方差,使其在不同范围的数据中更加恒定。
5.4. 减少偏斜
有偏差的数据可能导致不准确的结论,并使结果的解释复杂化。期望对称数据的算法在偏斜输入时可能表现不佳。对数转换等转换可以减少偏度,使数据更接近正态分布。
5.5 实现常态的常见转换
以下是一些用于使数据更正态分布的常见转换:
- 日志转换:通过采用自然对数来转换数据,从而减少正偏度。对于具有指数增长或长右尾的数据很有用。
我在泰坦尼克号数据集上详细应用了日志转换。你可以从这里学习代码和概念!
- 平方根变换:通过取平方根来转换数据以减少偏度,通常用于计数数据或方差随均值增加的数据。
- Box-Cox 变换:一种灵活的电源转换,可以将一系列非正态数据转换为更正态分布。它需要非负数据,并确定最佳功率变换参数 (λ) 以实现正态性。它可以在数学上表示为:
学习代码,你可以从这里学习代码和概念!
- 相互转化:涉及采用倒数 (1/x) 来转换数据,从而减少正偏度。
希望这篇博客能加深你对统计学中不同概率分布的理解。如果您发现此内容的价值,请考虑关注我以获取更有见地的帖子。谢谢!感谢您花时间阅读本文。
相关文章:
了解统计学中不同类型的分布
目录 一、说明 二、均匀分布: 三、机器学习和数据科学中的均匀分布示例: 3.1 对数正态分布: 3.2 机器学习和数据科学中的对数正态分布示例: 四、 帕累托分布 4.1 什么是幂律? 4.2 机器学习和数据科学中的帕累托分布示例…...
k8s-CCE创建工作负载变量引用
CCE创建工作负载变量引用 背景,看到cce创建负载时会生成变量,如下。在skywaking-agent的使用,想要调用cce负载变量生成service_name。 -Dskywalking.agent.authentication里含有敏感信息需要写到配置项。简单粗糙的都写到配置项好像不合适。…...
后端主流框架--Spring02
前言:上篇关于Spring的文章介绍了一些Spring的基本知识,此篇文章主要分享一下如何配置Spring环境,如何注入等。 Spring项目构建 导入Spring相关JAR包 <dependency><groupId>org.springframework</groupId><artifactId>spring…...
[数据集][目标检测]减速带检测数据集VOC+YOLO格式5400张1类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):5400 标注数量(xml文件个数):5400 标注数量(txt文件个数):5400 标注…...
分析Linux操作指令及使用场景与频率分析 持续更新
本篇主要针对在日常工作与学习中使用较多的linux指令的使用方法以及使用频次进行分析与讲解,旨在能够更好的掌握这些必备的技能。 linux指令非常的多,如果要记住所有的指令使用方法是非常困难的且要花费很长的时间,很多人习惯离开使用去通篇…...
Redis 字符串(String)
Redis 字符串(String) 介绍 Redis是一种开源的、高性能的键值数据库,它支持多种类型的数据结构,其中字符串(String)是Redis中最基本的数据类型之一。字符串类型可以存储任何形式的字符串,包括文本、序列化的对象或二进制数据。在Redis中,字符串类型的最大容量为512MB。 …...
第一篇:容器化的未来:从Docker的革命到云原生架构
容器化的未来:从Docker的革命到云原生架构 1. 引言 在当今快速演进的技术领域,容器化技术已经成为云计算和微服务架构的重要组成部分。该技术以其高效的资源利用率、快速的部署能力和卓越的隔离性能,彻底改变了软件开发和部署的方式。容器化…...
【2024最新华为OD-C/D卷试题汇总】[支持在线评测] URL拼接(100分) - 三语言AC题解(Python/Java/Cpp)
🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 📎在线评测链接 URL拼接(100分) 🌍 评测功能需要订阅专栏后私信联系清隆解…...
反射,枚举以及lambda表达式
【本节目标】 1. 掌握反射 2. 掌握枚举 3. 掌握lambda表达式使用 反射 1 定义 Java的反射(reflection)机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调…...
DNS域名解析----分离解析、多域名解析、父域与子域
1 理论部分 1.1 分离解析 DNS的分离解析,是指根据不同的客户端提供不同的域名解析记录。来自不同地址的客户机请求解析同一域名时,为其提供不同的解析结果。也就是内外网客户请求访问相同的域名时,能解析出不同的IP地址,实现负载…...
Spring底层架构核心概念解析
BeanDefinition BeanDefinition表示Bean定义,BeanDefinition中存在很多属性用来描述一个Bean的特点.比如: beanClass:表示Bean类型scope:表示Bean作用域,单例/原型等lazyInit:表示Bean是否懒加载initMethodName:表示Bean初始化时要执行的方法destoryMethodName:表示Bean销毁时…...
C++ 44 之 指针运算符的重载
#include <iostream> #include <string> using namespace std;class Students04{ public:int m_age;Students04(int age){this->m_age age;}void showAge(){cout << "年龄是: " << this->m_age << endl;}~Students0…...
onlyoffice在线预览加载优化
背景: 使用容器部署onlyoffice到linux服务器,使用内网访问速度还可以接受,但是如果放到外网路径访问起来,速度就会很慢,甚至加载失败; 优化方案: 预览的过程排除网络因素,可以发现打…...
依赖自动装配
黑马程序员SSM框架 文章目录 1、依赖自动装配2、依赖自动装配的特征 1、依赖自动装配 IoC容器根据bean所依赖的资源在容器中自动查找并注入到bean中的过程称为自动装配自动装配方式 按类型(常用)按名称按构造方法不启用自动装配 配置中使用bean标签auto…...
mysql和redis的双写一致性问题
一,使用方案 在使用redis作为缓存的场景下,我们一般使用流程如下 二,更新数据场景 我们此时修改个某条数据,如何保证mysql数据库和redis缓存中的数据一致呢? 按照常规思路有四种办法,1.先更新mysql数据&a…...
Qwen2——阿里巴巴最新的多语言模型挑战 Llama 3 等 SOTA
引言 经过几个月的期待, 阿里巴巴 Qwen 团队终于发布了 Qwen2 – 他们强大的语言模型系列的下一代发展。 Qwen2 代表了一次重大飞跃,拥有尖端的进步,有可能将其定位为 Meta 著名的最佳替代品 骆驼3 模型。在本次技术深入探讨中,我…...
等级考试3-2021年3月题
作业: #include <iostream> using namespace std; int chonghe(int,int,int,int); int main(){int a[1000],b[1000];int n,ma0;cin>>n;for(int i0;i<n;i){cin>>a[i]>>b[i];}for(int i0;i<n;i){for(int ji1;j<n;j){mamax(ma,chongh…...
Web前端开发PPT:深入探索与实战应用
Web前端开发PPT:深入探索与实战应用 在数字化时代,Web前端开发已成为构建丰富、交互性强的网页应用的关键环节。本次分享旨在通过PPT的形式,带领大家深入探索Web前端开发的精髓,并分享一些实战应用的经验。接下来,我们…...
liunx常见指令
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 二、安装环境 1.租借服务器 2.下载安装 XShell 3.使用xshll登录服务器 三、Linux基础命令 一、文件和命令 编辑1、cd 命令 2、pwd 命令 3、ls 命令 4、cp 命令 …...
vscode设置成中文界面
在Visual Studio Code(VSCode)中设置中文界面,你可以采用以下几种方法,以下是详细步骤: 方法一:通过设置菜单设置中文 打开VSCode:首先,确保你已经打开了VSCode软件。进入设置&…...
python命名空间详解
Python中的命名空间是编程语言设计的一个核心概念,它负责存储变量名与其对应的值之间的映射关系,确保了程序中变量的唯一性和可访问性。命名空间不仅关乎变量的生命周期和作用范围,也是Python中实现封装、避免命名冲突的重要机制。 1. 命名空…...
【日常记录】【vue】vite-plugin-inspect 插件的使用
文章目录 1、vite-plugin-inspect2、安装3、使用4、链接 1、vite-plugin-inspect vite-plugin-inspect 可以让开发者在浏览器端就可以看到vue文件编译后的代码、vue文件的相互依赖关系 2、安装 npm i -D vite-plugin-inspect// vite.config.ts import Inspect from vite-plugi…...
mini web框架示例
web框架: 使用web框架专门负责处理用户的动态资源请求,这个web框架其实就是一个为web服务器提供服务的应用程序 什么是路由? 路由就是请求的url到处理函数的映射,也就是说提前把请求的URL和处理函数关联好 管理路由可以使用一个…...
基于C#开发web网页管理系统模板流程-主界面统计功能完善
点击返回目录-> 基于C#开发web网页管理系统模板流程-总集篇-CSDN博客 前言 紧接上篇->基于C#开发web网页管理系统模板流程-主界面管理员入库和出库功能完善_c#web程序设计-CSDN博客 统计功能是管理系统很常见的功能,例如仓库管理系统要统计某时间段的出入库以…...
chromedriver114以后版本下载地址汇总chromedriver所有版本下载地址汇总国内源下载
谷歌浏览器版本经常会升级,chromedriver 也得下载匹配的版本 chromedriver 114以前版本下载地址https://registry.npmmirror.com/binary.html?pathchromedriver/ 但是自从115版本及其以后网站就找不到了,因此整理了截止2024年6月16日前所有在windows x6…...
x86计算机的启动初期流程 Linux 启动流程
x86计算机的启动初期流程 CPU: step1,加点开机,cpu自己初始化 step2,cpu 从物理地址 0xFFFFFFF0h 取指令执行;此处存放BIOS代码,这些代码可以是由主板自动从 EEPROM中拷贝至此内存地址处;即下…...
P450Rdb: CYP450数据库--地表最强系列--文献精读24
P450Rdb: A manually curated database of reactions catalyzed by cytochrome P450 enzymes P450Rdb: 一个人工整理的细胞色素P450酶催化反应数据库 http://www.cellknowledge.com.cn/p450rdb/ 还有一篇类似CYP450综述-20年-地表最强系列-文献精读-4 要点: P450…...
ubuntu 22.04下载和安装
ubuntu镜像: https://www.releases.ubuntu.com/22.04/ 然后下载vmwareworkstation16 密钥 ZF3R0-FHED2-M80TY-8QYGC-NPKYF...
Fegin如何传参form-data文件
Form-data传输file参数,这个大家都比较清楚,那么针对于Fegin参数file参数该如何操作呢!下面截图来找到对应的参数关系。 一、之前我们在postMan中是这种传参的,那么如果使用Feigin来传输文件File 二、在Fegin中传form-data参数&a…...
解决 Visual C++ 17.5 __cplusplus 始终为 199711L 的问题
目录 软件环境问题描述查阅资料解决问题参考文献 软件环境 Visual Studio 2022, Visual C, Version 17.5.4 问题描述 在应用 https://github.com/ToniLipponen/cpp-sqlite 的过程中,发现源代码文件 sqlite.hpp 中,有一处宏,和本项目的 C L…...
上海装修公司哪家最好/seo排名第一的企业
题目:原题链接(中等) 标签:数组、哈希表 解法时间复杂度空间复杂度执行用时Ans 1 (Python)O(N)O(N)O(N)L(N)L(N)L(N)160ms (87.84%)Ans 2 (Python)Ans 3 (Python) 解法一: class Solution:def findLongestSubarray(…...
南平 网站建设/推广公司是做什么的
环境: 2020款MacBook Pro13.3 八核M1/8G/256G 问题描述: 公司Macbook Pro,换了好几位员工使用,他们走了,不知道谁的账户启用了激活锁,重置系统后开机要激活,忘了激活锁账户密码如何向苹果申请…...
建个企业网站还是开个淘宝店/美国最新新闻头条
http://blog.csdn.net/pipisorry/article/details/30311253 C语言的存储类型可分为:extern、auto、static、register。 外部变量定义在函数之外,通过同一个名字对外部变量的所有引用(即使这种引用来自于单独编译的不同函数),实际上都是引用同…...
泰兴市网站建设/google优化排名
su [user] 和 su - [user]的区别: su [user]切换到其他用户,但是不切换环境变量,su - [user]则是完整的切换到新的用户环境。 如: [rootrac1 ~]# pwd --当前目录 /root [rootrac1 ~]# su oracle --使用su [user] [oraclerac1 root…...
网站建设我们的优势/郑州seo优化顾问热狗
以上图为例,我们可以通过这样的界面来新建一个项目。当点击保存的时候,其实是需要用javasript的方式去保存该项目的数据。不是吗?此时,基于javascript的对象模型就很重要了。 事实上,MOSS 2010很多的地方都用到了这套E…...
这几年做哪些网站致富/营销策划方案包括哪些内容
虽然现在jdk已经已经到了14【截至2020-08-15】,但是jdk8仍然是使用最广的版本,它的新特性不仅在我们日常开发中用到,在面试中也是一个经常被提问的点,所以对一些常用的还是需要知道的,我也只写一些常用的,有…...