ML 系列:第 32节 — 机器学习中的统计简介
文章目录
- 一、说明
- 二、统计概述
- 三、描述性统计与推断性统计
- 3.1 描述统计学
- 3.2 推论统计
- 四、描述性统计中的均值、中位数和众数
一、说明
机器学习中的统计
随着我们深入研究机器学习领域,了解统计学在该领域的作用至关重要。统计学是机器学习的支柱,它提供了理解数据和获得有意义见解的工具和方法。在这篇文章中,我们将探讨统计的定义、它在机器学习中的重要性,以及描述性统计和推理统计之间的区别。
二、统计概述
统计学是数学的一个分支,涉及数据的收集、分析、解释、表示和组织。它提供了一个基于数据做出决策和预测的框架。在机器学习的背景下,统计学可以帮助我们理解我们正在处理的数据,准确地对其进行建模,并得出可靠的结论。
机器学习中的定义和重要性
统计学可以定义为从数据中学习的科学。它涉及设计实验和调查、收集数据、总结信息和进行推理的方法。在机器学习中,统计数据至关重要,因为:
-
数据理解:在构建任何机器学习模型之前,了解数据很重要。统计技术有助于汇总和可视化数据,揭示模式、异常和关系。
-
模型构建:统计模型构成了许多机器学习算法的基础。回归、分类和聚类等技术都源于统计方法。
-
模型评估:Statistics 提供指标和测试来评估机器学习模型的性能。这可确保模型可靠且预测准确。
-
推理和预测:通过统计推理,我们可以根据样本数据对总体进行预测。这在机器学习中进行预测或识别趋势时特别有用。
三、描述性统计与推断性统计
统计学大致可分为两种类型:描述性统计和推论统计。两者都在数据分析过程中发挥着重要作用,但它们的用途不同。
3.1 描述统计学
描述性统计总结并描述数据集的主要特征。它们提供有关样本和度量的简单摘要。这些摘要可以是图形或数字。以下是一些关键概念:
- 集中趋势的测量:这些值包括平均值 (平均值)、中位数 (中间值) 和众数 (最频繁的值),它们有助于识别数据集的中心。
- 离差度量: 这些指标包括范围(最大值和最小值之间的差值)、方差和标准差,它们表示数据中的散布或可变性。
- 数据可视化:直方图、箱形图和散点图等图形表示有助于可视化数据并识别模式或异常值。
描述性统计提供了一种以合理的方式简化大量数据的方法。每个描述性统计数据都将大量数据简化为更简单的摘要。
3.2 推论统计
描述性统计旨在总结手头的数据,而推论统计用于从数据样本中对更大的总体进行预测或推断。这包括:
- 采样:从总体中选择一个代表性群体,以得出有关整个总体的结论。
- 假设检验:对总体提出主张或断言,并通过数据分析检验这些主张。
- 置信区间: 提供可能包含相关群体参数的值范围。
- 回归分析:了解变量之间的关系并进行预测。
推论统计使我们能够对总体做出概率陈述,并了解与我们的结论相关的不确定性。
四、描述性统计中的均值、中位数和众数
在分析数据时,了解其中心趋势至关重要。集中趋势的度量提供表示数据集的中心点或典型值的单个值。三种最常见的度量是均值、中位数和众数。每个 Cookie 都提供了独特的见解,并在不同的上下文中非常有用。让我们深入研究这些度量中的每一个。
意味 着
平均值(通常称为平均值)是数据集中所有值的总和除以值的数量。它是一个度量值,它提供表示数据分布中心点的单个值。
均值公式:

这里:
xi 表示数据集中的每个值。
n 是数据集中值的数目。
示例:
考虑数据集:5、10、15、20、25
平均值 = (5 + 10 + 15 + 20 + 25) / 5 = 75/5 = 15
Python 代码:
import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the mean
mean = np.mean(data)print("Mean:", mean)
# Mean: 15.0
优点:
- 易于计算和理解。
- 使用所有数据点,提供全面的度量。
缺点:
- 对异常值敏感,异常值会显着扭曲平均值。
中位数
中位数是数据集的中间值,当值按升序或降序排列时。如果观测值数为偶数,则中位数是两个中间数字的平均值。
查找中位数的步骤:
1。按升序排列数据。
2. 确定中间值。
示例:
考虑数据集:5、10、15、20、25。
- 按升序排列(已完成): 5, 10, 15, 20, 25
2.中间值(中位数)为 15。
python 中的代码:import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the median
median = np.median(data)print("Median:", median)
# Median: 15.0
注意: 对于偶数个观测值,请考虑数据集:5、10、15、20。
- 按升序排列: 5, 10, 15, 20
2.中间值为 10 和 15。 - 中位数 = (10 + 15) / 2 = 12.5
优点:
- 不受异常值的影响,使其成为集中趋势的稳健衡量标准。
- 在偏态分布中更准确地反映数据集的中心。
缺点:
- 没有利用所有数据点,可能会忽略有价值的信息。
模式
mode 是数据集中出现频率最高的值。数据集可能具有一种模式、多个模式,或者如果没有数字重复,则根本没有模式。
示例:
考虑数据集:5、10、15、20、20、25
- 模式为 20,因为它出现得最频繁。
python 中的代码:
import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the mode
mode = stats.mode(data)print("Mode:", mode.mode)
# Mode: 5
优点:
- 易于识别。
- 对于我们希望了解最常见类别的分类数据很有用。
缺点:
- 可能不是唯一的;多种模式会使解释复杂化。
- 并不总是代表数据集,尤其是连续数据。
选择正确的度量
- 平均值:非常适合没有异常值的对称分布。
- 中位数:最适合偏态分布或具有异常值的数据。
- 模式: 对于分类数据以及识别数据集中最常见的值非常有用。
了解这些集中趋势的度量对于任何数据分析都至关重要,为更高级的统计技术和数据驱动的决策奠定了基础。通过选择合适的度量,您可以更好地解释数据并提取有意义的见解。
在我们的机器学习之旅中,我们在第 33 期中探讨了集中趋势的测量。
相关文章:
ML 系列:第 32节 — 机器学习中的统计简介
文章目录 一、说明二、统计概述三、描述性统计与推断性统计3.1 描述统计学3.2 推论统计 四、描述性统计中的均值、中位数和众数 一、说明 机器学习中的统计 随着我们深入研究机器学习领域,了解统计学在该领域的作用至关重要。统计学是机器学习的支柱,它…...
CatVton升级版?CatVton-Flux:AI虚拟试衣方案新选择。
之前的文章中已经和大家介绍过虚拟试衣方案CatVton,感兴趣的小伙伴可以点击下面链接阅读~ 中山大学与Pixocial联手提出CatVTON:轻量化架构与高效训练,助力虚拟试衣技术落地应用! 今天给大家介绍的是CatVton-FLUX,它是…...
JavaEE---计算机是如何工作的?
1.了解冯诺依曼体系结构 2.CPU的核心概念,CPU的两个重要指标(核心数和频率) 3.CPU执行指令的流程(指令表,一条一条指令,取指令,解析指令,执行指令) 4.操作系统核心概念(管理硬件,给软件提供稳定的运行环境) 5.进程的概念(运行起来的程序和可执行文件的区别) 6.进程的管理(…...
十、Spring Boot集成Spring Security之HTTP请求授权
文章目录 往期回顾:Spring Boot集成Spring Security专栏及各章节快捷入口前言一、HTTP请求授权工作原理二、HTTP请求授权配置1、添加用户权限2、配置ExceptionTranslationFilter自定义异常处理器3、HTTP请求授权配置 三、测试接口1、测试类2、测试 四、总结 往期回顾…...
C#基础控制台程序
11.有一个54的矩阵,要求编程序求出其中值最大的那个元素的值,以及其所在的行号和列号。 12.从键盘输入一行字符,统计其中有多少个单词,单词之间用空格分隔开。 13.输入一个数,判断它是奇数还是偶数,如果…...
【网络安全】CSRF
一、什么是CSRF CSRF(Cross-Site Request Forgery)是一种web应用程序安全漏洞,它利用了用户在已登录的状态下的信任,通过欺骗用户发送未经授权的请求来执行恶意操作。这种攻击的危害性取决于受害者在目标网站上的权限。 二、CSR…...
网络原理(一)—— http
什么是 http http 是一个应用层协议,全称为“超文本传输协议”。 http 自 1991 年诞生,目前已经发展为最主流使用的一种应用层协议。 HTTP 往往基于传输层的 TCP 协议实现的,例如 http1.0,http1.0,http2.0 http3 是…...
【实体配置】.NET开源 ORM 框架 SqlSugar 系列
.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列 …...
【Zookeeper】四,Zookeeper节点类型、通知、仲裁、会话
文章目录 Zookeeper的架构znode的版本Zookeeper的节点类型层级树状结构znode的不同类型 Zookeeper监视与通知通知的类型 Zookeeper的仲裁Zk的会话会话的生命周期 Zookeeper的架构 Zookeeper的服务器端运行两种模式:独立模式(standalone)和仲…...
【二分查找】力扣 34. 在排序数组中查找元素的第一个和最后一个位置
一、题目 二、思路 将题目转化为求解 target 和 target 1 的查找。分别采用最基础的二分查找即可。 三、题解 class Solution {public int[] searchRange(int[] nums, int target) {int n nums.length;int start lowerBound(nums, target);if (start n || nums[start] !…...
以达梦为数据库底座时部署的微服务页面报乱码,调整兼容模式
1.问题描述 部署微服务,文件、代码是延用的mysql类型的,部署前做了部分适配,但是在使用dm数据库进行安装的服务在页面上查询出的数据却都是乱码 2.查询官网,注意到一个参数COMPATIBLE_MODE兼容模式的配置 考虑是延用mysql&…...
Java设计模式 —— 【创建型模式】工厂模式(简单工厂、工厂方法模式、抽象工厂)详解
文章目录 前言一、简单工厂(静态工厂)1、概述2、代码实现3、优缺点 二、工厂方法模式1、概述2、代码实现3、优缺点 三、抽象工厂模式1、概述2、代码实现3、优缺点 四、总结 前言 先看个案例:【手机和手机店】在没有工厂的时候,手…...
KST-3D01型胎儿超声仿真体模、吸声材料以及超声骨密度仪用定量试件介绍
一、KST-3D01型胎儿超声仿真体模 KST—3D01型胎儿超声体模,采用仿羊水环境中内置胎龄为7个月大仿胎儿设计。用于超声影像系统3D扫描演示装置表面轮廓呈现和3D重建。仿羊水超声影像呈暗回声(无回波)特性,仿胎儿超声影像呈对比明显…...
网络原理->DNS协议和NAT协议解
前言 大家好我是小帅,今天我们来了解应用层的DNS协议和NAT技术 个人主页:再无B~U~G 文章目录 1.重要应⽤层协议DNS(Domain Name System)1.1 DNS背景 2. NAT技术3. 总结 1.重要应⽤层协议DNS(Domain Name System) DNS是⼀整套从域…...
基于yolov8、yolov5的100种中药材检测识别系统(含UI界面、训练好的模型、Python代码、数据集)
项目介绍 项目中所用到的算法模型和数据集等信息如下: 算法模型: yolov8、yolov8 SE注意力机制 或 yolov5、yolov5 SE注意力机制 , 直接提供最少两个训练好的模型。模型十分重要,因为有些同学的电脑没有 GPU࿰…...
RuoYi排序
RuoYi框架提供了多种实现排序的方法,以满足不同场景下的需求。这里简要介绍几种常见的排序实现方式: 1. 后端排序 1.1 使用startPagePlus方法 RuoYi框架中,可以通过对BaseController进行扩展来实现更灵活的分页与排序功能。例如࿰…...
Python+Pytest+Yaml+Allure数据参数化(DDT)数据驱动(一)
我们在做数据之前要知道几个问题 1、在代码层面怎么来数据驱动 2、yaml文件是什么 3、怎么用yaml文件实现对应的数据驱动 我们用的是pytest框架所以相对来说是简单的,我们通过pytest框架来实现,而框架中要数据驱动用到我们装饰器就好啦pytest.mark.p…...
BASLER工业相机维修不能触发拍照如何处理解决这个问题
BASLER工业相机维修不能触发拍照如何处理解决这个问题?最近遇到挺多工业相机维修咨询这个不能触发拍照的案例,所以今天优米佳维修的技术就抽空整理了这篇关于BASLER相机不能触发拍照的处理方法分享给大家。 当碰到巴斯勒工业相机不能触发拍照的问题&…...
Could not locate device support files.
报错信息:Failure Reason: The device may be running a version of iOS (13.6.1 17G80) that is not supported by this version of Xcode.[missing string: 869a8e318f07f3e2f42e11d435502286094f76de] 问题:xcode15升级到xcode16之后,13.…...
linux系统中常用文件日常使用命令记录
我们办公机是Ubuntu系统; 记录下工作中经常使用的几个文件或命令或一些零碎的知识点: (该文档会持续更新) 查看系统信息: uname -a cat /etc/product-info cat /etc/os-version 存放系统启停脚本 /etc/init.d/ 存放源…...
在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能
下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能,包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...
postgresql|数据库|只读用户的创建和删除(备忘)
CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...
P3 QT项目----记事本(3.8)
3.8 记事本项目总结 项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...
Python爬虫(一):爬虫伪装
一、网站防爬机制概述 在当今互联网环境中,具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类: 身份验证机制:直接将未经授权的爬虫阻挡在外反爬技术体系:通过各种技术手段增加爬虫获取数据的难度…...
Angular微前端架构:Module Federation + ngx-build-plus (Webpack)
以下是一个完整的 Angular 微前端示例,其中使用的是 Module Federation 和 npx-build-plus 实现了主应用(Shell)与子应用(Remote)的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...
【JavaSE】多线程基础学习笔记
多线程基础 -线程相关概念 程序(Program) 是为完成特定任务、用某种语言编写的一组指令的集合简单的说:就是我们写的代码 进程 进程是指运行中的程序,比如我们使用QQ,就启动了一个进程,操作系统就会为该进程分配内存…...
C# 表达式和运算符(求值顺序)
求值顺序 表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生 变化。 例如,已知表达式3*52,依照子表达式的求值顺序,有两种可能的结果,如图9-3所示。 如果乘法先执行,结果是17。如果5…...
(一)单例模式
一、前言 单例模式属于六大创建型模式,即在软件设计过程中,主要关注创建对象的结果,并不关心创建对象的过程及细节。创建型设计模式将类对象的实例化过程进行抽象化接口设计,从而隐藏了类对象的实例是如何被创建的,封装了软件系统使用的具体对象类型。 六大创建型模式包括…...
springboot 日志类切面,接口成功记录日志,失败不记录
springboot 日志类切面,接口成功记录日志,失败不记录 自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…...
DBLP数据库是什么?
DBLP(Digital Bibliography & Library Project)Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高,数据库文献更新速度很快,很好地反映了国际计算机科学学术研…...
