当前位置: 首页 > news >正文

ML 系列:第 32节 — 机器学习中的统计简介

文章目录

  • 一、说明
  • 二、统计概述
  • 三、描述性统计与推断性统计
    • 3.1 描述统计学
    • 3.2 推论统计
  • 四、描述性统计中的均值、中位数和众数

一、说明

机器学习中的统计
随着我们深入研究机器学习领域,了解统计学在该领域的作用至关重要。统计学是机器学习的支柱,它提供了理解数据和获得有意义见解的工具和方法。在这篇文章中,我们将探讨统计的定义、它在机器学习中的重要性,以及描述性统计和推理统计之间的区别。

二、统计概述

统计学是数学的一个分支,涉及数据的收集、分析、解释、表示和组织。它提供了一个基于数据做出决策和预测的框架。在机器学习的背景下,统计学可以帮助我们理解我们正在处理的数据,准确地对其进行建模,并得出可靠的结论。

机器学习中的定义和重要性
统计学可以定义为从数据中学习的科学。它涉及设计实验和调查、收集数据、总结信息和进行推理的方法。在机器学习中,统计数据至关重要,因为:

  1. 数据理解:在构建任何机器学习模型之前,了解数据很重要。统计技术有助于汇总和可视化数据,揭示模式、异常和关系。

  2. 模型构建:统计模型构成了许多机器学习算法的基础。回归、分类和聚类等技术都源于统计方法。

  3. 模型评估:Statistics 提供指标和测试来评估机器学习模型的性能。这可确保模型可靠且预测准确。

  4. 推理和预测:通过统计推理,我们可以根据样本数据对总体进行预测。这在机器学习中进行预测或识别趋势时特别有用。

三、描述性统计与推断性统计

统计学大致可分为两种类型:描述性统计和推论统计。两者都在数据分析过程中发挥着重要作用,但它们的用途不同。

3.1 描述统计学

描述性统计总结并描述数据集的主要特征。它们提供有关样本和度量的简单摘要。这些摘要可以是图形或数字。以下是一些关键概念:

  • 集中趋势的测量:这些值包括平均值 (平均值)、中位数 (中间值) 和众数 (最频繁的值),它们有助于识别数据集的中心。
  • 离差度量: 这些指标包括范围(最大值和最小值之间的差值)、方差和标准差,它们表示数据中的散布或可变性。
  • 数据可视化:直方图、箱形图和散点图等图形表示有助于可视化数据并识别模式或异常值。

描述性统计提供了一种以合理的方式简化大量数据的方法。每个描述性统计数据都将大量数据简化为更简单的摘要。

3.2 推论统计

描述性统计旨在总结手头的数据,而推论统计用于从数据样本中对更大的总体进行预测或推断。这包括:

  • 采样:从总体中选择一个代表性群体,以得出有关整个总体的结论。
  • 假设检验:对总体提出主张或断言,并通过数据分析检验这些主张。
  • 置信区间: 提供可能包含相关群体参数的值范围。
  • 回归分析:了解变量之间的关系并进行预测。

推论统计使我们能够对总体做出概率陈述,并了解与我们的结论相关的不确定性。

四、描述性统计中的均值、中位数和众数

在分析数据时,了解其中心趋势至关重要。集中趋势的度量提供表示数据集的中心点或典型值的单个值。三种最常见的度量是均值、中位数和众数。每个 Cookie 都提供了独特的见解,并在不同的上下文中非常有用。让我们深入研究这些度量中的每一个。

意味 着
平均值(通常称为平均值)是数据集中所有值的总和除以值的数量。它是一个度量值,它提供表示数据分布中心点的单个值。

均值公式:
在这里插入图片描述

这里:

xi 表示数据集中的每个值。
n 是数据集中值的数目。
示例:
考虑数据集:5、10、15、20、25

平均值 = (5 + 10 + 15 + 20 + 25) / 5 = 75/5 = 15

Python 代码:

import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the mean
mean = np.mean(data)print("Mean:", mean)
# Mean: 15.0

优点:

  • 易于计算和理解。
  • 使用所有数据点,提供全面的度量。

缺点:

  • 对异常值敏感,异常值会显着扭曲平均值。

中位数
中位数是数据集的中间值,当值按升序或降序排列时。如果观测值数为偶数,则中位数是两个中间数字的平均值。

查找中位数的步骤:
1。按升序排列数据。
2. 确定中间值。

示例:
考虑数据集:5、10、15、20、25。

  1. 按升序排列(已完成): 5, 10, 15, 20, 25
    2.中间值(中位数)为 15。
python 中的代码:import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the median
median = np.median(data)print("Median:", median)
# Median: 15.0

注意: 对于偶数个观测值,请考虑数据集:5、10、15、20。

  1. 按升序排列: 5, 10, 15, 20
    2.中间值为 10 和 15。
  2. 中位数 = (10 + 15) / 2 = 12.5

优点:

  • 不受异常值的影响,使其成为集中趋势的稳健衡量标准。
  • 在偏态分布中更准确地反映数据集的中心。

缺点:

  • 没有利用所有数据点,可能会忽略有价值的信息。

模式
mode 是数据集中出现频率最高的值。数据集可能具有一种模式、多个模式,或者如果没有数字重复,则根本没有模式。

示例:
考虑数据集:5、10、15、20、20、25

  • 模式为 20,因为它出现得最频繁。

python 中的代码:

import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the mode
mode = stats.mode(data)print("Mode:", mode.mode)
# Mode: 5

优点:

  • 易于识别。
  • 对于我们希望了解最常见类别的分类数据很有用。

缺点:

  • 可能不是唯一的;多种模式会使解释复杂化。
  • 并不总是代表数据集,尤其是连续数据。

选择正确的度量

  • 平均值:非常适合没有异常值的对称分布。
  • 中位数:最适合偏态分布或具有异常值的数据。
  • 模式: 对于分类数据以及识别数据集中最常见的值非常有用。

了解这些集中趋势的度量对于任何数据分析都至关重要,为更高级的统计技术和数据驱动的决策奠定了基础。通过选择合适的度量,您可以更好地解释数据并提取有意义的见解。

在我们的机器学习之旅中,我们在第 33 期中探讨了集中趋势的测量。

相关文章:

ML 系列:第 32节 — 机器学习中的统计简介

文章目录 一、说明二、统计概述三、描述性统计与推断性统计3.1 描述统计学3.2 推论统计 四、描述性统计中的均值、中位数和众数 一、说明 机器学习中的统计 随着我们深入研究机器学习领域,了解统计学在该领域的作用至关重要。统计学是机器学习的支柱,它…...

CatVton升级版?CatVton-Flux:AI虚拟试衣方案新选择。

之前的文章中已经和大家介绍过虚拟试衣方案CatVton,感兴趣的小伙伴可以点击下面链接阅读~ 中山大学与Pixocial联手提出CatVTON:轻量化架构与高效训练,助力虚拟试衣技术落地应用! 今天给大家介绍的是CatVton-FLUX,它是…...

JavaEE---计算机是如何工作的?

1.了解冯诺依曼体系结构 2.CPU的核心概念,CPU的两个重要指标(核心数和频率) 3.CPU执行指令的流程(指令表,一条一条指令,取指令,解析指令,执行指令) 4.操作系统核心概念(管理硬件,给软件提供稳定的运行环境) 5.进程的概念(运行起来的程序和可执行文件的区别) 6.进程的管理(…...

十、Spring Boot集成Spring Security之HTTP请求授权

文章目录 往期回顾:Spring Boot集成Spring Security专栏及各章节快捷入口前言一、HTTP请求授权工作原理二、HTTP请求授权配置1、添加用户权限2、配置ExceptionTranslationFilter自定义异常处理器3、HTTP请求授权配置 三、测试接口1、测试类2、测试 四、总结 往期回顾…...

C#基础控制台程序

11.有一个54的矩阵,要求编程序求出其中值最大的那个元素的值,以及其所在的行号和列号。 12.从键盘输入一行字符,统计其中有多少个单词,单词之间用空格分隔开。 13.输入一个数,判断它是奇数还是偶数,如果…...

【网络安全】CSRF

一、什么是CSRF CSRF(Cross-Site Request Forgery)是一种web应用程序安全漏洞,它利用了用户在已登录的状态下的信任,通过欺骗用户发送未经授权的请求来执行恶意操作。这种攻击的危害性取决于受害者在目标网站上的权限。 二、CSR…...

网络原理(一)—— http

什么是 http http 是一个应用层协议,全称为“超文本传输协议”。 http 自 1991 年诞生,目前已经发展为最主流使用的一种应用层协议。 HTTP 往往基于传输层的 TCP 协议实现的,例如 http1.0,http1.0,http2.0 http3 是…...

【实体配置】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列 &#x1f…...

【Zookeeper】四,Zookeeper节点类型、通知、仲裁、会话

文章目录 Zookeeper的架构znode的版本Zookeeper的节点类型层级树状结构znode的不同类型 Zookeeper监视与通知通知的类型 Zookeeper的仲裁Zk的会话会话的生命周期 Zookeeper的架构 Zookeeper的服务器端运行两种模式:独立模式(standalone)和仲…...

【二分查找】力扣 34. 在排序数组中查找元素的第一个和最后一个位置

一、题目 二、思路 将题目转化为求解 target 和 target 1 的查找。分别采用最基础的二分查找即可。 三、题解 class Solution {public int[] searchRange(int[] nums, int target) {int n nums.length;int start lowerBound(nums, target);if (start n || nums[start] !…...

以达梦为数据库底座时部署的微服务页面报乱码,调整兼容模式

1.问题描述 部署微服务,文件、代码是延用的mysql类型的,部署前做了部分适配,但是在使用dm数据库进行安装的服务在页面上查询出的数据却都是乱码 2.查询官网,注意到一个参数COMPATIBLE_MODE兼容模式的配置 考虑是延用mysql&…...

Java设计模式 —— 【创建型模式】工厂模式(简单工厂、工厂方法模式、抽象工厂)详解

文章目录 前言一、简单工厂(静态工厂)1、概述2、代码实现3、优缺点 二、工厂方法模式1、概述2、代码实现3、优缺点 三、抽象工厂模式1、概述2、代码实现3、优缺点 四、总结 前言 先看个案例:【手机和手机店】在没有工厂的时候,手…...

KST-3D01型胎儿超声仿真体模、吸声材料以及超声骨密度仪用定量试件介绍

一、KST-3D01型胎儿超声仿真体模 KST—3D01型胎儿超声体模,采用仿羊水环境中内置胎龄为7个月大仿胎儿设计。用于超声影像系统3D扫描演示装置表面轮廓呈现和3D重建。仿羊水超声影像呈暗回声(无回波)特性,仿胎儿超声影像呈对比明显…...

网络原理->DNS协议和NAT协议解

前言 大家好我是小帅,今天我们来了解应用层的DNS协议和NAT技术 个人主页:再无B~U~G 文章目录 1.重要应⽤层协议DNS(Domain Name System)1.1 DNS背景 2. NAT技术3. 总结 1.重要应⽤层协议DNS(Domain Name System) DNS是⼀整套从域…...

基于yolov8、yolov5的100种中药材检测识别系统(含UI界面、训练好的模型、Python代码、数据集)

项目介绍 项目中所用到的算法模型和数据集等信息如下: 算法模型:     yolov8、yolov8 SE注意力机制 或 yolov5、yolov5 SE注意力机制 , 直接提供最少两个训练好的模型。模型十分重要,因为有些同学的电脑没有 GPU&#xff0…...

RuoYi排序

RuoYi框架提供了多种实现排序的方法,以满足不同场景下的需求。这里简要介绍几种常见的排序实现方式: 1. 后端排序 1.1 使用startPagePlus方法 RuoYi框架中,可以通过对BaseController进行扩展来实现更灵活的分页与排序功能。例如&#xff0…...

Python+Pytest+Yaml+Allure数据参数化(DDT)数据驱动(一)

我们在做数据之前要知道几个问题 1、在代码层面怎么来数据驱动 2、yaml文件是什么 3、怎么用yaml文件实现对应的数据驱动 我们用的是pytest框架所以相对来说是简单的,我们通过pytest框架来实现,而框架中要数据驱动用到我们装饰器就好啦pytest.mark.p…...

BASLER工业相机维修不能触发拍照如何处理解决这个问题

BASLER工业相机维修不能触发拍照如何处理解决这个问题?最近遇到挺多工业相机维修咨询这个不能触发拍照的案例,所以今天优米佳维修的技术就抽空整理了这篇关于BASLER相机不能触发拍照的处理方法分享给大家。 当碰到巴斯勒工业相机不能触发拍照的问题&…...

Could not locate device support files.

报错信息:Failure Reason: The device may be running a version of iOS (13.6.1 17G80) that is not supported by this version of Xcode.[missing string: 869a8e318f07f3e2f42e11d435502286094f76de] 问题:xcode15升级到xcode16之后,13.…...

linux系统中常用文件日常使用命令记录

我们办公机是Ubuntu系统; 记录下工作中经常使用的几个文件或命令或一些零碎的知识点: (该文档会持续更新) 查看系统信息: uname -a cat /etc/product-info cat /etc/os-version 存放系统启停脚本 /etc/init.d/ 存放源…...

全平台网盘直链下载解决方案:LinkSwift技术深度解析与实战指南

全平台网盘直链下载解决方案:LinkSwift技术深度解析与实战指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘…...

STM32H745双核调试血泪史:一个焊错的电感,如何让我一周无法复位和下载程序

STM32H745双核调试血泪史:一个焊错的电感引发的系统级灾难 当示波器上那个诡异的1.2V纹波终于找到根源时,我的手指还残留着烙铁烫出的水泡。这是一场持续168小时的硬件侦探游戏——STM32H745双核芯片在开发板上正常运行,却拒绝任何形式的复位…...

Trilium笔记集成AI助手:纯前端插件实现ChatGPT与Ollama本地化部署

1. 项目概述:在笔记软件里塞进一个AI助手 如果你和我一样,是个重度笔记软件用户,尤其是Trilium的爱好者,那你肯定有过这样的体验:正在整理笔记、构思文章,突然需要一个AI助手来帮忙润色、翻译或者解答一个…...

团队AI协作标准化:基于Claude API的配置即代码实践

1. 项目概述与核心价值最近在折腾团队协作和项目管理工具时,发现了一个挺有意思的GitHub仓库:ivanhoinacki/team-exp-claude-config。乍一看这个标题,可能有点摸不着头脑,但如果你正在用Claude AI来辅助团队工作,或者想…...

别再手动复制项目了!用Visual Studio 2022项目模板,5分钟搞定你的Prism/WPF开发脚手架

别再手动复制项目了!用Visual Studio 2022项目模板,5分钟搞定你的Prism/WPF开发脚手架 每次启动新项目时,你是否也厌倦了重复搭建Prism框架、配置WPF界面、引用基础库的机械操作?一位资深开发者曾告诉我:"高效不是…...

Windows右键菜单管理终极指南:5分钟掌握系统级菜单定制

Windows右键菜单管理终极指南:5分钟掌握系统级菜单定制 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否厌倦了Windows右键菜单的混乱不堪&…...

如何高效解决黑苹果网络驱动难题:完整实战指南与工具详解

如何高效解决黑苹果网络驱动难题:完整实战指南与工具详解 【免费下载链接】Hackintosh Hackintosh long-term maintenance model EFI and installation tutorial 项目地址: https://gitcode.com/gh_mirrors/ha/Hackintosh 您是否在配置黑苹果系统时遇到过Wi-…...

魔兽争霸III兼容性终极解决方案:WarcraftHelper让你的经典游戏重获新生

魔兽争霸III兼容性终极解决方案:WarcraftHelper让你的经典游戏重获新生 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为《魔兽争霸I…...

把高通410随身WiFi变成短信转发服务器:Debian12刷机与DbusSmsForward部署全记录

高通410随身WiFi改造指南:Debian12刷机与短信转发服务部署实战 随身WiFi设备通常被当作简单的移动热点使用,但很少有人意识到这些搭载高通410芯片的小玩意儿其实是一台完整的Linux计算机。本文将带你深入探索如何将闲置的高通410随身WiFi设备改造成一台…...

不止是Move命令:用Python脚本给你的Windows文件管理加上‘智能过滤’开关

用Python打造智能文件管家:超越基础Move命令的高级筛选方案 每次整理电脑文件时,你是否厌倦了重复的拖拽操作?当需要移动包含"报告"但不含"草稿"的Word文档,或者上周修改过的所有图片时,基础的mov…...