当前位置: 首页 > news >正文

ML 系列:第 32节 — 机器学习中的统计简介

文章目录

  • 一、说明
  • 二、统计概述
  • 三、描述性统计与推断性统计
    • 3.1 描述统计学
    • 3.2 推论统计
  • 四、描述性统计中的均值、中位数和众数

一、说明

机器学习中的统计
随着我们深入研究机器学习领域,了解统计学在该领域的作用至关重要。统计学是机器学习的支柱,它提供了理解数据和获得有意义见解的工具和方法。在这篇文章中,我们将探讨统计的定义、它在机器学习中的重要性,以及描述性统计和推理统计之间的区别。

二、统计概述

统计学是数学的一个分支,涉及数据的收集、分析、解释、表示和组织。它提供了一个基于数据做出决策和预测的框架。在机器学习的背景下,统计学可以帮助我们理解我们正在处理的数据,准确地对其进行建模,并得出可靠的结论。

机器学习中的定义和重要性
统计学可以定义为从数据中学习的科学。它涉及设计实验和调查、收集数据、总结信息和进行推理的方法。在机器学习中,统计数据至关重要,因为:

  1. 数据理解:在构建任何机器学习模型之前,了解数据很重要。统计技术有助于汇总和可视化数据,揭示模式、异常和关系。

  2. 模型构建:统计模型构成了许多机器学习算法的基础。回归、分类和聚类等技术都源于统计方法。

  3. 模型评估:Statistics 提供指标和测试来评估机器学习模型的性能。这可确保模型可靠且预测准确。

  4. 推理和预测:通过统计推理,我们可以根据样本数据对总体进行预测。这在机器学习中进行预测或识别趋势时特别有用。

三、描述性统计与推断性统计

统计学大致可分为两种类型:描述性统计和推论统计。两者都在数据分析过程中发挥着重要作用,但它们的用途不同。

3.1 描述统计学

描述性统计总结并描述数据集的主要特征。它们提供有关样本和度量的简单摘要。这些摘要可以是图形或数字。以下是一些关键概念:

  • 集中趋势的测量:这些值包括平均值 (平均值)、中位数 (中间值) 和众数 (最频繁的值),它们有助于识别数据集的中心。
  • 离差度量: 这些指标包括范围(最大值和最小值之间的差值)、方差和标准差,它们表示数据中的散布或可变性。
  • 数据可视化:直方图、箱形图和散点图等图形表示有助于可视化数据并识别模式或异常值。

描述性统计提供了一种以合理的方式简化大量数据的方法。每个描述性统计数据都将大量数据简化为更简单的摘要。

3.2 推论统计

描述性统计旨在总结手头的数据,而推论统计用于从数据样本中对更大的总体进行预测或推断。这包括:

  • 采样:从总体中选择一个代表性群体,以得出有关整个总体的结论。
  • 假设检验:对总体提出主张或断言,并通过数据分析检验这些主张。
  • 置信区间: 提供可能包含相关群体参数的值范围。
  • 回归分析:了解变量之间的关系并进行预测。

推论统计使我们能够对总体做出概率陈述,并了解与我们的结论相关的不确定性。

四、描述性统计中的均值、中位数和众数

在分析数据时,了解其中心趋势至关重要。集中趋势的度量提供表示数据集的中心点或典型值的单个值。三种最常见的度量是均值、中位数和众数。每个 Cookie 都提供了独特的见解,并在不同的上下文中非常有用。让我们深入研究这些度量中的每一个。

意味 着
平均值(通常称为平均值)是数据集中所有值的总和除以值的数量。它是一个度量值,它提供表示数据分布中心点的单个值。

均值公式:
在这里插入图片描述

这里:

xi 表示数据集中的每个值。
n 是数据集中值的数目。
示例:
考虑数据集:5、10、15、20、25

平均值 = (5 + 10 + 15 + 20 + 25) / 5 = 75/5 = 15

Python 代码:

import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the mean
mean = np.mean(data)print("Mean:", mean)
# Mean: 15.0

优点:

  • 易于计算和理解。
  • 使用所有数据点,提供全面的度量。

缺点:

  • 对异常值敏感,异常值会显着扭曲平均值。

中位数
中位数是数据集的中间值,当值按升序或降序排列时。如果观测值数为偶数,则中位数是两个中间数字的平均值。

查找中位数的步骤:
1。按升序排列数据。
2. 确定中间值。

示例:
考虑数据集:5、10、15、20、25。

  1. 按升序排列(已完成): 5, 10, 15, 20, 25
    2.中间值(中位数)为 15。
python 中的代码:import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the median
median = np.median(data)print("Median:", median)
# Median: 15.0

注意: 对于偶数个观测值,请考虑数据集:5、10、15、20。

  1. 按升序排列: 5, 10, 15, 20
    2.中间值为 10 和 15。
  2. 中位数 = (10 + 15) / 2 = 12.5

优点:

  • 不受异常值的影响,使其成为集中趋势的稳健衡量标准。
  • 在偏态分布中更准确地反映数据集的中心。

缺点:

  • 没有利用所有数据点,可能会忽略有价值的信息。

模式
mode 是数据集中出现频率最高的值。数据集可能具有一种模式、多个模式,或者如果没有数字重复,则根本没有模式。

示例:
考虑数据集:5、10、15、20、20、25

  • 模式为 20,因为它出现得最频繁。

python 中的代码:

import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the mode
mode = stats.mode(data)print("Mode:", mode.mode)
# Mode: 5

优点:

  • 易于识别。
  • 对于我们希望了解最常见类别的分类数据很有用。

缺点:

  • 可能不是唯一的;多种模式会使解释复杂化。
  • 并不总是代表数据集,尤其是连续数据。

选择正确的度量

  • 平均值:非常适合没有异常值的对称分布。
  • 中位数:最适合偏态分布或具有异常值的数据。
  • 模式: 对于分类数据以及识别数据集中最常见的值非常有用。

了解这些集中趋势的度量对于任何数据分析都至关重要,为更高级的统计技术和数据驱动的决策奠定了基础。通过选择合适的度量,您可以更好地解释数据并提取有意义的见解。

在我们的机器学习之旅中,我们在第 33 期中探讨了集中趋势的测量。

相关文章:

ML 系列:第 32节 — 机器学习中的统计简介

文章目录 一、说明二、统计概述三、描述性统计与推断性统计3.1 描述统计学3.2 推论统计 四、描述性统计中的均值、中位数和众数 一、说明 机器学习中的统计 随着我们深入研究机器学习领域,了解统计学在该领域的作用至关重要。统计学是机器学习的支柱,它…...

CatVton升级版?CatVton-Flux:AI虚拟试衣方案新选择。

之前的文章中已经和大家介绍过虚拟试衣方案CatVton,感兴趣的小伙伴可以点击下面链接阅读~ 中山大学与Pixocial联手提出CatVTON:轻量化架构与高效训练,助力虚拟试衣技术落地应用! 今天给大家介绍的是CatVton-FLUX,它是…...

JavaEE---计算机是如何工作的?

1.了解冯诺依曼体系结构 2.CPU的核心概念,CPU的两个重要指标(核心数和频率) 3.CPU执行指令的流程(指令表,一条一条指令,取指令,解析指令,执行指令) 4.操作系统核心概念(管理硬件,给软件提供稳定的运行环境) 5.进程的概念(运行起来的程序和可执行文件的区别) 6.进程的管理(…...

十、Spring Boot集成Spring Security之HTTP请求授权

文章目录 往期回顾:Spring Boot集成Spring Security专栏及各章节快捷入口前言一、HTTP请求授权工作原理二、HTTP请求授权配置1、添加用户权限2、配置ExceptionTranslationFilter自定义异常处理器3、HTTP请求授权配置 三、测试接口1、测试类2、测试 四、总结 往期回顾…...

C#基础控制台程序

11.有一个54的矩阵,要求编程序求出其中值最大的那个元素的值,以及其所在的行号和列号。 12.从键盘输入一行字符,统计其中有多少个单词,单词之间用空格分隔开。 13.输入一个数,判断它是奇数还是偶数,如果…...

【网络安全】CSRF

一、什么是CSRF CSRF(Cross-Site Request Forgery)是一种web应用程序安全漏洞,它利用了用户在已登录的状态下的信任,通过欺骗用户发送未经授权的请求来执行恶意操作。这种攻击的危害性取决于受害者在目标网站上的权限。 二、CSR…...

网络原理(一)—— http

什么是 http http 是一个应用层协议,全称为“超文本传输协议”。 http 自 1991 年诞生,目前已经发展为最主流使用的一种应用层协议。 HTTP 往往基于传输层的 TCP 协议实现的,例如 http1.0,http1.0,http2.0 http3 是…...

【实体配置】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列 &#x1f…...

【Zookeeper】四,Zookeeper节点类型、通知、仲裁、会话

文章目录 Zookeeper的架构znode的版本Zookeeper的节点类型层级树状结构znode的不同类型 Zookeeper监视与通知通知的类型 Zookeeper的仲裁Zk的会话会话的生命周期 Zookeeper的架构 Zookeeper的服务器端运行两种模式:独立模式(standalone)和仲…...

【二分查找】力扣 34. 在排序数组中查找元素的第一个和最后一个位置

一、题目 二、思路 将题目转化为求解 target 和 target 1 的查找。分别采用最基础的二分查找即可。 三、题解 class Solution {public int[] searchRange(int[] nums, int target) {int n nums.length;int start lowerBound(nums, target);if (start n || nums[start] !…...

以达梦为数据库底座时部署的微服务页面报乱码,调整兼容模式

1.问题描述 部署微服务,文件、代码是延用的mysql类型的,部署前做了部分适配,但是在使用dm数据库进行安装的服务在页面上查询出的数据却都是乱码 2.查询官网,注意到一个参数COMPATIBLE_MODE兼容模式的配置 考虑是延用mysql&…...

Java设计模式 —— 【创建型模式】工厂模式(简单工厂、工厂方法模式、抽象工厂)详解

文章目录 前言一、简单工厂(静态工厂)1、概述2、代码实现3、优缺点 二、工厂方法模式1、概述2、代码实现3、优缺点 三、抽象工厂模式1、概述2、代码实现3、优缺点 四、总结 前言 先看个案例:【手机和手机店】在没有工厂的时候,手…...

KST-3D01型胎儿超声仿真体模、吸声材料以及超声骨密度仪用定量试件介绍

一、KST-3D01型胎儿超声仿真体模 KST—3D01型胎儿超声体模,采用仿羊水环境中内置胎龄为7个月大仿胎儿设计。用于超声影像系统3D扫描演示装置表面轮廓呈现和3D重建。仿羊水超声影像呈暗回声(无回波)特性,仿胎儿超声影像呈对比明显…...

网络原理->DNS协议和NAT协议解

前言 大家好我是小帅,今天我们来了解应用层的DNS协议和NAT技术 个人主页:再无B~U~G 文章目录 1.重要应⽤层协议DNS(Domain Name System)1.1 DNS背景 2. NAT技术3. 总结 1.重要应⽤层协议DNS(Domain Name System) DNS是⼀整套从域…...

基于yolov8、yolov5的100种中药材检测识别系统(含UI界面、训练好的模型、Python代码、数据集)

项目介绍 项目中所用到的算法模型和数据集等信息如下: 算法模型:     yolov8、yolov8 SE注意力机制 或 yolov5、yolov5 SE注意力机制 , 直接提供最少两个训练好的模型。模型十分重要,因为有些同学的电脑没有 GPU&#xff0…...

RuoYi排序

RuoYi框架提供了多种实现排序的方法,以满足不同场景下的需求。这里简要介绍几种常见的排序实现方式: 1. 后端排序 1.1 使用startPagePlus方法 RuoYi框架中,可以通过对BaseController进行扩展来实现更灵活的分页与排序功能。例如&#xff0…...

Python+Pytest+Yaml+Allure数据参数化(DDT)数据驱动(一)

我们在做数据之前要知道几个问题 1、在代码层面怎么来数据驱动 2、yaml文件是什么 3、怎么用yaml文件实现对应的数据驱动 我们用的是pytest框架所以相对来说是简单的,我们通过pytest框架来实现,而框架中要数据驱动用到我们装饰器就好啦pytest.mark.p…...

BASLER工业相机维修不能触发拍照如何处理解决这个问题

BASLER工业相机维修不能触发拍照如何处理解决这个问题?最近遇到挺多工业相机维修咨询这个不能触发拍照的案例,所以今天优米佳维修的技术就抽空整理了这篇关于BASLER相机不能触发拍照的处理方法分享给大家。 当碰到巴斯勒工业相机不能触发拍照的问题&…...

Could not locate device support files.

报错信息:Failure Reason: The device may be running a version of iOS (13.6.1 17G80) that is not supported by this version of Xcode.[missing string: 869a8e318f07f3e2f42e11d435502286094f76de] 问题:xcode15升级到xcode16之后,13.…...

linux系统中常用文件日常使用命令记录

我们办公机是Ubuntu系统; 记录下工作中经常使用的几个文件或命令或一些零碎的知识点: (该文档会持续更新) 查看系统信息: uname -a cat /etc/product-info cat /etc/os-version 存放系统启停脚本 /etc/init.d/ 存放源…...

8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂(如抗体、抑制肽)在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上,高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术,但这类方法普遍面临资源消耗巨大、研发周期冗长…...

iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版​分享

平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

2024年赣州旅游投资集团社会招聘笔试真

2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块&#xff0c;用户不点击提交按钮&#xff0c;只要输入框失去焦点&#xff0c;就会提前提示验证码是否正确。 一&#xff0c;模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

MODBUS TCP转CANopen 技术赋能高效协同作业

在现代工业自动化领域&#xff0c;MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步&#xff0c;这两种通讯协议也正在被逐步融合&#xff0c;形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...

python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)

更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

在Ubuntu中设置开机自动运行(sudo)指令的指南

在Ubuntu系统中&#xff0c;有时需要在系统启动时自动执行某些命令&#xff0c;特别是需要 sudo权限的指令。为了实现这一功能&#xff0c;可以使用多种方法&#xff0c;包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法&#xff0c;并提供…...

Java面试专项一-准备篇

一、企业简历筛选规则 一般企业的简历筛选流程&#xff1a;首先由HR先筛选一部分简历后&#xff0c;在将简历给到对应的项目负责人后再进行下一步的操作。 HR如何筛选简历 例如&#xff1a;Boss直聘&#xff08;招聘方平台&#xff09; 直接按照条件进行筛选 例如&#xff1a…...

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中&#xff0c;从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备&#xff08;如专用硬件设备&#xff09;&#xff0c;从而消除了直接物理连接的需要。USB over IP的…...

10-Oracle 23 ai Vector Search 概述和参数

一、Oracle AI Vector Search 概述 企业和个人都在尝试各种AI&#xff0c;使用客户端或是内部自己搭建集成大模型的终端&#xff0c;加速与大型语言模型&#xff08;LLM&#xff09;的结合&#xff0c;同时使用检索增强生成&#xff08;Retrieval Augmented Generation &#…...