ML 系列:第 32节 — 机器学习中的统计简介
文章目录
- 一、说明
- 二、统计概述
- 三、描述性统计与推断性统计
- 3.1 描述统计学
- 3.2 推论统计
- 四、描述性统计中的均值、中位数和众数
一、说明
机器学习中的统计
随着我们深入研究机器学习领域,了解统计学在该领域的作用至关重要。统计学是机器学习的支柱,它提供了理解数据和获得有意义见解的工具和方法。在这篇文章中,我们将探讨统计的定义、它在机器学习中的重要性,以及描述性统计和推理统计之间的区别。
二、统计概述
统计学是数学的一个分支,涉及数据的收集、分析、解释、表示和组织。它提供了一个基于数据做出决策和预测的框架。在机器学习的背景下,统计学可以帮助我们理解我们正在处理的数据,准确地对其进行建模,并得出可靠的结论。
机器学习中的定义和重要性
统计学可以定义为从数据中学习的科学。它涉及设计实验和调查、收集数据、总结信息和进行推理的方法。在机器学习中,统计数据至关重要,因为:
-
数据理解:在构建任何机器学习模型之前,了解数据很重要。统计技术有助于汇总和可视化数据,揭示模式、异常和关系。
-
模型构建:统计模型构成了许多机器学习算法的基础。回归、分类和聚类等技术都源于统计方法。
-
模型评估:Statistics 提供指标和测试来评估机器学习模型的性能。这可确保模型可靠且预测准确。
-
推理和预测:通过统计推理,我们可以根据样本数据对总体进行预测。这在机器学习中进行预测或识别趋势时特别有用。
三、描述性统计与推断性统计
统计学大致可分为两种类型:描述性统计和推论统计。两者都在数据分析过程中发挥着重要作用,但它们的用途不同。
3.1 描述统计学
描述性统计总结并描述数据集的主要特征。它们提供有关样本和度量的简单摘要。这些摘要可以是图形或数字。以下是一些关键概念:
- 集中趋势的测量:这些值包括平均值 (平均值)、中位数 (中间值) 和众数 (最频繁的值),它们有助于识别数据集的中心。
- 离差度量: 这些指标包括范围(最大值和最小值之间的差值)、方差和标准差,它们表示数据中的散布或可变性。
- 数据可视化:直方图、箱形图和散点图等图形表示有助于可视化数据并识别模式或异常值。
描述性统计提供了一种以合理的方式简化大量数据的方法。每个描述性统计数据都将大量数据简化为更简单的摘要。
3.2 推论统计
描述性统计旨在总结手头的数据,而推论统计用于从数据样本中对更大的总体进行预测或推断。这包括:
- 采样:从总体中选择一个代表性群体,以得出有关整个总体的结论。
- 假设检验:对总体提出主张或断言,并通过数据分析检验这些主张。
- 置信区间: 提供可能包含相关群体参数的值范围。
- 回归分析:了解变量之间的关系并进行预测。
推论统计使我们能够对总体做出概率陈述,并了解与我们的结论相关的不确定性。
四、描述性统计中的均值、中位数和众数
在分析数据时,了解其中心趋势至关重要。集中趋势的度量提供表示数据集的中心点或典型值的单个值。三种最常见的度量是均值、中位数和众数。每个 Cookie 都提供了独特的见解,并在不同的上下文中非常有用。让我们深入研究这些度量中的每一个。
意味 着
平均值(通常称为平均值)是数据集中所有值的总和除以值的数量。它是一个度量值,它提供表示数据分布中心点的单个值。
均值公式:
这里:
xi 表示数据集中的每个值。
n 是数据集中值的数目。
示例:
考虑数据集:5、10、15、20、25
平均值 = (5 + 10 + 15 + 20 + 25) / 5 = 75/5 = 15
Python 代码:
import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the mean
mean = np.mean(data)print("Mean:", mean)
# Mean: 15.0
优点:
- 易于计算和理解。
- 使用所有数据点,提供全面的度量。
缺点:
- 对异常值敏感,异常值会显着扭曲平均值。
中位数
中位数是数据集的中间值,当值按升序或降序排列时。如果观测值数为偶数,则中位数是两个中间数字的平均值。
查找中位数的步骤:
1。按升序排列数据。
2. 确定中间值。
示例:
考虑数据集:5、10、15、20、25。
- 按升序排列(已完成): 5, 10, 15, 20, 25
2.中间值(中位数)为 15。
python 中的代码:import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the median
median = np.median(data)print("Median:", median)
# Median: 15.0
注意: 对于偶数个观测值,请考虑数据集:5、10、15、20。
- 按升序排列: 5, 10, 15, 20
2.中间值为 10 和 15。 - 中位数 = (10 + 15) / 2 = 12.5
优点:
- 不受异常值的影响,使其成为集中趋势的稳健衡量标准。
- 在偏态分布中更准确地反映数据集的中心。
缺点:
- 没有利用所有数据点,可能会忽略有价值的信息。
模式
mode 是数据集中出现频率最高的值。数据集可能具有一种模式、多个模式,或者如果没有数字重复,则根本没有模式。
示例:
考虑数据集:5、10、15、20、20、25
- 模式为 20,因为它出现得最频繁。
python 中的代码:
import numpy as np
from scipy import statsdata = np.array([5, 10, 15, 20, 25])# Calculate the mode
mode = stats.mode(data)print("Mode:", mode.mode)
# Mode: 5
优点:
- 易于识别。
- 对于我们希望了解最常见类别的分类数据很有用。
缺点:
- 可能不是唯一的;多种模式会使解释复杂化。
- 并不总是代表数据集,尤其是连续数据。
选择正确的度量
- 平均值:非常适合没有异常值的对称分布。
- 中位数:最适合偏态分布或具有异常值的数据。
- 模式: 对于分类数据以及识别数据集中最常见的值非常有用。
了解这些集中趋势的度量对于任何数据分析都至关重要,为更高级的统计技术和数据驱动的决策奠定了基础。通过选择合适的度量,您可以更好地解释数据并提取有意义的见解。
在我们的机器学习之旅中,我们在第 33 期中探讨了集中趋势的测量。
相关文章:
ML 系列:第 32节 — 机器学习中的统计简介
文章目录 一、说明二、统计概述三、描述性统计与推断性统计3.1 描述统计学3.2 推论统计 四、描述性统计中的均值、中位数和众数 一、说明 机器学习中的统计 随着我们深入研究机器学习领域,了解统计学在该领域的作用至关重要。统计学是机器学习的支柱,它…...
CatVton升级版?CatVton-Flux:AI虚拟试衣方案新选择。
之前的文章中已经和大家介绍过虚拟试衣方案CatVton,感兴趣的小伙伴可以点击下面链接阅读~ 中山大学与Pixocial联手提出CatVTON:轻量化架构与高效训练,助力虚拟试衣技术落地应用! 今天给大家介绍的是CatVton-FLUX,它是…...
JavaEE---计算机是如何工作的?
1.了解冯诺依曼体系结构 2.CPU的核心概念,CPU的两个重要指标(核心数和频率) 3.CPU执行指令的流程(指令表,一条一条指令,取指令,解析指令,执行指令) 4.操作系统核心概念(管理硬件,给软件提供稳定的运行环境) 5.进程的概念(运行起来的程序和可执行文件的区别) 6.进程的管理(…...
十、Spring Boot集成Spring Security之HTTP请求授权
文章目录 往期回顾:Spring Boot集成Spring Security专栏及各章节快捷入口前言一、HTTP请求授权工作原理二、HTTP请求授权配置1、添加用户权限2、配置ExceptionTranslationFilter自定义异常处理器3、HTTP请求授权配置 三、测试接口1、测试类2、测试 四、总结 往期回顾…...
C#基础控制台程序
11.有一个54的矩阵,要求编程序求出其中值最大的那个元素的值,以及其所在的行号和列号。 12.从键盘输入一行字符,统计其中有多少个单词,单词之间用空格分隔开。 13.输入一个数,判断它是奇数还是偶数,如果…...
【网络安全】CSRF
一、什么是CSRF CSRF(Cross-Site Request Forgery)是一种web应用程序安全漏洞,它利用了用户在已登录的状态下的信任,通过欺骗用户发送未经授权的请求来执行恶意操作。这种攻击的危害性取决于受害者在目标网站上的权限。 二、CSR…...
网络原理(一)—— http
什么是 http http 是一个应用层协议,全称为“超文本传输协议”。 http 自 1991 年诞生,目前已经发展为最主流使用的一种应用层协议。 HTTP 往往基于传输层的 TCP 协议实现的,例如 http1.0,http1.0,http2.0 http3 是…...
【实体配置】.NET开源 ORM 框架 SqlSugar 系列
.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列 …...
【Zookeeper】四,Zookeeper节点类型、通知、仲裁、会话
文章目录 Zookeeper的架构znode的版本Zookeeper的节点类型层级树状结构znode的不同类型 Zookeeper监视与通知通知的类型 Zookeeper的仲裁Zk的会话会话的生命周期 Zookeeper的架构 Zookeeper的服务器端运行两种模式:独立模式(standalone)和仲…...
【二分查找】力扣 34. 在排序数组中查找元素的第一个和最后一个位置
一、题目 二、思路 将题目转化为求解 target 和 target 1 的查找。分别采用最基础的二分查找即可。 三、题解 class Solution {public int[] searchRange(int[] nums, int target) {int n nums.length;int start lowerBound(nums, target);if (start n || nums[start] !…...
以达梦为数据库底座时部署的微服务页面报乱码,调整兼容模式
1.问题描述 部署微服务,文件、代码是延用的mysql类型的,部署前做了部分适配,但是在使用dm数据库进行安装的服务在页面上查询出的数据却都是乱码 2.查询官网,注意到一个参数COMPATIBLE_MODE兼容模式的配置 考虑是延用mysql&…...
Java设计模式 —— 【创建型模式】工厂模式(简单工厂、工厂方法模式、抽象工厂)详解
文章目录 前言一、简单工厂(静态工厂)1、概述2、代码实现3、优缺点 二、工厂方法模式1、概述2、代码实现3、优缺点 三、抽象工厂模式1、概述2、代码实现3、优缺点 四、总结 前言 先看个案例:【手机和手机店】在没有工厂的时候,手…...
KST-3D01型胎儿超声仿真体模、吸声材料以及超声骨密度仪用定量试件介绍
一、KST-3D01型胎儿超声仿真体模 KST—3D01型胎儿超声体模,采用仿羊水环境中内置胎龄为7个月大仿胎儿设计。用于超声影像系统3D扫描演示装置表面轮廓呈现和3D重建。仿羊水超声影像呈暗回声(无回波)特性,仿胎儿超声影像呈对比明显…...
网络原理->DNS协议和NAT协议解
前言 大家好我是小帅,今天我们来了解应用层的DNS协议和NAT技术 个人主页:再无B~U~G 文章目录 1.重要应⽤层协议DNS(Domain Name System)1.1 DNS背景 2. NAT技术3. 总结 1.重要应⽤层协议DNS(Domain Name System) DNS是⼀整套从域…...
基于yolov8、yolov5的100种中药材检测识别系统(含UI界面、训练好的模型、Python代码、数据集)
项目介绍 项目中所用到的算法模型和数据集等信息如下: 算法模型: yolov8、yolov8 SE注意力机制 或 yolov5、yolov5 SE注意力机制 , 直接提供最少两个训练好的模型。模型十分重要,因为有些同学的电脑没有 GPU࿰…...
RuoYi排序
RuoYi框架提供了多种实现排序的方法,以满足不同场景下的需求。这里简要介绍几种常见的排序实现方式: 1. 后端排序 1.1 使用startPagePlus方法 RuoYi框架中,可以通过对BaseController进行扩展来实现更灵活的分页与排序功能。例如࿰…...
Python+Pytest+Yaml+Allure数据参数化(DDT)数据驱动(一)
我们在做数据之前要知道几个问题 1、在代码层面怎么来数据驱动 2、yaml文件是什么 3、怎么用yaml文件实现对应的数据驱动 我们用的是pytest框架所以相对来说是简单的,我们通过pytest框架来实现,而框架中要数据驱动用到我们装饰器就好啦pytest.mark.p…...
BASLER工业相机维修不能触发拍照如何处理解决这个问题
BASLER工业相机维修不能触发拍照如何处理解决这个问题?最近遇到挺多工业相机维修咨询这个不能触发拍照的案例,所以今天优米佳维修的技术就抽空整理了这篇关于BASLER相机不能触发拍照的处理方法分享给大家。 当碰到巴斯勒工业相机不能触发拍照的问题&…...
Could not locate device support files.
报错信息:Failure Reason: The device may be running a version of iOS (13.6.1 17G80) that is not supported by this version of Xcode.[missing string: 869a8e318f07f3e2f42e11d435502286094f76de] 问题:xcode15升级到xcode16之后,13.…...
linux系统中常用文件日常使用命令记录
我们办公机是Ubuntu系统; 记录下工作中经常使用的几个文件或命令或一些零碎的知识点: (该文档会持续更新) 查看系统信息: uname -a cat /etc/product-info cat /etc/os-version 存放系统启停脚本 /etc/init.d/ 存放源…...
【C++打怪之路Lv16】-- map set
🌈 个人主页:白子寰 🔥 分类专栏:重生之我在学Linux,C打怪之路,python从入门到精通,数据结构,C语言,C语言题集👈 希望得到您的订阅和支持~ 💡 坚持…...
TPU-MLIR 项目源码结构分析
TPU-MLIR 项目源码结构分析 本文用作学习记录和交流分享,主要内容为 TPU-MLIR 的源码框架分析和构建流程分析。源码地址:https://github.com/sophgo/tpu-mlir 文件结构 从最外层开始分析 envsetup.sh 该脚本用于配置和初始化开发环境,其中…...
IDEA Maven 打包找不到程序包错误或找不到符号,报错“程序包不存在“
参考文章:https://blog.csdn.net/yueeryuanyi/article/details/14211090 问题:IDEA Maven 打包找不到程序包错误或找不到符号,报错“程序包不存在“编译都没问题 解决思路 – >【清除缓存】 1. 强制刷新Maven缓存 选择 Maven 标签,Exe…...
Sourcetree:一款强大的Git客户端
Sourcetree:一款强大的Git客户端 Sourcetree是一款由Atlassian开发的免费Git客户端,它提供了一个直观的图形界面,让用户能够轻松地管理他们的版本控制系统。无论是初学者还是有经验的开发者,Sourcetree都能提供方便快捷的Git操作…...
Linux环境变量与本地变量
文章目录 Linux环境变量与本地变量什么是环境变量查看环境变量设置环境变量本地变量命令行参数 Linux环境变量与本地变量 什么是环境变量 操作系统或运行时环境中存储的一些变量,用来存储与进程或系统相关的配置信息。这些变量在进程启动时由操作系统或Shell读取&…...
ChatGPT的应用场景:开启无限可能的大门
ChatGPT的应用场景:开启无限可能的大门 随着人工智能技术的快速发展,自然语言处理领域迎来了前所未有的突破。其中,ChatGPT作为一款基于Transformer架构的语言模型,凭借其强大的语言理解和生成能力,在多个行业和场景中展现出了广泛的应用潜力。以下是ChatGPT八个最具代表…...
QT按下两次按钮,保存这期间内变换的QtextEdit控件内的数据
这个功能在项目中很常见,对界面里某个控件的数据进行记录,我这个是每秒记录5次,实际就是每200ms触发一次定时器,来满足需求。 .h文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QtSerialPort> …...
daos源码编译
1. 前言 本文详细介绍如何在almalinux8.9上编译daos.2.0.0源码。系统环境如下: daos: 2.0.0 linux os: almalinux 8.9 linux kernel: 4.18.0-513.5.1.el8_9.x86_64之所以选择2.0.0版本,是因为daos从2.0.0开始是一个全新的架构设计&a…...
HTML飞舞的爱心
目录 系列文章 写在前面 完整代码 代码分析 写在后面 系列文章 序号目录1HTML满屏跳动的爱心(可写字)2HTML五彩缤纷的爱心3HTML满屏漂浮爱心4HTML情人节快乐5HTML蓝色爱心射线6HTML跳动的爱心(简易版)7HTML粒子爱心8HTML蓝色…...
C++中智能指针的使用及其原理 -- RAII,内存泄漏,shared_ptr,unique_ptr,weak_ptr
目录 1.智能指针的使用场景分析 2.RAII和智能指针的设计思路 3.C标准库智能指针的使用 4.智能指针的原理以及模拟实现 5.shared_ptr循环引用问题和weak_ptr 5.1shared_ptr循环引用问题 5.2weak_ptr的原理和部分接口 5.3weak_ptr的简单模拟实现 6. shared_ptr的线程安…...
笔记本怎么做1920宽的网站/百度收录查询接口
Part1:写在最前 在MysQL5.6版本中,可以把undo log 回滚日志分离到一个单独的表空间里;其缺点是不能回收空间大小,until MysQL5.7,but MariadDB10.1暂不支持。 本文介绍并演示MysQL5.7是如何在线收缩undo log的。 undo log日志是保…...
sem竞价推广/上海百度首页优化
今天财务MM过来找哥,说平安的网银登录不了,求解决。打开平安网银登录界面,密码输入框提示需要下载控件。二话不说,下载安装,重启浏览器,发现控件提示还是傲娇的存在着。一琢磨,下载一个网银助手…...
济南百姓网免费发布信息网/惠州seo建站
2019独角兽企业重金招聘Python工程师标准>>> 公司的boss项目,我已经在上面搭建了一个quartz,通过查询数据库的定时任务。目前是能满足需求,但是随着功能的增多,这个会慢慢满足不了需求,虽然可以通过集群的方…...
做搬家网站的素材/谷歌浏览器网页版进入
一、关于Chronometer 在Android的SDK中,为我们提供了一个计时器,这个计时器称为Chronometer。其拥有以下方法: 1、getBase():返回时间; 2、setBase(long base):设置计时器的起始时间; 3、start…...
网站建设信息推荐/广告优化师适合女生吗
tail 默认显示后十行tail -n 2 /etc/passwd 显示最后两行tail -c 3 /etc/passwd 显示最后三个符tail -f /var/log/messages 监视一个不断增长,不断变化的文件.转载于:https://blog.51cto.com/sngyqd/394232...
哪里可以做网站平台/seo研究中心vip教程
摘要:这篇文章主要介绍了php使用strip_tags()去除html标签仍有空白的解决方法,涉及php正则替换的相关操作技巧,需要的朋友可以参考下这篇文章主要介绍了php使用strip_tags()去除html标签仍有空白的解决方法,涉及php正则替换的相关操作技巧,需要的朋友可以参考下本文…...