当前位置: 首页 > news >正文

【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法

目录

参考书,学习书

0 统计学知识大致脉络

1 个体---抽样---整体

1.1 关于个体---抽样---整体,这个三段式关系

1.2 要明白,自然界的整体/母体是不可能被全部认识的

1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的

1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识

1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。

1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的

2 数据的来源

2.1 数据的来源

2.2 数据的层级

2.3 样本是什么sample? 

3  如何获得样本数据? 

3.1 随机抽样不是随意调查

3.2 等距抽样

3.3 分层抽样

3.4 群抽样

3.5 混合多阶段抽样


参考书,学习书

  • 日本,图解统计学,今野纪雄
  • 日本,新手小白学统计,本丸谅
  • 《从零开始学统计》 归璐
  • 《戏说统计》李连江

0 统计学知识大致脉络

  • 需要对统计学有个大致脉络
  • 不至于完全陷入到细节里去,时刻清楚自己在地图的哪儿

1 个体---抽样---整体

1.1 关于个体---抽样---整体,这个三段式关系

  • 个体---抽样---整体/母体
  • case---sample---polulation
  • 普通----特殊----整体
  • 这个类黑格尔的三段式逻辑的内涵:
  • 我们想从个别例子认识到整体,总结到一般规律,中间必须要借用1个逻辑步骤:抽样样本。
  • 也就是用1个命题+另外1个命题→得到结论的一种推理方式

黑格尔式三段论逻辑:

人都要吃饭

男人是人

所以男人要吃饭

科学网—“三段论(Syllogism)”简介 - 柳渝的博文

在传统逻辑中,“三段论(Syllogism)”指从两个命题(“大前提”和“小前提”)推导出“结论”的一种推理形式,是数学证明、科学研究及日常沟通交流中常用的一种推理

在希腊语中,syllogism由syn(与)和logos(语言)组成,本意指“(一个命题)与(另一个命题)相连”,引申义指“推理”。亚里士多德在“工具论(Organon)”中第一次将三段论系统化。

例子:

- 所有人都是必死的。(大前提)

- 苏格拉底是人。(小前提)

- 苏格拉底是必死的。(结论)

1.2 要明白,自然界的整体/母体是不可能被全部认识的

1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的

  • 我们自己当然可以自己定义一个我们全知的“整体”
  • 在这个角度,我们就是上帝
  • 但是这个知识“题目”“模型”“思想试验” ,我们可以在我们定义的世界里有上帝视角,这不奇怪。
  • 就和做题 != 解决社会上的真实问题一样,这些整体,一般并不是我们要面对的生活中的自然的/社会上的真正整体。

类比的例子

  • 定距数据里,比如摄氏度,身高,我们也可以进行* /,因为我们预设了一个0点,温度0,身高0。那为什么说定距数据里,进行* /运算没有意义?
  • 是因为别人可以设置 -10度,-20作为温度和身高的起点,这样计算乘除的结果就完全不同了。所以是没有意义的。
  • 只有用绝对0度当0度的华氏温度才有 */的意义。

1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识

大整体/母体的特点

  • 理论都是无穷的,无法穷尽数量的,所以我们不可能认识真正的全部集合里的所有元素!
  • 获得巨大量的数据,成本是很高的。
  • 等等原因

1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。

  • 从柏拉图等观点来看
  • 因为真正的母体/总体我们无法认识,其实这些是概念,不存在于现实世界,只存在于彼岸世界,是所谓的“形而上”
  • 而我们所有的现实生活的一个个集合,都是对这个概念的一个拙劣的投射/模仿(反正就是这个意思吧,我水平就只能描述道这)

1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的

  • 哲学里对立的观点本来就很多
  • 有“形而上”的观点,也有 纯经验的观点,比如经验主义,现象学等等
  • 这个不说了,作为普通人的我把握不住。

我认为

  • 真正的整体也许确实永远不可能被全部认识
  • 整体是部分可知的
  • 或者说,整体的一些现实投射是可知的。
  • 我们的日常经验就是对整体的一些认识,这些就是我们认识的材料。

2 数据的来源

2.1 数据的来源

  • 调查,问卷等
  • 统计

2.2 数据的层级

  • 个体:case ,特殊化
  • 整体/母体:不可知
  1. 进行普查:几乎不可能
  2. 进行全面调查,很难,成本很高
  • 所以我们要通过样本取认识整体,样本是什么?

2.3 样本是什么sample? 

  • 样本是整体的一部分
  • 样本不是整体的随便一部分
  • 样本是整体的微缩/结构相同/类似/缩小版

但是问题来了

  • 我们连整体都不能全知,我们怎么知道样本是否和总体是结构类似的?
  • 我们不能保证(因为我们确实验证不了)
  • 我们最多只能从过程中保证

3  如何获得样本数据? 

  • 我们最多只能从过程中保证,样本类似整体,怎么做?
  • 只能从过程上尽量保证随机:每个个体均等机会被抽中。
  • 取样的原则1:公平
  • 取样的原则2:成本可控时,抽样数量要尽可能多一点

保证总体中每个case有相同的概率被抽取到!

这需要考虑到很多

这些case 在各个属性维度上,都要是相同,平等的概率

比如人口调查,需要让人口从年龄,学历,地域,,,,各个维度都平等的抽到

  • 具体的手段:随机抽样/等距抽样,等等

3.1 随机抽样不是随意调查

  • 抽样调查
  • 正确:比如给每个个体编号,然后取随机抽取这些编号
  • 错误:比如给每个个体编号,挑选编号前100个

3.2 等距抽样

  • 比如给每个个体编号,然后按一定距离比如相距10个抽1个
  • 1,11,21,等等

3.3 分层抽样

  • 如果我们知道数据是分层的
  • 并且,我们可以用一些辅助数据可以区分这些分层
  • 那么我们可以在不同的分层中分别抽取数据

数据分层:(有点像聚类分析,不同的类别)

  • 分层间,数据差异大
  • 分层内,数据差异比较小

3.4 群抽样

  • 从直接抽个体,变成直接抽群
  • 群抽样的特点例子,比如学校学生等天然就是分群的

群抽样和分层抽样差异

  • 群抽样,每个群体之间差异小,群里尽量是差异很大,每个群内部都类整体分布
  • 分层抽样相反,层之间差异大,层内差异小。

3.5 混合多阶段抽样

比较复杂,我没仔细看~~

反正就是利用上面各种抽样的优点

相关文章:

【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法

目录 参考书,学习书 0 统计学知识大致脉络 1 个体---抽样---整体 1.1 关于个体---抽样---整体,这个三段式关系 1.2 要明白,自然界的整体/母体是不可能被全部认识的 1.2.1 不要较真,如果是人为定义的一个整体,是可…...

安全研究 | 不同编程语言中 IP 地址分类的不一致性

作为一名安全研究人员,我分析了不同编程语言中 IP 地址分类 的行为。最近,我注意到一些有趣的不一致性,特别是在循环地址和私有 IP 地址的处理上。在这篇文章中,我将分享我对此问题的观察和见解。 设置 我检查了多种编程语言&am…...

小小的表盘还能玩出这么多花样?华为手表这次细节真的拉满

没想到小小的表盘还能玩出这么多花样?华为这次细节真的拉满!还有没有你不知道的神奇玩法? 情绪萌宠,心情状态抬腕可见 好心情就像生活馈赠的糖果,好的心情让我们遇到困难也不惧打击!HUAWEI WATCH GT 5情绪…...

trueNas 24.10 docker配置文件daemon.json无法修改(重启被覆盖)解决方案

前言 最近听说truenas的24.10版本开放docker容器解决方案放弃了原来难用的k3s,感觉非常巴适,就研究了一下,首先遇到无法迁移老系统应用问题比较好解决,使用sudo登录ssh临时修改daemon.json重启docker后进行docker start 容器即可…...

数字孪生,概念、应用与未来展望

随着科技的飞速发展,数字化已经成为各行各业的发展趋势,在这个过程中,数字孪生作为一种新兴的技术,逐渐引起了人们的关注,本文将对数字孪生的概念、应用以及未来展望进行详细介绍。 数字孪生的概念: 数字孪…...

Chromium HTML Input 类型Text 对应c++

一、文本域&#xff08;Text Fields&#xff09; 文本域通过 <input type"text"> 标签来设定&#xff0c;当用户要在表单中键入字母、数字等内容时&#xff0c;就会用到文本域。 <!DOCTYPE html> <html> <head> <meta charset"ut…...

SpringMvc参数传递

首先对于post请求汉字乱码需要进行过滤器配置 普通参数传递 直接传递 客户端传递的属性名与我的bean中的函数参数名相同 映射传递RequestParam("XXX") 在我们方法参数中定义一个与客户端属性名一致 并绑定参数 POJO实体类传递 嵌套POJO传递 数组likes参数传递…...

西安国际数字影像产业园:数字化建设赋能产业升级与拓展

西安国际数字影像产业园的数字化建设&#xff0c;在当前经济与科技迅猛发展的大背景下&#xff0c;已然成为提升园区管理效率、服务水平以及运营效果的关键趋势。随着信息技术日新月异的进步&#xff0c;数字化更是成为这座产业园转型升级的核心关键词。如今&#xff0c;西安国…...

linux线程池

线程池: * 一种线程使用模式。线程过多会带来调度开销&#xff0c;进而影响缓存局部性和整体性能。而线程池维护着多个线程&#xff0c;等待着 监督管理者分配可并发执行的任务。这避免了在处理短时间任务时创建与销毁线程的代价。线程池不仅能够保证内核的充分利 用&#xff0…...

PyTorch图像分类实战——基于ResNet18的RAF-DB情感识别(附完整代码和结果图)

PyTorch图像分类实战——基于ResNet18的RAF-DB情感识别&#xff08;附完整代码和结果图&#xff09; 关于作者 作者&#xff1a;小白熊 作者简介&#xff1a;精通python、matlab、c#语言&#xff0c;擅长机器学习&#xff0c;深度学习&#xff0c;机器视觉&#xff0c;目标检测…...

【OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments】阅读笔记

【OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments】阅读笔记 1. 论文概述Abstract1. Introduction2. Related work2.1 3D Occupancy Prediction2.2 Neural Radiance Fields2.3 Self-supervised Depth Estimation 3. Method3.1 Parameterized Occupanc…...

DDRPHY数字IC后端设计实现系列专题之后端设计导入,IO Ring设计

本章详细分析和论述了 LPDDR3 物理层接口模块的布图和布局规划的设计和实 现过程&#xff0c;包括设计环境的建立&#xff0c;布图规划包括模块尺寸的确定&#xff0c;IO 单元、宏单元以及 特殊单元的摆放。由于布图规划中的电源规划环节较为重要&#xff0c; 影响芯片的布线资…...

EDA --软件开发之路

之前一直在一家做数据处理的公司&#xff0c;从事c开发&#xff0c;公司业务稳定&#xff0c;项目有忙有闲&#xff0c;时而看下c&#xff0c;数据库&#xff0c;linux相关书籍&#xff0c;后面跳槽到了家eda公司&#xff0c;开始了一段eda开发之路。 eda 是 electric design …...

51c~目标检测~合集2

我自己的原文哦~ https://blog.51cto.com/whaosoft/12377509 一、总结 这里概述了基于深度学习的目标检测器的最新发展。同时&#xff0c;还提供了目标检测任务的基准数据集和评估指标的简要概述&#xff0c;以及在识别任务中使用的一些高性能基础架构&#xff0c;其还涵盖了…...

计算机低能儿从0刷leetcode | 33.搜索旋转排列数组

题目&#xff1a;33. 搜索旋转排序数组 思路&#xff1a;看到时间复杂度要求是O(log N)很容易想到二分查找&#xff0c;普通的二分查找我们已经掌握&#xff0c;本题中的数组可以看作由两个分别升序的数组拼成&#xff0c;在完全升序的部分中进行二分查找是容易的&#xff0c;…...

SpringBoot+VUE2完成WebSocket聊天(数据入库)

下载依赖 <!-- websocket --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency><!-- MybatisPlus --><dependency><groupId>com.ba…...

理解 CSS 中的绝对定位与 Flex 布局混用

理解 CSS 中的绝对定位与 Flex 布局混用 在现代网页设计中&#xff0c;CSS 布局技术如 flex 和绝对定位被广泛使用。然而&#xff0c;这两者结合使用时&#xff0c;可能会导致一些意想不到的布局问题。本文将探讨如何正确使用绝对定位元素&#xff0c;避免它们受到 flex 布局的…...

Redis 事务 问题

前言 相关系列 《Redis & 目录》《Redis & 事务 & 源码》《Redis & 事务 & 总结》《Redis & 事务 & 问题》 参考文献 《Redis事务详解》 Redis事务是什么&#xff1f; 标准的事务是指执行时具备原子性/一致性/隔离性/持久性的一系列操作。…...

Cpp学习手册-进阶学习

C标准库和C20新特性 C标准库概览&#xff1a; 核心库组件介绍&#xff1a; 容器&#xff1a; C 标准库提供了多种容器&#xff0c;它们各有特点&#xff0c;适用于不同的应用场景。 std::vector&#xff1a; vector&#xff1a;动态数组&#xff0c;支持快速随机访问。 #in…...

代码随想录-字符串-反转字符串中的单词

题目 题解 法一:纯粹为了做出本题&#xff0c;暴力解 没有技巧全是感情 class Solution {public String reverseWords(String s) {//首先去除首尾空格s s.trim();String[] strs s.split("\\s");StringBuilder sb new StringBuilder();//定义一个公共的字符反转…...

勒索软件通过易受攻击的 Cyber​​Panel 实例攻击网络托管服务器

一个威胁行为者&#xff08;或可能多个&#xff09;使用 PSAUX 和其他勒索软件攻击了大约 22,000 个易受攻击的 Cyber​​Panel 实例以及运行该实例的服务器上的加密文件。 PSAUX 赎金记录&#xff08;来源&#xff1a;LeakIX&#xff09; Cyber​​Panel 漏洞 Cyber​​Pane…...

Open WebUI + openai API / vllm API ,实战部署教程

介绍Open WebUI + Ollama 的使用: https://www.dong-blog.fun/post/1796 介绍vllm 的使用:https://www.dong-blog.fun/post/1781 介绍 Ollama 的使用: https://www.dong-blog.fun/post/1797 本篇博客玩个花的,Open WebUI 本身可以兼容openai 的api, 那来尝试一下。 仅供…...

InsuranceclaimsController

目录 1、 InsuranceclaimsController 1.1、 保险理赔结算 1.2、 生成预约单号 1.3、 保存索赔表 InsuranceclaimsController using QXQPS.Models; using QXQPS.Vo; using System; using System.Collections; using System.Collections.Generic; using System.Li…...

如何成为开源代码库Dify的contributor:解决issue并提交PR

前言 Dify 是一个开源的大语言模型&#xff08;LLM&#xff09;应用开发平台&#xff0c;它融合了后端即服务&#xff08;Backend as Service&#xff09;和LLMOps的理念&#xff0c;旨在简化和加速生成式AI应用的创建和部署。Dify提供了一个用户友好的界面和一系列强大的工具…...

SQL进阶技巧:巧用异或运算解决经典换座位问题

目录 0 问题描述 1 数据准备 2 问题分析 2.1 什么是异或 2.2异或有什么特性? 2.3 异或应用 2.4 本问题采用异或SQL解决方案 3 小结 0 问题描述 表 seat中有2个字段id和student id 是该表的主键(唯一值)列,student表示学生姓名。 该表的每一行都表示学生的姓名和 ID。…...

【MySQL】 运维篇—数据库监控:使用MySQL内置工具(如SHOW命令、INFORMATION_SCHEMA)进行监控

随着应用程序的增长&#xff0c;数据库的性能和稳定性变得至关重要。监控数据库的状态和性能可以帮助数据库管理员&#xff08;DBA&#xff09;及时发现问题&#xff0c;进行故障排查&#xff0c;并优化数据库的运行效率。通过监控工具&#xff0c;DBA可以获取实时的性能指标、…...

【温酒笔记】DMA

参考文档&#xff1a;野火STM32F103 1. Direct Memory Access-直接内存访问 DMA控制器独立于内核 是一个单独的外设 DMA1有7个通道DMA2有5个通道DMA有四个等级&#xff0c;非常高&#xff0c;高&#xff0c;中&#xff0c;低四个优先级如果优先等级相同&#xff0c;通道编号越…...

力扣判断字符是否唯一(位运算)

文章目录 给一个数n,判断它的二进制位中第x位是0还是1(从0开始计数)将一个数n的二进制位第X位修改为1(从0开始计数)将一个数n的二进制第x位修改为0(从0开始计数)提取一个数n二进制中最右侧的1去掉一个数n二进制表示中最右侧的1 今天我们通过判断字符是否唯一这个题来了解位运算…...

GPU和CPU区别?为什么挖矿、大模型都用GPU?

GPU(图形处理单元)和CPU(中央处理单元)是计算机中两种不同类型的处理器&#xff0c;它们在设计和功能上有很大的区别。 CPU是计算机的大脑&#xff0c;专门用于执行各种通用任务&#xff0c;如操作系统管理、数据处理、多任务处理等。它的架构设计旨在适应多种任务&#xff0c…...

新兴斗篷cloak技术,你了解吗?

随着互联网技术的飞速发展&#xff0c;网络营销领域也经历了翻天覆地的变革。 从最早的网络横幅广告到如今主流的搜索引擎和社交媒体营销&#xff0c;广告形式变得越来越多样。 其中&#xff0c;搜索引擎广告一直以其精准投放而备受青睐&#xff0c;但近年来&#xff0c;一项名…...

b2b例子/seo软件下载

转自&#xff1a;http://blog.chinaunix.net/uid-20273473-id-3267337.html我的开发环境&#xff1a; Ubuntu-12.04 所有软件包为最新1. 安装GNU工具链sudo apt-get insatll gcc-arm-linux-gnueabisudo apt-get insatll g-arm-linux-gnueabi安装完成后会在 /usr/arm-linux-gnu…...

杭州英文网站建设/今日新闻摘抄10条简短

Keras 手写数字辨识 库文件&#xff1a; from keras import layers from keras import Input from keras import Model from keras import optimizers import numpy as np import matplotlib.pyplot as plt主要网络层&#xff1a; 网络层名称Dense密集层FlattenFlatten层…...

中国建设教育协会网站查询/谷歌海外推广怎么做

前言本文将基于Android4.4.2_r1修改其源码实现通用脱壳解决方案。其原理就是源程序自己在脱壳调用DexClassLoader时&#xff0c;会将dex或者odex映射到内存中&#xff0c;我们只需要找到这个映射内存的地址和dex大小就可以将其从内存中dump下来。本文将在Android源码中修改代码…...

做app网站的软件叫什么名字吗/可口可乐营销策划方案

前言 在阿里七层流量入口接入层&#xff08;Application Gateway&#xff09;场景下&#xff0c; Nginx 官方的Smooth Weighted Round-Robin&#xff08; SWRR &#xff09;负载均衡算法已经无法再完美施展它的技能。 Tengine 通过实现新的负载均衡算法Virtual Node Smooth Wei…...

wordpress防黑/潍坊百度关键词优化

BZOJ1176: [Balkan2007]Mokia Description 维护一个W*W的矩阵&#xff0c;初始值均为S.每次操作可以增加某格子的权值,或询问某子矩阵的总权值. 修改操作数M<160000,询问数Q<10000,W<2000000. Input 第一行两个整数,S,W;其中S为矩阵初始值;W为矩阵大小接下来每行为一下…...

武汉做外贸网站的公司/seo技术中心

为什么80%的码农都做不了架构师&#xff1f;>>> 一、问题背景 最近 Fork 了 grpc 到我的 Github 帐号grpc下&#xff0c;以学习之然后记录点笔记上传&#xff0c;但是过段时间后发现原来的项目已经有了很多代码提交&#xff0c;那么我该如何将这些新提交的更新同步…...