当前位置: 首页 > news >正文

数据分析------统计学知识点(一)

1.在统计学中,均值分类有哪些?

算术均值:平均值,所有数值加总后除以数值的个数

几何均值:所有数值相乘后,再取其n次方根,n是数值的个数

调和均值:是数值倒数的算术均值的倒数

加权均值:每个数值有不同的权重,将每个数值乘以其权重,加总后除以权重的总和

2.什么时候平均值才存在价值?

平均值反映了一组数据的中心位置,它存在价值的情况通常是:

数据分布相对均匀,没有极端的离群值。

当我们需要比较不同数据集的总体趋势时,分析的目的是了解整体情况,而不是个体差异。

3.如何才能反映真实情况?

为了更准确地反映真实情况,我们需要:

考虑数据的分布,是否有离群值或偏斜。

使用其他统计量,如中位数、众数、方差和标准差等,来补充均值的信息。

在适当的情况下使用加权均值,确保每个数据点的贡献与其重要性相称。

分析不同的子组的均值,而不是只看整体均值。

4.从均值到辛普森悖论

辛普森悖论是一个统计现象,说明当数据从分组中合并时,会产生误导性的统计结果。即使在每一个子组中一种趋势很明显,但合并这些子组后,趋势就可能完全反转。

例如:A、B两医院,分别治疗相同疾病,A治疗100名轻症患者,成功率90%;A治疗10名重症患者,成功率20%;B治疗10名轻症患者,成功率100%;B治疗100名重症患者,成功率30%。

①不考虑患者病情严重程度,单纯计算平均成功率:

A总成功率:(100*0.9+10*0.2)/(100+10)=83.0%

B总成功率:(10*1+100*0.3)/(100+10)=36%   A比B优秀

②考虑患者病情严重程度时,B对每种类型患者都有更高的成功率。

5.辛普森悖论的启示

总是要注意数据背后的具体情况,不要只基于表面的统计结果做决定。分析数据时要细致,特别是在处理不同群体或类别的数据时,要考虑它们的组合效应。在做出重要的数据驱动决策时,应从多个角度审视数据,使用多种统计方法,以避免出现误导性的结论。

6.互联网企业在数据分析过程中常见的辛普森悖论场景

①用户活跃度分析

假设一个互联网公司在分析两个不同的功能模块对用户活跃度的影响。单独看一个模块时,功能A似乎比B更能提高用户活跃度。但当两个模块的用户数据合并起来分析时,结果可能反映出B整体上对提高用户活跃度更有效。这可能是因为A的用户本来就活跃,而不是A本身更优秀。

②在线广告效果评估

在线广告投放可能在不同的用户群体中表现出不同的转化率。如针对年轻用户的广告A和针对老年用户的广告B,在各自目标群体取得了高转化率,但若年轻用户群体本身的转化率就高于老年用户群体,合并两个广告的数据后可能会出现广告B的整体转化率反而更高的辛普森悖论。

③A/B测试

互联网公司常常使用A/B测试来决定产品变更是否有效。若在A/B

测试中,每个子群体(例如:按地区、设备类型或用户行为划分)都显示新版本优于旧版本,但是当所有子群体的数据合并时,总体结果却显示旧版本表现更好,这是辛普森悖论的一个经典案例。

④用户评分与推荐系统

在电子商务平台,不同的产品的评分可能因为评分人群的不同而出现偏差。例如,一个产品在男性用户中评分很高,在女性用户中评分很低。若男性用户是主要的评分群体,该产品的总体评分可能会很高,这可能误导推荐系统将该产品推荐给不太喜欢它的女性用户。

⑤客户满意度调查

若一个互联网服务公司对不同服务进行满意度调查,可能发现某些具体服务领域客户满意度很高,但当所有服务数据汇总时,整体满意度却很低,这可能是因为那些服务领域的用户基数较小,而大多数用户实际上使用的是其他服务。

7.如何识别面试问题是否为辛普森悖论场景?

辛普森悖论的出现提醒数据分析师在分析数据时,要考虑到不同子群体的影响,以及他们在整体数据中的权重。在解释数据和做出基于数据的决策时,必须仔细考虑数据的分层和分组效应,避免错误的推断。

正确做法是:深入了解数据的上下文,分层分析,以及使用适当的统计方法来减少误导性结论的风险。

8.什么是大数定律?

例如:一枚公平的硬币正面朝上和反面朝上的概率都是50%。若你只抛一次,结果可能是正,也可能是反,无法预测。但若你抛100次,200次,甚至更多次,你会发现正面和反面各自出现的次数越来越接近一半。

大数定律的直观展现:

随着试验次数的增加,样本均值(在上例中即是正面出现的比例)越来越接近总体均值(50%)

数据分析中,大数定律告诉我们,只要样本量足够大,就可以通过样本来估计整个群体的特性。

(减少偶然性,更准确了解总体特性)

虽然正反面概率各位50%,但是抛10次不一定正反各5次。

——>抛的次数不够多,我们看到的结果都是各种偶然的极端情况。

9.什么是小数定律?

例如:一朋友第一次打篮球就投了三分球,你立刻得出结论:他是篮球高手——>掉入小数陷阱,结论仅基于极有限的信息——只有一次投篮的结果。

小数定律:指当数据量太小,无法代表整体时,我们可能会得出错误的结论。小样本可能会受到极端值或偶然性的强烈影响,导致我们对情况的误解。

数据分析中,避免小数陷阱意味着不能仅根据少量数据做出决策,而应该寻求更多的证据。

10.互联网企业中常见的这两类场景

①A/B测试

互联网公司经常进行A/B测试来改进网站或应用,当测试新功能时,公司流量分成两部分,一部分用户看到旧版本(A组),另外一部分看到新版本(B组)。通过比较两组的表现,数据分析师可了解哪个版本更好。

  • 若测试的用户数量足够大,大数定律能保证结果可靠性
  • 若样本太小,可能会出现小数陷阱,导致错误决策。

②用户反馈

用户评论与反馈是互联网公司的重要信息来源。但仅有极端满意或极不满意的用户才会留下评论,这可能导致数据偏差。若公司只关注这些小数陷阱的评论,而不是通过调查or其他方式获取大量的用户意见,则可能会对用户满意度有一个不准确评估。

③产品销量分析

若一新产品在上市后的第一个月销量爆棚,若企业立即决定大量生产,则他们可能未考虑到这可能是因为早期的宣传造成的短期效应,这种对初期小量数据的过度依赖,即是小数陷阱的体现。在未有足够数据支持之前,做出重大决策可能会造成资源浪费或其他问题。

④用户行为分析

互联网公司通过分析用户的在线行为来改善服务和推荐算法,若分析数据量不够大,则无法准确捕捉用户的真实偏好。此时,大数定律的缺失会使得算法优化基于不准确的假设,从而降低用户满意度。

⑤产品迭代

产品经理通常根据数据来迭代产品。若他们基于的是短期内收集到的少量数据,那么可能无法真实反应市场的需求,从而陷入小数陷阱。相反,若等待收集到足够的用户数据,应用大数定律的原则,则得出的结论将更加可靠。

墨菲定律:任何可能出错的事情,最终都会出错

11.期望的定义与数学原理

期望(Expectation):表示随机变量的平均值,是对随机事件结果的预期

E(X)=x1p1+x2p2+…+xnpn

X随机变量,xi是X的第i个可能取值,pi是X取xi的概率,n是X所有可能取数个数

例如:骰子6个面,每个面朝上的概率是1/6,若将骰子的点数看作一随机变量X,则E(X)=1*(1/6)+2*(1/6)+3*(1/6)+4*(1/6)+5*(1/6)+6*(1/6)=3.5

若我们多次掷骰子,所有结果的平均值都会无限接近3.5

12.期望与平均值的关系

期望是一种理论上的平均,是基于概率分布计算出来的

平均值是实际结果的算术平均。当随机事件重复进行的次数足够多时,平均值会收敛到期望;但在有限的尝试中,平均值会偏离期望

期望是事前的准备,平均值是事后的统计。

如例11,掷骰子不可能3.5点,在一次or几次掷骰子的结果中,平均点数可能是1,2,4,5,只有次数不断增加,最终所有结果的平均值才会接近3.5.

13.如何避免墨菲定律

①降低事情出错的概率:以等红灯老是撞上红灯为例,若我们提前10分钟,则遇到多个红灯导致迟到的概率就会降低。

②改变对结果的预期:若每次出门都期望一路畅通,则碰到红灯时挫败感会很强,若将可能遇到几个红灯纳入预期中,实际遇到红灯,心理落差就不会那么大。

③从长期来看,趋势会向期望靠拢,要学会从长远角度看问题,单次墨菲定律会让人沮丧,但只要判断是正确的,结果就会向好的方向发展。

14.期望在互联网的应用

①A/B测试中,产品经理会将用户随机分成两组,分别展示不同的方案,并观察用户的反应。若新方案的转化率期望比对照组高出2%,且这个差异有统计学意义,则可能认为新方案是有效的。

②广告投放中,广告主关系的核心指标是ROI投资回报率,若一广告点击率期望5%,平均点击单价2元,则广告主目标每花一元获得至少2元的收益,则该广告就是值得投放的,若实际点击率远低于5%,则需要优化广告的创意和投放策略。

③算法工程师在设计算法时,也会评估算法的期望复杂度。对于一个排序算法,若输入数据的规模是n,算法的期望时间复杂度是O(nlogn),这这个算法是可以接受的。若一个算法的期望复杂度是O(n^2),在数据规模较大时,就可能导致性能问题。

相关文章:

数据分析------统计学知识点(一)

1.在统计学中,均值分类有哪些? 算术均值:平均值,所有数值加总后除以数值的个数 几何均值:所有数值相乘后,再取其n次方根,n是数值的个数 调和均值:是数值倒数的算术均值的倒数 加…...

Apache Doris 基础 -- 数据表设计(分区分桶)

Versions: 2.1 本文档主要介绍了Doris的表创建和数据分区,以及表创建过程中可能遇到的问题和解决方案。 1、基本概念 在Doris中,数据以表的形式被逻辑地描述。 1.1 Row & Column 表由行和列组成: 行:表示用户数据的单行;列:用于描述一行数据中的…...

题目:求0—7所能组成的奇数个数。

题目:求0—7所能组成的奇数个数。 There is no nutrition in the blog content. After reading it, you will not only suffer from malnutrition, but also impotence. The blog content is all parallel goods. Those who are worried about being cheated should…...

网络协议学习笔记

HTTP协议 简单介绍 HTTP属于应用层 HTTP可以简单的理解成类似json一样的文本封装,但是这是超文本,所以可以封装的不止有文本,还有音视频、图片等 请求方法 HTTP报文格式 三大部分 起始行:描述请求或响应的基本信息头部字段…...

C语言文件操作:打开关闭,读写

程序文件 源程序文件(后缀为.c) 目标文件(Windows环境后缀为.obj) 可执行文件(Windows环境后缀为.exe) fputc FILE* pf fopen("test.txt","w");if (pf NULL){printf("%s\n"…...

启智CV机器人,ROS,ubuntu 20.04 【最后一步有问题】

资料: https://wiki.ros.org/kinetic/Installation/Ubuntu https://blog.csdn.net/qq_44339029/article/details/120579608 装VM。 装ubuntu20.04 desktop.iso系统。 装vm工具: sudo apt update sudo dpkg --configure -a sudo apt-get autoremove o…...

React-生成随机数和日期格式化

生成随机数 uuid文档:https://github.com/uuidjs/uuid npm install uuid import {v4 as uuidV4} from uuid 使用: uuidV4() 日期格式化 dayjs文档:安装 | Day.js中文网 npm install dayjs import dayjs from dayjs...

11Linux学习笔记

Linux 实操篇 目录 文章目录 Linux 实操篇1.rtm包(软件)1.1 基本命令1.2 基本格式1.3安装rtm包1.4卸载rtm包 2.apt包2.1 基本命令结构2.2 常用选项2.3常用命令 1.rtm包(软件) 1.1 基本命令 1.2 基本格式 1.3安装rtm包 1.4卸载r…...

004 仿muduo实现高性能服务器组件_Buffer模块与Socket模块的实现

​🌈个人主页:Fan_558 🔥 系列专栏:仿muduo 🌹关注我💪🏻带你学更多知识 文章目录 前言Buffer模块Socket模块 小结 前言 这章将会向你介绍仿muduo高性能服务器组件的buffer模块与socket模块的实…...

研发效能DevOps: Ubuntu 部署 JFrog 制品库

目录 一、实验 1.环境 2.Ubuntu 部署 JFrog 制品库 3.Ubuntu 部署 postgresql数据库 4.Ubuntu 部署 Xray 5. 使用JFrog 增删项目 二、问题 1.Ubuntu 如何通过apt方式部署 JFrog 制品库 2.Ubuntu 如何通过docker方式部署 JFrog 制品库 3.安装jdk报错 4.安装JFrog Ar…...

hadoop学习笔记

hadoop集群搭建 hadoop摘要 Hadoop 是一个开源的分布式存储和计算框架,旨在处理大规模数据集并提供高可靠性、高性能的数据处理能力。它主要包括以下几个核心组件: Hadoop 分布式文件系统(HDFS):HDFS 是 Hadoop 的分布…...

使用dockerfile快速构建一个带ssh的docker镜像

不多说先给代码 FROM ubuntu:22.04 # 基础镜像 可替换为其他镜像 USER root RUN echo root:root |chpasswd RUN apt-get update -y \&& apt-get install -y git wget curl RUN apt-get install -y openssh-server vim && apt clean \&& rm -rf /tmp/…...

linux部署运维1——centos7.9离线安装部署涛思taos2.6时序数据库TDengine

在实际项目开发过程中,并非一直都使用关系型数据库,对于工业互联网类型的项目来说,时序型数据库也是很重要的一种,因此掌握时序数据库的安装配置也是必要的技能,不过对于有关系型数据库使用的开发工作者来说&#xff0…...

Linux shell编程学习笔记51: cat /proc/cpuinfo:查看CPU详细信息

0 前言 2024年的网络安全检查又开始了,对于使用基于Linux的国产电脑,我们可以编写一个脚本来收集系统的有关信息。对于中央处理器CPU比如,我们可以使用cat /proc/cpuinfo命令来收集中央处理器CPU的信息。 1. /proc/cpuinfo 保存了系统的cpu…...

Ps:调整画笔工具

调整画笔工具 Adjustment Brush Tool可以将选区、创建蒙版和应用调整的传统工作流程合并为一个步骤,简化了对图像进行非破坏性局部调整的操作。 快捷键:B 调整画笔工具是 Photoshop 2024 年 5 月版(25.9 版)新增的工具。 ◆ ◆ …...

香橙派 AIpro上手体验并验证车道线识别算法

香橙派 AIpro上手体验并验证车道线识别算法 1.前言 最近入手了一块香橙派AIpro,体验了一下,感觉还不错,在这里分享给大家,大家可以做个参考。 2.开箱 整套产品包含一块主板、一个电源插头和一条双端Type-C的数据线,…...

为啥装了erlang,还报错erl: command not found?

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 问题背景: 在一台不通外网的服务器上装rabbitmq,然后在启动的时候,遇到了报错 “/usr/lib/…...

容器技术基础理论与常用命令:必知必会,效率翻倍!

如何利用容器技术提升你的工作效率?掌握基础理论和常用命令是必不可少的,本文将为你全面介绍容器技术,并教你必知必会的技能,让你工作、学习效率翻倍,对于网络安全工作者也是必不可少的技能! 0. 引言 学习…...

ChatGPT Edu版本来啦:支持GPT-4o、自定义GPT、数据分析等

5月31日,OpenAI在官网宣布,推出ChatGPT Edu版本。 据悉,这是一个专门为大学校园提供的ChatGTP,支持GPT-4o、网络搜索、自定义GPT、数据分析、代码生成等功能,可以极大提升学生、老师的学习质量和教学效率。 目前&…...

Spark RDD案例

Apache Spark中的RDD(Resilient Distributed Dataset)是一个不可变、分布式对象集合,它允许用户在大型集群上执行并行操作。虽然RDD在Spark的早期版本中非常核心,但随着DataFrame和Dataset的引入,RDD的使用在某些场景下…...

【线性表 - 数组和矩阵】

数组是一种连续存储线性结构,元素类型相同,大小相等,数组是多维的,通过使用整型索引值来访问他们的元素,数组尺寸不能改变。 知识点数组与矩阵相关题目 # 知识点 数组的优点: 存取速度快 数组的缺点: 事先必须知道…...

Springboot 开发 -- 跨域问题技术详解

一、跨域的概念 跨域访问问题指的是在客户端浏览器中,由于安全策略的限制,不允许从一个源(域名、协议、端口)直接访问另一个源的资源。当浏览器发起一个跨域请求时,会被浏览器拦截,并阻止数据的传输。 这…...

【Qt】之【项目】整理可参考学习的git项目链接(持续更新)

Tcp 通信相关 IM即时通讯设计 高并发聊天服务:服务器 qt客户端(附源码) - DeRoy - 博客园 未使用protobuf通讯协议格式 github:GitHub - ADeRoy/chat_room: IM即时通讯设计 高并发聊天服务:服务器 qt客户端 QT编…...

2024年5月个人工作生活总结

本文为 2024年5月工作生活总结。 研发编码 golang 多个defer函数执行顺序 golang 函数中如有多个defer,倒序执行。示例代码: func foo() {defer func() {fmt.Println("111")}()defer func() {fmt.Println("2222")}()defer func()…...

Kafka Java API

1、增加依赖 <dependency><groupId>org.apache.kafka</groupId><artifactId>kafka-clients</artifactId><version>1.0.0</version> </dependency>2、三个案例 案例1&#xff1a;生产数据 import org.apache.kafka.clients.p…...

pushd: not found

解决方法&#xff1a; pushd 比 cd 命令更高效的切换命令&#xff0c;非默认&#xff0c;可在脚本开头添加&#xff1a; #! /bin/bash ubuntu 编译时出现/bin/sh: 1: pushd: not found的问题-CSDN博客...

【第十三节】C++控制台版本坦克大战小游戏

目录 一、游戏简介 1.1 游戏概述 1.2 知识点应用 1.3 实现功能 1.4 开发环境 二、项目设计 2.1 类的设计 2.2 各类功能 三、程序运行截图 3.1 游戏主菜单 3.2 游戏进行中 3.3 双人作战 3.4 编辑地图 一、游戏简介 1.1 游戏概述 本项目是一款基于C语言开发的控制台…...

酷得单片机方案 2.4G儿童遥控漂移车

电子方案开发定制&#xff0c;我们是专业的 东莞酷得智能单片机方案之2.4G遥控玩具童车具有以下比较有特色的特点&#xff1a; 1、内置充电电池&#xff1a;这款小车配备了可充电的电池&#xff0c;无需频繁更换电池&#xff0c;既环保又方便。充电方式可能为USB充电或者专用…...

【为什么 Google Chrome 打开网页有时极慢?尤其是国内网站,如知网等】

要通过知网搜一点资料&#xff0c;发现怎么都打不开。而且B站&#xff0c;知乎这些速度也变慢了&#xff01;已经检查过确定不是网络的问题。 清空了记录&#xff0c;清空了已接受Cookie&#xff0c;清空了缓存内容……没用&#xff01;&#xff01;&#xff01; 不断搜索&am…...

FastAPI - 数据库操作5

先安装mysql驱动程序 pipenv install pymysql安装数据库ORM库SQLAlchemy pipenv install SQLAlchemy修改文件main.py文件内容 设置数据库连接 # -*- coding:utf-8 –*- from fastapi import FastAPIfrom sqlalchemy import create_engineHOST 192.168.123.228 PORT 3306 …...