当前位置: 首页 > news >正文

数据分析------统计学知识点(三)

相关性分析

1.趋势分析与散点图

散点图可帮助我们发现和理解变量间的关系,可直观观察是否有相关性。

(1)散点图定义及组成要素

散点图是一种以点的形式在直角坐标系上表示两个数值变量间关系的图表

横坐标(x轴):代表独立变量,如广告预算

纵坐标(y轴):代表因变量,如销售额

数据点:表示记录的坐标点,反映变量间的关系

(2)散点图表意原则

正相关:点呈现从左下到右上的趋势,意味着一个变量的增加通常伴随着另一变量的增加。

负相关:点分布从左上到右下,一个变量的增加伴随着另一个变量的减少

非线性相关:点分布呈曲线形状,表明变量间的关系更复杂

(3)散点图洞察数据的技巧

为最大化散点图的价值,以下技巧是必需的

(a)使用趋势线:加入趋势线可帮助我们1更清晰地看到数据的整体方向和强度

(b)调整透明度:当数据点过多重叠时,调整点的透明度可以更好的显示分布情况

(c)考虑数据密度:使用颜色深浅或大小代表数据密集区域,可以更好的揭示聚类效应

(4)散点图分析注意事项

异常值:可能会影响趋势的判断,需仔细分析其背后的原因

聚类:数据聚类在某些区域可能会隐藏其他区域的特征

非因果相关:相关性并不代表因果关系,需要防止错误解读

(5)幸存者偏差及其影响

幸存者偏差指的是在分析过程中,只关注“幸存”的数据,而忽略了那些因各种原因而未被观察到的数据。在散点图分析中,这可能导致对关系的错误评估。

2.相关性分析概念

相关性分析是衡量两个变量间的关系强度和方向的统计手段,它帮助我们理解不同数据之间的相互作用。

3.常用计算方法

皮尔逊相关系数:衡量两个变量线性相关程度的指标,取值范围在-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示无线性相关。

斯皮尔曼等级相关系数:是一种非参数的相关性衡量方法,用来评价两个变量的等级或顺序间的相关性。

4.方法优缺点、适用条件和计算步骤

皮尔逊相关系数

优点:适用评估线性关系强度

缺点:对异常值敏感,只能用于连续变量

适用条件:两变量均为连续且大致呈正态分布

计算步骤:标准化变量,计算协方差,除以两变量的标准差的乘积

斯皮尔曼等级相关系数

优点:不要求数据正态分布,对异常值不敏感

缺点:只能捕捉单调关系

适用条件:至少有一个变量是有序分类变量

计算步骤:对每个变量进行等级排序,计算等级之间的皮尔逊相关系数

5.相关性分析的经典应用场景

①金融领域:分析股票价格与市场因素的相关性

②医学研究:探究生活习惯与健康状况的相关性

③社会科学:研究教育水平与收入水平的关系

④市场营销:评估广告投放与品牌知名度的相关性

6.鉴别相关性陷阱的建议

①多角度分析:结合其他图表和统计方法,全面了解数据

②数据清洗:识别并处理异常值和缺失数据

③专业知识:结合领域知识,合理解释数据关系

7.互联网场景下的相关性分析

相关性分析帮助企业从大数据中提取有价值的信息,实现精准营销和服务

电商:分析用户属性与购买行为的相关性

通过用户年龄、地域、历史购买数据等属性与其购买时间之间的相关性分析,可以实现个性化推荐,提高转化率

社交媒体:研究用户互动行为背后的相关因素

分析点赞、评论等用户互动行为与内容特征、发布时间等因素的关系,有助于优化内容推送策略

搜索引擎:挖掘搜索query与用户属性的相关性

关联用户的查询关键词与其个人信息,可以优化搜索算法,提高更为精准的搜索结果

在线广告:利用相关性分析给用户投放最感兴趣的广告创意

结合用户的浏览历史、点击行为与广告点击率进行相关性分析,可以帮助精准投放广告,增加广告效果。

标准差

1.标准差:数据离散程度的度量

反映了数据与其平均值之间的偏离程度。标准差越大,说明数据的离散程度越高;反之标准差越小,数据的离散程度越低。除标准差,还可以用离散系数来描述数据的离散程度。

离散系数是标准差与平均值的比值,通常用百分数表示,可以让我们更直观的比较不同的数据集的离散程度,尤其是当它们的量纲or平均值差异较大时

2.标准差的应用

①识别异常值:若某个数据点与平均值的偏差超过2-3个标准差,则通常可将其识别为异常值,离群值。

②构建置信区间:在一定置信水平(常用95%),我们可以用标准差构建一个区间,该区间有很大概率包含总体的真实参数。

③比较不同组别的数据:通过比较不同的组别数据的标准差,我们可以了解哪个组的数据更稳定,哪个组的数据波动更大。

3.标准误差:抽样误差的度量

实际工作通常无法获取全部总体数据,而只能通过抽样的方式来推断总体特征。标准误差就是用来描述由于抽样引入的误差。

公式:标准误差=标准差/根号n,n为样本量。样本量越大,标准误差越小,即抽样误差越小。

4.标准误差的应用

①估计总体参数

利用样本统计量和标准误差,可构建总体参数的置信区间,从而对总体参数进行估计。

②比较不同样本的差异

当想要比较两个或多个样本的均值时,可利用标准误差计算它们之间的差异是否具有统计学意义。

③确定样本量

在设计抽样调查时,可根据标准误差的大小来确定所需的样本量,以控制抽样误差在可接受的范围内。

5、互联网企业的应用场景

①用户行为分析:分析用户的活跃度、留存率、付费金额等指标时,可利用标准差来识别不同用户群体之间的差异,找出高价值用户or流失风险用户

②A/B测试:进行产品优化时,通常会将用户随机分成两组或多组,分别体验不同的产品版本,通过比较不同组别的关键指标(eg:转化率、点击率)的均值、标准误差,可判断哪个版本表现优

③广告效果评估:对于广告投放,我们需要评估不同广告创意或投放渠道的效果,利用标准差和标准误差,我们可以比较不同的广告或渠道的点击率、转化率等指标优化广告策略。

④异常检测:在实时监控系统的关键指标时,可利用标准差来设置异常阈值。当指标偏离平均值超过一定的标准差时,系统就会自动报警,提醒数据分析师及时处理潜在的问题。

相关文章:

数据分析------统计学知识点(三)

相关性分析 1.趋势分析与散点图 散点图可帮助我们发现和理解变量间的关系,可直观观察是否有相关性。 (1)散点图定义及组成要素 散点图是一种以点的形式在直角坐标系上表示两个数值变量间关系的图表 横坐标(x轴)&a…...

MySQL 导出一条数据的插入语句

1.MySQL 导出一条数据的插入语句的方法 在MySQL中,如果我们想要导出一条数据的插入语句,我们可以使用SELECT ... INTO OUTFILE语句(但这通常用于将整个表或查询结果导出到一个文件中),或者我们可以手动构建插入语句。…...

隐藏 IP 地址的重要性是什么?

在当今的数字时代,保护我们的在线身份至关重要。从保护个人信息到保护隐私,互联网用户越来越多地寻求增强在线安全性的方法。保持匿名和保护敏感数据的一个关键方面是隐藏您的 IP 地址。在这篇博文中,我们将深入探讨隐藏 IP 地址的重要性&…...

Oracle 19c linux安装

下载Oracle Database Preinstallation RPM,该包会自动下载依赖,创建oracle用户, 手动下载地址:https://yum.oracle.com/repo/OracleLinux/OL7/latest/x86_64/index.html wget http://yum.oracle.com/repo/OracleLinux/OL7/latest…...

AI音乐生成流程

suno.com...

android room数据库升级脚本常见问题

room数据库升级很容易遇到一个问题, java.lang.IllegalStateException: Migration didnt properly handle: Expected:xxx Found:xxx 意思是数据库执行完你编写的升级脚本后,发现数据库当前的表结构与你代码中的Entity class结构不一致,所…...

在 iCloud.com 上导入、导出或打印联系人

想将iPhone上的电话本备份一份到本地电脑上,发现iTunes好像只是音乐播放了,不再支持像电话本等功能,也不想通过其他第三方软件,好在可以通过iCloud进行导入导出。下面只是对操作过程进行一个图片记录而已,文字说明可以…...

JavaScript中this方法;var,let,constd区别;JSON是什么

this方法 1、在对象方法中, this 指向调用它所在方法的对象。 2、单独使用 this,它指向全局(Global)对象。 3、函数使用中,this 指向函数的所属者。 4、严格模式下函数是没有绑定到 this 上,这时候 this 是 undefined。 5、在 HT…...

Mybatis不明白?就这一篇带你轻松入门

引言:烧脑的我一直在烧脑的寻找资料,寻找网课,历经磨难让一个在大一期间只会算法的我逐渐走入Java前后端开发,也是一直在自学的道路上磕磕碰碰,也希望这篇文章对于也是同处于自学的你有所帮助,也希望你继续…...

pymupdf提取pdf表格及表格数据合并

pymupdf提取pdf表格非常快速,相比其他库是个更好的选择. 一个行列多的表格打印成pdf后会由于页宽分页原因变成多个表格,提取的多个表格需要合并为一个表格,再来处理数据. 下面代码中merge函数用于合并表格&#xff0…...

门外汉一次过软考中级(系统集成项目管理工程师)秘笈,请收藏!

24上软考考试已经结束,24下软考备考又要开启了!今年软考发生了改革,很多考试由一年考两次变成了一年考一次,比如高级信息系统项目管理师,比如中级系统集成项目管理工程师,这两科是高、中级里相对简单&#…...

[leetcode hot 150]第一百零八题,将有序数组转换为二叉搜索树

题目:给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 平衡二叉搜索树。 给定一个有序的整数数组,我们需要构建一棵平衡的二叉搜索树。平衡二叉树是指任意一个节点的左右子树的高度差不超过1。 由于给定的数组是有序的…...

科普丨什么是数字孪生灌区(平台)?如何建设?有何好处?

在农业发展的新时代,数字孪生灌区的概念逐渐走进大众视野,成为推动农业现代化、提升粮食安全保障能力的关键力量。那么,究竟什么是数字孪生灌区?它又是如何建设的?又能为我们带来哪些好处呢? 数字孪生灌区…...

Python爬虫如何入门:一步步走向精通的指南

Python爬虫如何入门:一步步走向精通的指南 在信息爆炸的时代,爬虫技术已经成为获取、整理和分析数据的必备技能。Python,以其简洁易懂的语法和强大的库支持,成为了爬虫开发的热门语言。那么,如何入门Python爬虫呢&…...

Linux用户和用户组的操作

用户管理 以Tom做为用户名 以dev做为用户组 增加用户 sudo adduser Tom #不建议使用useradd/userdel系列的命令删除用户 sudo deluser Tom --remove-home # 删除Tom用户及home目录 重置密码 sudo passwd Tom加入用户组 sudo usermod -a -G dev Tom # sudo usermod -aG …...

git命令行分支(增删改查)

文章目录 一、创建分支并推送到远程仓库二、拉取指定分支代码三、删除分支 一、创建分支并推送到远程仓库 初始化git git init如果有远程仓库就进行克隆远程仓库 origin 表示远程仓库地址 git clone origin# 如果没有远程仓库 就进行创建一个远程仓库 git remote add origin ht…...

地理加权回归GWR简介

地理加权回归GWR简介 一、定义: 地理加权回归(Geographically Weighted Regression,简称GWR)是一种空间数据分析方法,专门用于处理空间异质性(spatial heterogeneity)问题。以下是对GWR的详细简…...

康谋技术 | 自动驾驶:揭秘高精度时间同步技术(一)

众所周知,在自动驾驶中,主要涵盖感知、规划、控制三个关键的技术层面。在感知层面,单一传感器采集外界信息,各有优劣,比如摄像头采集信息分辨率高,但是受外界条件影响较大,一般缺少深度信息&…...

客户端被攻击怎么办,为什么应用加速这么适合

随着科技的进步和互联网的普及,游戏行业也正在经历前所未有的变革。玩家们不再满足于传统的线下游戏,而是转向了线上游戏。然而,随着游戏的线上化,游戏安全问题也日益凸显。游戏受到攻击是游戏开发者永远的痛点,谈“D“…...

Introduction to HAL3

目录 HAL3 behavior Overview of HAL1 v.s HAL3 HAL3 behavior: HAL3 - detail: HAL3 operation and pipeline Framework Diagram Problem of current code Operation mode Full v.s limited Do: Don’t: Metadata Manual control – ISP control...

Vue02-搭建Vue的开发环境

一、Vue.js的安装 1-1、直接用 <script> 引入&#xff08;CDN&#xff09; 1、CDN的说明 2、Vue的版本说明 生产版本是开发版本的压缩。 3、Vue的引入 验证是否存在Vue函数&#xff1a; 4、搭建Vue的开发环境 ①、下载开发版本的Vue&#xff0c;并在代码中引入 ②、安…...

Python | 句子缩写

字符串大小的比较Unicode码值 类似于asc|| 码 小写字母从 a 到 z 对应的 Unicode 码值是从 97 到 122&#xff0c;而大写字母从 A 到 Z 对应的 Unicode 码值是从 65 到 90, 大小写字母之间的差值为32&#xff0c;所以可以通过数学运算将小写字符减去32后转换为大写字符。 字…...

STM32自己从零开始实操04:显示电路原理图

一、TFT-LCD 屏接口 1.1指路 以下是该部分的设计出来后的实物图&#xff0c;我觉得看到实物图可能更方便理解这部分的设计。 图1 实物图 这部分设计的是一个屏幕的接口&#xff0c;很简单。使用的屏幕是&#xff1a;2.8inch 16BIT Module MRB2801。 1.2数据手册 &#xff0…...

数分—AB测试

一、介绍 AB测试是一种常用于比较两种或多种不同版本的产品、服务或策略效果的实验方法。在AB测试中&#xff0c;被比较的版本被标记为A组和B组&#xff0c;然后两组被随机分配给不同的用户群体或实验对象。接着&#xff0c;针对每个组收集数据&#xff0c;比如用户行为、转化…...

基于全志T507-H的Igh EtherCAT主站案例分享

基于全志T507-H的Linux-RT IgH EtherCAT主站演示 下文主要介绍基于全志T507-H&#xff08;硬件平台&#xff1a;创龙科技TLT507-EVM评估板&#xff09;案例&#xff0c;按照创龙科技提供的案例用户手册进行操作得出测试结果。 本次演示的开发环境&#xff1a; Windows开发环…...

刷题记录(20240605)

1.数组构造 题目描述 小红的数组构造小红希望你构造一个数组满足以下条件: 1.数组共有 n个元素&#xff0c;且所有元素两两不相等。 2.所有元素的最大公约数等于 k。 3.所有元素之和尽可能小。请你输出数组元素之和的最小值。 输入描述: 两个正整数 n 和 k。 输出描述&#xff…...

CUDA和OpenGL纹理texture结合

cuda和OpenGL纹理结合,并进行直方图计算 针对于单通道16位图像。结合方式在CUDA_equalizeHistogram_16函数中。 其他的为CUDA核函数。 #define HISTOGRAM_LENGTH 65536 // 2^16 表示16位深度定义直方图长度为65536,对应16位像素值的范围(0-65535)。 __global__ void com…...

市场凌乱,智能算法哪种效果好?

当我们在面对市场波动&#xff0c;个股震荡&#xff0c;无从下手的时候&#xff0c;不懂算法的朋友就只懂做t&#xff1b;懂算法的朋友这会儿就迷茫并不知道选择哪种智能算法交易&#xff1f;今天小编给大家整理一套性价比高的&#xff0c;适合个人投资者搞的算法交易&#xff…...

学会这14大招,30天涨粉两三千没问题!沈阳新媒体运营培训

很多小白在刚转入公司做新媒体时&#xff0c;基本都是从帮助公司运营账号开始的。但不同于个人号&#xff0c;一个企业本身是没有ip属性的&#xff0c;它的风格、调性等&#xff0c;都需要通过你的运营&#xff0c;让它变成一个活灵活现的、赋予独立个性人设的账号。 目前&…...

SQL数据库性能优化

1.查询尽量避免使用select * 1.1 增加磁盘开销&#xff1a;数据库本质上是将记录存储在磁盘上&#xff0c;查询操作就是一种进行磁盘IO的行为,我们查询的字段越多&#xff0c;读取的内容也就越多&#xff0c;对IO磁盘的开销也就会增大&#xff0c;特别是某些字段&#xff0c;如…...

网站建设职位/微信营销的案例

和那个戒指 比较相像 可以说这都是相通的 .. 这个想法挺不错的 ..... 1 // 利用vector不定长数组 构图 然后就知道 某个节点相邻的 所有节点2 #include<stdio.h>3 #include<string.h>4 #include<math.h>5 #include<iostream>6 #include<…...

做网站的步骤的文本/网络推广企划

本文讲的是CSS 遮罩的过渡效果&#xff0c;一份关于如何使用 CSS 遮罩来创建一些有趣的视觉滑动过渡的教程。这份教程具有高度试验性&#xff01; 查看演示 下载源码 今天我们想向你展示怎样创建一个有趣简单并且吸引眼球的过渡效果&#xff0c;采用的是 CSS 遮罩 。 与剪裁一样…...

齐齐哈尔最新疫情/seo百度关键词排名

2019独角兽企业重金招聘Python工程师标准>>> 在服务端&#xff0c;不管我们使用Node.js、Java、PHP还是Python等等&#xff0c;都会用日志以文本的形式记录请求以及报错信息。这个对于后端做事后分析是很有用的。 另一方面&#xff0c;前端有时候出问题其实是因为后…...

软件开发工具的根本功能/sem优化和seo的区别

区别一、HTTP 1.0只支持短连接而HTTP 1.1支持持久连接 HTTP 1.0规定浏览器与服务器只保持短暂的连接&#xff0c;浏览器的每次请求都需要与服务器建立一个TCP连接&#xff0c;服务器完成请求处理后立即断开TCP连接&#xff0c;服务器不跟踪每个客户也不记录过去的请求。 一个WE…...

怎样优化网站排名靠前/50篇经典软文100字

前言&#xff1a;今天老同学叫我帮他找哈工作&#xff0c;闲来无事我就打开了xx招聘&#xff0c;手痒的我就着手分析一波协议工具&#xff1a;fidller、jadx、mmds、androidkiller、idaPS&#xff1a;没有根据喝样本的同学可以私聊我1. 首先我们安装apk到模拟器2. 打开fillder配…...

珠海做网站公司有哪些/好用的磁力搜索引擎

KingbaseESV8R6有一种表称为unlogged&#xff0c;在该表新建的索引也属于unlogged。和普通表的区别是&#xff0c;对该表进行DML操作时候不将该表的变更记录变更写入到wal文件中。在数据库异常关机或者异常崩溃后该表的数据会被truncate掉&#xff0c;但是在写入性能上会比普通…...