当前位置: 首页 > news >正文

数据分析------统计学知识点(五)

回归算法

想象一下,你和朋友在讨论:大学生活中,每天学习的时间是否真的能影响期末成绩?这个问题看似简单,实则包含了一个潜在的关系:学习时间与成绩之间的联系。我们想要知道,增加学习时间是否会提高成绩,以及这种提高有多显著。
回归分析正是用来揭示变量之间关系的工具。简单来说,它可以帮助我们理解一个变量(称为因变量,如期末成绩)如何随着其他一个或多个变量(称为自变量,如学习时间)的变化而变化。

回归算法的种类与应用

线性回归

想象一条直线贴合我们散布的数据点,这条直线就代表了学习时间与成绩之间关系的线性回归模型。如果这条线能很好地表示数据点的趋势,我们就可以说学习时间和成绩之间存在线性关系。这种方法适用于预测销售额、评估房价等场景。

逻辑回归

但并非所有的问题都适用线性回归。如果我们的问题是"学习时间是否影响及格率?"这时,因变量成了及格与否是一个分类问题。逻辑回归就派上用场了,它适用于处理分类问题,比如预测一个人是否会购买某产品、一个邮件是否为垃圾邮件等。

多项式回归

有些关系可能比直线复杂,比如学习时间与成绩的关系可能在某个点后开始减弱。这种情况下,线性模型就不够用了。我们可能需要一个弯曲的曲线来描述这种关系,这就是多项式回归的用武之地。多项式回归能够捕捉数据中的非线性关系。

避免过拟合和欠拟合

但是,如果我们使模型变得过于复杂,它可能会过于精确地拟合我们的训练数据,而不能很好地预测新的数据。这就是过拟合。相反,如果模型太简单,无法捕捉数据的关键特征,就会发生欠拟合。为了避免这些问题,我们可以使用交叉验证来评估模型的表现,或者调整模型复杂度,例如限制多项式的度数。

均值回归

均值回归是一种思想,它指出,极端的情况往往会回到它们的平均水平。例如,如果一只股票在一天内价格大幅波这种波动,均值回归的概念告诉我们,可能不会持续,股价最终会回到其平均水平。

回归在数据建模中的应用

1.预测房价
假设你是一家房产中介公司的分析师,你可能需要预测房屋的售价。这时,你会收集房屋的各种特征,包括面积、位置、房龄等,并使用这些数据来构建一个回归模型,预测房价。在这个场景中,房价是因变量,而房屋的特征则是自变量。
2.评估广告效果
再来看一个例子,如果你在一家营销公司工作,你可能需要评估不同广告投放对销售量的影响。通过收集广告支出和销售数据,你可以运用回归分析来估计不同广告支出水平下的销售量预期。
3.股票价格分析
如果你是一名金融分析师,可能会用到均值回归的思想来分析股票价格。当你观察到某只股票的价格暂时偏离了它的平均值,你可能会预测这只股票的价格最终会回归到它的长期均值。

聚类算法

在数据分析的世界里,我们经常会遇到这样一个问题:如何将一大堆看似杂乱无章的数据点划分成几个有意义的组别?这就引出了我们今天要讨论的话题:聚类算法。
假设你是一家电商平台的数据分析师,你的任务是将平台上的用户划分成不同的群组,以便为他们提供更加个性化的服务。你手上有每个用户的购买记录、浏览历史、人口统计学信息等海量数据,但是你不知道应该按照什么标准来划分用户群体。这时,聚类算法就派上用场了

聚类算法初探

聚类算法是一种无监督学习方法,它的目的是将相似的对象归到同一个簇中,而将不相似的对象归到不同的簇中。与分类算法不同,聚类算法在训练阶段不需要标注数据,它只根据数据本身的特征来寻找内在的结构和规律。

常见的聚类算法有以下几种:

1.K-means 聚类:这是最基本的聚类算法之一。它的基本思想是,先随机选择k个点作为初始的聚类中心,然后反复进行以下两步,直到收敛:
a.对每个数据点,找出离它最近的聚类中心,将其归到相应的簇中;b.对每个簇,重新计算其中心点的坐标。

2.层次聚类:这种算法先将每个数据点看作一个独立的簇,然后不断地将最相似的两个簇合并,直到所有的点都属于同一个簇。相似度的衡量可以有多种方式,如最短距离、最长距离、平均距离等。
基于密度的聚类(如 DBSCAN):这种算法将密度高的区域视为一个簇,而将密度低的区域视为簇与簇之间的分隔。它可以发现任意形状的簇,并且对噪声数据有很好的鲁棒性。
3.谱聚类:这种算法利用图论中的谱图理论,将数据点看作图中的节点,将数据点之间的相似度看作图中的边的权重,然后通过图的切割来实现聚类。

聚类算法的应用和优缺点

它的主要优点包括:
1.无需标注数据,可以发现数据内在的结构;
2.可以处理任意形状和分布的数据
3.对数据的特征类型没有严格限制。


聚类算法也有一些局限性:

1.聚类的结果可能受到初始值、参数选择等因素的影响;
2.有些算法(如 K-means)需要预先指定簇的数量,但在实际应用中这个数量往往是未知的;
3.评估聚类效果的标准不像分类问题那样直观,需要根据具体的应用场景来设计。

互联网企业中的聚类应用

1.用户细分:通过对用户的行为数据、属性数据进行聚类,我们可以将用户划分成不同的群体,如高价值用户、潜在流失用户等,从而实施差异化的营销策略。
2.推荐系统:通过对用户或物品的特征进行聚类,我们可以发现它们之间的相似性,从而为用户推荐他可能感兴趣的物品。
3.社交网络分析:通过对社交网络中的用户进行聚类,我们可以发现不同的社群、话题和意见领袖,从而更好地理解社交网络的结构和动态。
4.异常检测:通过对正常数据进行聚类,我们可以建立一个正常行为的基线模型。当有新的数据到来时,如果它与任何一个已有的簇都不太相似,就可能是一个异常点。

相关文章:

数据分析------统计学知识点(五)

回归算法 想象一下,你和朋友在讨论:大学生活中,每天学习的时间是否真的能影响期末成绩?这个问题看似简单,实则包含了一个潜在的关系:学习时间与成绩之间的联系。我们想要知道,增加学习时间是否会提高成绩,以及这种提…...

Superset二次开发之Git篇 git remote

背景:从GitHub clone Superset项目,基于3.0版本做二次开发,后续通过其他方式把3.0版本未做任何修改过的原始代码上传到企业GitLab库develop分支 任务:本地代码推送到GitLab库develop分支,但是两者似乎没有任何关联关系 操作步骤 克隆 Superset 3.0 版本的项目到本地: …...

记录一下PHP使用微信小程序支付

记录一下PHP使用微信小程序支付V3版本经历 官方文档:https://pay.weixin.qq.com/wiki/doc/apiv3/open/pay/chapter2_8_0.shtml 请详细查看文档中小程序支付接入前准备(https://pay.weixin.qq.com/wiki/doc/apiv3/open/pay/chapter2_8_1.shtml&#xff…...

【数据结构初阶】 --- 单链表

关于链表你应该先了解这些 下图描述了物理模型和逻辑模型,大多数常见的其实是逻辑模型,但这对初学者或者掌握不扎实的同学不太友好,所以这里我重点讲解物理模型,当了解了这些细节,以后做题或是什么就直接画逻辑模型就…...

并发、多线程、HTTP连接数有何关系?

在计算机领域,"并发"、"多线程"和"HTTP连接数"是三个重要的概念,它们之间存在着密切的关系。本文将探讨这三者之间的联系以及它们在现代计算机系统中的作用。 一、并发的概念 并发是指系统能够同时处理多个任务或事件的能…...

鸿蒙轻内核Kconfig使用笔记

鸿蒙轻内核使用Kconfig进行图形化配置,本文专门讲解下鸿蒙轻内核LiteOS-M和LiteOS-A的图形化配置方法。本文中所涉及的源码,均可以在开源站点 https://gitee.com/openharmony/kernel_liteos_a 、 https://gitee.com/openharmony/kernel_liteos_m 获取。本…...

react 0至1 案例

/*** 导航 Tab 的渲染和操作** 1. 渲染导航 Tab 和高亮* 2. 评论列表排序* 最热 > 喜欢数量降序* 最新 > 创建时间降序* 1.点击记录当前type* 2.通过记录type和当前list中的type 匹配*/ import ./App.scss import avatar from ./images/bozai.png import {useState} …...

基于MCU平台的HMI开发的性能优化与实战(上)

随着汽车座舱智能化的不断演进,车内显示设备的数量显著增加,从传统的仪表盘和中控屏扩展至空调控制、扶手、副驾驶区域以及抬头显示(HUD)等多样化的显示单元。为了有效支持这些功能单元,同时控制整车成本,越…...

【Tkinter界面】Canvas 图形绘制(02/5)

文章目录 一、说明二、几何时使用 Canvas 组件2.1 用法2.2 简单范例2.3 对象移动2.4 对象删除2.5 文字对象显示 三、画布和画布对象3.1 画布生成函数原型3.2 使用create_xxx()方法3.3 对参数**options的解释 一、说明 Canvas(画布)组件为 Tkinter 的图形…...

1_常见指令【Linux中常见30个指令的学习和使用】【万字长文】

常见指令以及权限理解 开始学习linux前的注意事项 在学习linux之前,我们要知道linux是一个操作系统。 那操作系统是什么呢?(这里只做大概了解) 操作系统就是一个管理软硬件的软件。 它对上提供良好(稳定、高效、安…...

每日复盘-202406014

今日关注: 这几天市场打板情绪环境转好,轻仓试错 20240614 六日涨幅最大: ------1--------301036--------- 双乐股份 五日涨幅最大: ------1--------301036--------- 双乐股份 四日涨幅最大: ------1--------301036--------- 双乐股份 三日涨幅最大: ------1--------301082-…...

JavaScript 深拷贝和浅拷贝的实现、使用场景和存在的问题

浅拷贝 实现 方式 1(ES 5 语法): const params Object.assign({}, state.dataForm)方式 2(ES 6 语法): const params { ...state.dataForm }使用场景 copy 入参和出参 深拷贝 方式 1(手…...

8个常用的辅助函数!!

在开发各种项目时,我们会发现经常需要一些辅助函数来帮助我们实现一些需求,并且这些函数是在很多项目里都可以进行复用的。下面我就列出我们一些常用的辅助函数,来帮助大家在开发项目时,进行复用。 1. 首字母大写 将字符串的第一…...

服务器数据恢复—OceanStor存储中NAS卷数据丢失如何恢复数据?

服务器存储数据恢复环境&故障: 华为OceanStor某型号存储。工作人员在上传数据时发现该存储上一个NAS卷数据丢失,管理员随即关闭系统应用,停止上传数据。这个丢失数据的卷中主要数据类型为office文件、PDF文档、图片文件(JPG、…...

54.Python-web框架-Django-免费模板django-datta-able

1.Datta Able Django介绍 Detta Able Djiango是什么 Datta Able Django 是一个由AppSeed提供的开源Django管理面板,基于现代设计,为开发者提供了一流的功能和优雅的界面。它源自CodedThemes的高风格化Bootstrap 4模板——Datta Able Bootstrap Lite&…...

XP系统安装Node.js v8.6.0并搭建Vue2开发环境(项目兼容到Vista的IE9浏览器)

下载并安装Node.js v8.6.0 通常我们开发Vue2项目,是通过vue create命令建立Vue2工程,用npm run serve命令启动Vue2网站的。 vue命令是用JavaScript写的,不是用C语言写的,必须要Node.js环境才能运行,由Node.js自带的np…...

redis序列化

文章目录 1、为什么要进行序列化操作?2、序列化方式2.1、自定义序列化2. 2、StringRedisTemplate(重点) 1、为什么要进行序列化操作? 不进行序列化向redis存入数据代码: SpringBootTest class RedisDemoApplicationT…...

IOT-Tree 1.7.0实现了一个类似Node-Red的流程功能

本人一直研究这个软件,1.7.0版本最近刚刚发布,里面有个大变化,增加了消息流的功能,这个功能和IBM的Node-Red很相似。 Node-Red那个图形化流程很多年前就给了我很深刻的印象,我个人理解是,通过这样的图形化…...

nc网络收发测试-tcp客户端\TCP服务器\UDP\UDP广播

netcat(nc): 作用:一个功能强大的网络工具,提供了简单的网络测试和网络编程功能。工作原理:可以用于建立TCP或UDP连接,并发送和接收数据。示例用法: 监听TCP端口:nc -l 1…...

程序员该有怎么样的职业素养

目录 1、持续学习 2、解决问题的能力 3、团队协作能力 4、责任感 5、沟通能力 6、总结 作为一个从业者,我认为对于程序员而言,职业素养是非常重要的。职业素养不仅影响个人的职业发展,也影响团队和企业的整体氛围和效率。在我的职业生涯…...

51交通灯

一、基本原理 利用51单片机控制各个路口红绿灯及时间显示。 设计的重点: 1、各个路口红绿灯亮灭的规则,暂不考虑左转方向; 2、倒计时的实现,利用单片机的定时器进行计数得到秒信号; 3、时间显示:东西南…...

鸿蒙Arkts上传图片并获取接口返回信息

需求: 选择相册图片后,将文件上传到服务器,接口会返回图片地址。 问题: 1、鸿蒙自带的文件上传返回值只会返回上传状态,不会返回接口返回信息。 类似问题 HarmonyOS上传文件以及权限授权_harmonyos中axios上传文件…...

超文本标记语言(HTML)简介

HTML 基础 超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用来结构化 Web 网页及其内容的标记语言。网页内容可以是:一组段落、一个重点信息列表、也可以含有图片和数据表。正如标题所示…...

使用thymeleaf直接渲染字符串

目录 一、依赖 二、示例代码 一、依赖 <--JAVA 8--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId><version>2.7.18</version></dependency><-…...

Spring Boot整合发送QQ邮箱功能

1. 创建Spring Boot项目 使用Spring Initializr&#xff08;https://start.spring.io/&#xff09;创建一个新的Spring Boot项目&#xff0c;并添加spring-boot-starter-mail依赖。 2. 添加配置 在application.properties或application.yml文件中添加QQ邮箱的SMTP配置。这里…...

Milvus向量数据库

Milvus 是一个开源的向量数据库&#xff0c;专为处理高维向量数据而设计&#xff0c;常用于大规模向量相似性搜索和基于向量的机器学习应用。它支持高效地管理、搜索和操作嵌入&#xff08;如文本、图像、音频的特征向量&#xff09;&#xff0c;在推荐系统、图像检索、语义搜索…...

python cls的使用

import threadingclass Test:# new方法用于创建类的实例def __new__(cls, *args, **kwargs):print("__new__:", cls.__class__.__name__)return object.__new__(cls) # 返回实例给init self参数# init用于初始化类的实例&#xff0c;实例由new方法传递过来的&#xf…...

idea中maven下载依赖缓慢解决方法

解决IDEA中Maven下载依赖包过慢或报错的问题_maven 下载依赖要很久-CSDN博客...

JS 中的各种距离 scrollTop?clientHeight?

元素的各种距离 DOM 对象 属性描述offsetWidth只读&#xff0c;返回元素的宽度&#xff08;包括元素宽度、内边距和边框&#xff0c;不包括外边距&#xff09;offsetHeight只读&#xff0c;返回元素的高度&#xff08;包括元素高度、内边距和边框&#xff0c;不包括外边距&am…...

继承-进阶-易错点

子类同名方法隐藏父类方法 即使调用不匹配也不会再去父类寻找&#xff0c;而是直接报错 //下面代码输出结果&#xff1a;( )&#xfeff;class A { public:void f(){ cout<<"A::f()"<<endl; }int a; };class B : public A { public:void f(int a){c…...