当前位置: 首页 > news >正文

【小白学机器学习26】 极大似然估计,K2检验,logit逻辑回归(对数回归)(未完成----)

目录

1 先从一个例题出来,预期值和现实值的差异怎么评价?

1.1 这样一个问题

1.2 我们的一般分析

1.3 用到的关键点1

1.4 但是差距多远,算是远呢?

2 极大似然估计

2.1 极大似然估计的目的

2.1.1 极大似然估计要解决什么问题?

2.1.2 极大似然估计的原则:

2.2 什么是极大似然估计?

2.2.1 定义

2.2.2  似然率,likehood

2.3 如何理解

2.4 如何落地?具体用什么来验证极大似然估计? K2检验

3 K2检验 (K^2检验,K^2显著度检验)

3.1 K2检验

3.2 K2值de公式

3.3 K2值de判断逻辑

3.4 具体步骤

3.5 K2值表

3.5.1 K2分布表

3.5.2 特点

3.6 K2分布的曲线

3.6.1 曲线图形

3.6.2 特点

3.7 K2检验有2个要素

3.8 K2检验的过程

3.8.1 K2值独立检验

4 对数回归

4.1 什么叫对数回归 logit regression

4.1.1 似然率,likehood

4.1.2 从概率到→发生率

4.1.3 发生率的对然对数回归

5 为什么要用对数回归?

5.1 线性回归的局限性

5.1.1 具体举个例子

5.2 什么原因引起的?

5.3 怎么解决? 

5.3.1 解决办法

5.3.2 对数回归的方法 logit regression

5.3.3 概率转化为发生率后,发生率的变化不对称

6 和机器学习的sigmoid函数(也叫逻辑函数)的关系(待完善)


1 先从一个例题出来,预期值和现实值的差异怎么评价?

1.1 这样一个问题

SPSS,还有戏说统计那本数上都有

一个关于员工其实的数据例子,其中假设有这么一些数据
整体员工里,黑人和白人的比例,60:40
经理员工里,黑人和白人的比例,4:20

那么我们简单一看,就知道这两者比例不一样,那么这两者差距够大吗?是否可以作为黑人被歧视的证据之一呢?

1.2 我们的一般分析

  • 第1:我们先有现在的这个现实数据了,但是我们不知道是否合理
  • 第2:我们假设每个人都是平等的有成为经理的可能性。
  • 先假设前提55开,也就是每个黑人和白人都是50%可能成为经理
  • 那么假设员工人数里,就是合理现状,往下推论
  1. 现实的世界:SUM=24, 经理的现状4/20
  2. 按50%推测世界:(60*0.5=30) / (20*0.5=10)=3:1 ,SUM里应该分布是18/6
  • 实际的和我们推测的数据差异很大,从而说明有问题,应然和实然差距太远

1.3 用到的关键点1

现实值,和预期值的差异,就是关键!

  1. 现实值VS预期值,对比
  2. 现实的世界 / 实然的世界:
  3. 按50%推测世界/ 应然的世界:

1.4 但是差距多远,算是远呢?

  • 这就需要用到假设检验了
  • 假设检验的方法就是,一般设定原假设,两者没差异H0。
  • 然后给定一个我们能接受的显著度比如5%,双边检验。如果我们检验出来的值对应的概率,大于5%,我们就接受原接受。
  • 如果对应的概率小于我们设定的显著度,那我们认为:在H0的假设下,现实已经发生的是小概率事件,不应该发生,从而拒绝原假设。

2 极大似然估计

2.1 极大似然估计的目的

上面引出的问题:预期值和现实值的差异怎么评价,就是极大似然估计要解决的问题

2.1.1 极大似然估计要解决什么问题?

  • 极大似然估计要解决什么问题?:是用来判断预期值和现实值之前的差距,从而去推测过去应该是什么样子!

2.1.2 极大似然估计的原则:

  • 极大似然估计的原则:现实一定是对应过去发生最大的概率的分支!
  • 如果按照H0假设,推测发现已经存在的现实,并不是最大概率(小于显著度),那么就拒绝原假设!

2.2 什么是极大似然估计?

2.2.1 定义

定义:在现实已经发生的基础上,去回溯到过去,推测过去的某个时刻,自然量和因变量是什么样的关系时,现实的发生概率最大?这个推测过程,就是极大似然估计

简单定义:

  • 过去最大概率对应的那个分支,极有可能就是现实!
  • 现实就是,过去发生的各种可能里概率最大的那种情况!

2.2.2  似然率,likehood

  • 现在的可能性—针对是未来,概率,probility
  • 过去的可能性—针对是过去,似然率,likehood

2.3 如何理解

     可以认为是一个类似坐上时光机去回溯,或者就是思想试验的东西
     这个思想试验,是一个模型,就是认为现在往回去倒推,过去自变量和因变量的关系,现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也,那就错了。这个就是极大似然估计。

2.4 如何落地?具体用什么来验证极大似然估计? K2检验

见下面


3 K2检验 (K^2检验,K^2显著度检验)

3.1 K2检验

  • chi-square test of independence
  • K2检验和 自由度 高度相关
  • K2就是chi-square,也就是 “ chi 的平方值 ”

3.2 K2值de公式

  • K2=Σ(观察值-预期值)^2/预期值
  • K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En

3.3 K2值de判断逻辑

  • 需要查表,根据当前的df+概率值的 二维交叉表,可以查到当前的K2值,在指定的df下,其发生的概率大多是多大,如果是小概率的事件,就拒绝。因为极大概率不会发生!
  • 这也就是极大似然估计的逻辑。

3.4 具体步骤

  • K2值是作为一个查表数值
  • 去一个 df*概率的二维交叉表里去差K2数值在那一列!(df决定了行,df和K2共同决定了列!)
  • 这样反查概率。
  • 用概率率来判断,如果概率很小,证明是小概率事件,发生可能性很小,拒绝H0假设!

3.5 K2值表

3.5.1 K2分布表

  • 横轴,行:自由度,DF
  • 纵轴,列:概率
  • 表中的值,K2值

3.5.2 特点

  • 自由度df越大,自由的单元格就更多,表里同样概率对应的K2值就会更大
  • 反过来说,也就是出现较大K2值的概率就越大

3.6 K2分布的曲线

3.6.1 曲线图形

  • 横轴表示K2值,x
  • 纵轴表示概率值,f(x)
  • 不同的曲线表示不同df对应的  K2-概率曲线--也就是图上的K参数

  • 看经典的K2的曲线。
  • 自由度比较小的时候,单调下降
  • 自由度比较大之后就开始接近正态分布的钟形曲线了,超过20接近正态

  • T值检验T值也和自由度有关系,但关系比较松散不用太关心。
  • 因为T检验一般检验连续变量,连续变量自由度很容易超过20,一般不考虑这个限制。
  • 但是K2分布,一定要看自由度DF
  • 一般自由度越大的K2曲线,K2的值,均值都会更大。

3.6.2 特点

可以看到变化

  • 1 前面k=1 k=2的事后,是个完全单调下降的曲线,从df=3开始就开始接近正态分布,
  • 2 自由度越大,越接近于正态分布
  • 3 在自由度比较大时,比如df大于8,大于20,都可以比较多条曲线,就是同样的K2值(平行于纵轴的竖线)与对应的不同曲线的相交点,DF越大的曲线对应的概率越大
  • 反过来说,就是比较不同的自由度,自由度越大的曲线,对应同样的K2值,其对应的纵轴的概率会越大!

3.7 K2检验有2个要素

  • 自由度
  • K2值

3.8 K2检验的过程

3.8.1 K2值独立检验

  • 先检验,算出来了确定的K2值的结果下,来判断,
  •  如果自由度小,K2一般越大,越表示发生的概率小。
  • 因而根据最大似然估计,推测 现在不可能是小概率发生,从而用K2检验拒绝了原来的假设。
  • 极大似然估计认为,现在一定是 在过去那个事件点发生的概率最大!

4 对数回归

4.1 什么叫对数回归 logit regression

  • 对数回归,即发生率的自然对数回归.
  • 是以过去的可能性/概率为因变量(/结果)的回归分析

这里面有很多子概念,下面逐个拆解

  • 过去的可能性/概率probility=似然率 likehood
  • 发生率
  • 发生率的对然对数回归
  • 为什么要用对数回归

4.1.1 似然率,likehood

  • 现在的可能性—针对是未来,概率,probility
  • 过去的可能性—针对是过去,似然率,likehood

4.1.2 从概率到→发生率

  • 我们这里不直接衡量,过去事情的发生率α,而是衡量其发生率
  • 发生率=某个事件发生的概率/此事件不发生的概率
  • α/(1-α)

4.1.3 发生率的对然对数回归

  • 发生率的对然对数回归
  • Ln(α/(1-α))
  • 这个才是对数回归中,概率的测量单位: 发生率的自然对数。


5 为什么要用对数回归?

因为线性回归经常会遇到问题

5.1 线性回归的局限性

有时候用线性回归会出现 负数系数,负数截距等,而这是逻辑上不可能的情况

  • 比如上学年数是收入的负相关系数,截距也为负等等
  • 还会出现概率超过1情况
  • 等等逻辑上很怪异的情况

5.1.1 具体举个例子

比如现实中的成绩只有 合格,不合格两档次,而且又没有具体的分数,我们需要分析人们及格的概率,需要怎么做呢?如果我们这么设计

5.2 什么原因引起的?

线性回归遇到问题的原因

  • 原因1:如果纯都是定量数据就没问题,但是一旦里面混入了定性/定类数据,就有了问题
  •            比如分析模型里有,年龄,成绩,这种定比数据,还有男女,是否经理这种定类数据都作为自变量时就有可能出现这样的情况
  • 原因2:本身变量之间的关系就很复杂,不适合用线性关系来描述
  • 原因3:其他

5.3 怎么解决? 

5.3.1 解决办法

1 对数回归是方法之一:用对数函数处理后,结果还可以用线性表示

2 其他方法

5.3.2 对数回归的方法 logit regression

  • 其实还是用的线性回归,只是用对数函数做了中转。
  • 因为必须改成曲线回归
  • 如何做曲线回归,很难
  • 而用对数,可以变换成其他直线回归

5.3.3 概率转化为发生率后,发生率的变化不对称


概率转化为发生率后,发生率的变化不对称。但是发生率的自然对数。Log of  it =p/(1-p) 却是对称的,正是利用了对数函数的这一效果。

  • 概率,转化为发生率后,发生率的变化不对称。
  • 发生率不对称,因为是比率,分母分子变化不对等
  • 0.9/0.1=9            变化大,发生率变化小
  • 0.99/0.01=99
  • 0.999/0.001=999
  • 0.9999/0.0001=9999  微量变化小,反而发生率变化很大。

  • 转化为发生率的自然对数。
  • Log of  it =ln(p/(1-p))
  • e=2.718
  • 所以用自然对数,变成稳定的-4.5~4.5之间了

6 和机器学习的sigmoid函数(也叫逻辑函数)的关系(待完善)

【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)-腾讯云开发者社区-腾讯云在KNN算法中直接可以得出预测结果,但是如果想输出预测结果,还要输出预测结果的概率,这时候就需要使用逻辑回归解决问题。icon-default.png?t=O83Ahttps://cloud.tencent.com/developer/article/2450449https://zhuanlan.zhihu.com/p/696212659icon-default.png?t=O83Ahttps://zhuanlan.zhihu.com/p/696212659

相关文章:

【小白学机器学习26】 极大似然估计,K2检验,logit逻辑回归(对数回归)(未完成----)

目录 1 先从一个例题出来,预期值和现实值的差异怎么评价? 1.1 这样一个问题 1.2 我们的一般分析 1.3 用到的关键点1 1.4 但是差距多远,算是远呢? 2 极大似然估计 2.1 极大似然估计的目的 2.1.1 极大似然估计要解决什么问题…...

【日常记录-Java】SLF4J扫描实现框架的过程

1. 简介 SLF4J(Simple Logging Facade for Java)作为一种简单的门面或抽象,服务于其他各种日志框架,例如JUL、log4j、logback等,核心作用有两项: 提供日志接口;提供获取具体日志对象的方法; 2. 扫描过程 …...

uni-app 获取 android 手机 IMEI码

1、需求来源 最近项目上需要获取手机的IMEI码,并且在更换手机号登录后,需要提示重新更新IMEI码。 2、需求拆分 2.1 获取 IMEI 码 查阅 uni-app 官网发现在android 10 已经无法获取imei码,所以对于这个需求拆分成两种情况。 第一种情况&am…...

后台管理系统的通用权限解决方案(八)认证机制介绍、JWT介绍与jjwt框架的使用

文章目录 1 认证机制介绍1.1 HTTP Basic Auth1.2 Cookie-Session Auth1.3 OAuth1.4 Token Auth 2 JWT2.1 JWT介绍2.2 JWT的数据结构2.2.1 JWT头2.2.2 JWT有效载荷2.2.3 JWT签名 3 jjwt3.1 jjwt介绍3.2 jjwt案例 1 认证机制介绍 1.1 HTTP Basic Auth HTTP Basic Auth 是一种简…...

接口测试 —— Postman 变量了解一下!

Postman变量是在Postman工具中使用的一种特殊功能,用于存储和管理动态数据。它们可以用于在请求的不同部分、环境或集合之间共享和重复使用值。 Postman变量有以下几种类型: 1、环境变量(Environment Variables): 环境变量是在…...

鸿蒙系统:核心特性、发展历程与面临的机遇与挑战

好动与不满足是进步的第一必需品 文章目录 前言重要特点和组成部分核心特性主要组件发展历程 机遇挑战总结 前言 鸿蒙系统(HarmonyOS)是由华为技术有限公司开发的一款面向全场景的分布式操作系统。它旨在为用户提供更加流畅、安全且高效的数字生活体验&…...

从0到1,用Rust轻松制作电子书

我之前简单提到过用 Rust 做电子书,今天分享下如何用Rust做电子书。制作电子书其实用途广泛,不仅可以用于技术文档(对技术人来说非常方便),也可以制作用户手册、笔记、教程等,还可以应用于文学创作。 如果…...

半天入门!锂电池剩余寿命预测(Python)

往期精彩内容: 时序预测:LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较 全是干货 | 数据集、学习资料、建模资源分享! EMD变体分解效果最好算法——CEEMDAN(五)-CSDN博客 拒绝信息泄露!VMD滚动分…...

学生党头戴式耳机哪款音质更胜一筹?TOP4好音质头戴式耳机推荐

在挑选头戴式耳机时,市场上琳琅满目的品牌和型号常常让人目不暇接。究竟哪个学生党头戴式耳机哪款音质更胜一筹?这已成为许多人面临的难题。由于每个人对耳机的偏好各有侧重——一些人追求音质的纯净,一些人重视佩戴的舒适性,而另…...

数据结构 ——— 二叉树的概念及结构

目录 二叉树的概念 特殊的二叉树 一、满二叉树 二、完全二叉树 二叉树的概念 二叉树树示意图: 从以上二叉树示意图可以看出: 二叉树每个节点的度不大于 2 ,那么整个二叉树的度也不大于 2 ,但是也不是每个节点都必须有 2 个…...

【React】React 的核心设计思想

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 React 的核心设计思想引言声明式编程声明式 vs 命令式示例 组件化组件的优势组件…...

C++ 二叉树进阶:相关习题解析

目录 1. 二叉树创建字符串。 2. 二叉树的分层遍历1 3. 二叉树的分层遍历2 4. 二叉树的最近公共祖先 5. 将二叉搜索树转换为排序的双向链表 6. 从前序与中序遍历序列构造二叉树 7. 从中序与后序遍历序列构造二叉树 8. 二叉树的前序遍历,非递归迭代实现 9.…...

Matlab实现蚁群算法求解旅行商优化问题(TSP)(理论+例子+程序)

一、蚁群算法 蚁群算法由意大利学者Dorigo M等根据自然界蚂蚁觅食行为提岀。蚂蚁觅食行为表示大量蚂蚁组成的群体构成一个信息正反馈机制,在同一时间内路径越短蚂蚁分泌的信息就越多,蚂蚁选择该路径的概率就更大。 蚁群算法的思想来源于自然界蚂蚁觅食&a…...

2024年10月HarmonyOS应用开发者基础认证全新题库

注意事项:切记在考试之外的设备上打开题库进行搜索,防止切屏三次考试自动结束,题目是乱序,每次考试,选项的顺序都不同 这是基础认证题库,不是高级认证题库注意看清楚标题 高级认证题库地址:20…...

kafka 分布式(不是单机)的情况下,如何保证消息的顺序消费?

大家好,我是锋哥。今天分享关于【kafka 分布式(不是单机)的情况下,如何保证消息的顺序消费?】面试题?希望对大家有帮助; kafka 分布式(不是单机)的情况下,如何保证消息的…...

数据分析案例-苹果品质数据可视化分析+建模预测

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…...

沈阳乐晟睿浩科技有限公司抖音小店运营创新

在当今这个数字化迅猛发展的时代,电子商务已经成为推动经济增长的重要引擎。而在电商的广阔舞台上,短视频与直播带货的崛起无疑是最为耀眼的明星之一。作为这一领域的佼佼者,抖音小店凭借其庞大的用户基础和独特的算法优势,吸引了…...

【前端】CSS知识梳理

基础:标签选择器、类选择器、id选择器和通配符选择器 font:font-style(normal) font-weight(400) font-size(16px) /line-height(0) font-family(宋体) 复合: 后代选择器( )、子选择器(>)、并集选择器(…...

【undefined reference to xxx】zookeeper库编译和安装 / sylar项目ubuntu20系统编译

最近学习sylar项目,编译项目时遇到链接库不匹配的问题,记录下自己解决问题过程,虽然过程很艰难,但还是解决了,以下内容供大家参考! undefined reference to 问题分析 项目编译报错 /usr/bin/ld: ../lib/lib…...

IDEA解决 properties 文件乱码问题

博主介绍: 计算机科班人,全栈工程师,掌握C、C#、Java、Python、Android等主流编程语言,同时也熟练掌握mysql、oracle、sqlserver等主流数据库,具有丰富的项目经验和开发技能。提供相关的学习资料、程序开发、技术解答、…...

超越Jira?2024年探索项目管理新工具!

一、Jira 在项目管理中的地位 Jira 作为一款在项目管理领域久负盛名的工具,有着不可忽视的地位。它以强大的问题跟踪和管理功能著称,无论是软件缺陷、新功能需求、任务分配还是技术难题的解决,都能精准把控。其高可定制性更是满足了不同团队…...

大模型,多模态大模型面试问题【计算图,LLama,交叉熵,SiLU,RLHF】

大模型,多模态大模型面试问题【计算图,LLama,交叉熵,SiLU,RLHF】 问题一:讲一讲计算图中pytorch是什么,TensorFlow是什么?1. PyTorch2. TensorFlow区别总结 问题二:Llama…...

凌雄科技打造DaaS模式,IT设备产业链由内而外嬗变升级

恒指正处在一种“奇妙”的波动当中。低估反弹,瞬时拉高,极速回调。这些变化集中在一条曲线上,让市场无所适从。 但事实上,所有的趋势一定总是以长期为锚。这个长期的尺度,可能会超过一般人的预估。因为中间需要经历很…...

Oracle视频基础1.2.1练习

1.2.1 需求: 完整格式查看所有用户进程判断oracle启动状态 连接sqlplus不登陆 以sysdba身份登陆,通过登陆信息判断oracle启动状态 启动数据库,查系统全局区动态组件表 使用shell,启动监听然后返回sql ps -ef sqlplus /nolog con…...

15、基于AT89C52的数码电子时钟proteus仿真设计

一、仿真原理图: 二、仿真效果: 三、相关代码: 1、timer0定时中断: void Time0(void ) interrupt 1 using 1 { count++; if(count == 20) { count = 0; second++; if(second >= 60) { second = 0; …...

UML总结

零:学习链接 UML_哔哩哔哩_bilibili 一:UML概述 二:类图 类图(Class Diagram)是统一建模语言(UML)中一种重要的图形表示,用于描述系统中的类及其之间的关系。它是面向对象设计中常…...

网站被浏览器提示不安全怎么办?——附解决方案

当你的网站被浏览器标记为不安全时,这通常意味着有一些问题需要解决。以下是一些解决这个问题的步骤: 检查SSL证书:首先,确保你的网站使用了有效的SSL证书。SSL证书可以加密浏览器和服务器之间的数据传输,保护用户数据…...

“前端兼容——CSS篇”(进阶版)

“前端兼容——CSS篇”(进阶版) 上一篇文章写了css 兼容问题处理的基础篇 点击这里基础篇—传送门,这里想给粉丝分享一下css 更深一点的兼容场景,和处理方案 文章目录 “前端兼容——CSS篇”(进阶版)进阶CS…...

使用Docker Compose简化微服务部署

文章目录 Docker Compose简介安装Docker Compose在Windows上安装Docker Compose在macOS上安装Docker Compose在Linux上安装Docker Compose 创建Docker Compose文件创建compose文件构建并运行服务 使用Docker Compose网络定义网络验证网络连接 使用Docker Compose卷定义卷使用卷…...

2025考研各省市网上确认时间汇总!

2025考研各省市网上确认时间汇总! 安徽:11月1日至5日 福建:11月1日-11月5日 山东:10月31日9:00至11月5日12:00 新疆:10月31日至11月4日17:00 湖南:11月1日9:00-4日12:00 广东:10月下旬至1…...

菲律宾做网站/网站统计数据分析

容器化时代,注册中心是一个比较尴尬的存在,容器编排系统提供了比较完善的服务发现和负载均衡机制。但是这就够了吗?很明显不是,其实注册中心除了服务发现和负载均衡之外,还有很多“增值服务”,这些增值服务…...

精品课网站怎么做/好的seo网站

值传递!Java中只有按值传递,没有按引用传递! 回家后我就迫不及待地查询了这个问题,觉得自己对java这么基础的问题都搞错实在太丢人! 综合网上的描述,我大概了解了是怎么回事,现在整理如下&#…...

相亲网站做推广的照片是谁/培训机构需要哪些证件

一.概述 linux中不区分进程和线程,都认为是个任务,都是创建一个task_struct.如何区分?线程是共享相同地址空间,而进程是独占地址空间. 多线程共享同一进程的地址空间 优点: 通信方便,可以通过全局变量. 缺点: 访问共享数据时需要考虑同步和互斥. 二.线程共享资源: 可执行的指令…...

wordpress 引入文件/抖音搜索优化

require_once(“nusoap-0.9.5/lib/nusoap.php”);//定义服务程序functionAdd($a,$b){return$a$b;}//初始化服务对象 , 这个对象是类 soap_server 的一个实例$soapnewsoap_server;//调用服务对象的 register 方法注册需要被客户端访问的程序。//只有注册过的程序,才能…...

佛山做网站建设公司/职业技能培训学校

昨晚与闺中密友聚餐,话题自然少不了女人世界的种种。不知怎么,话题就扯到了女人的头发上。从头发谈到染发又谈到染发剂,又从染发剂谈到经常染发有致癌的可能。一位朋友刚换了一种染发剂的颜色,浅棕色里掺杂着丝丝灰白,…...

东莞科技网站建设/网站seo推广

借鉴文章: 用vector实现普通平衡树!_致上-CSDN博客_vector平衡树 您需要写一种数据结构(可参考题目标题),来维护一些数,其中需要提供以下操作: 1.插入数值 x 2.删除数值 x (若有多个相同的数…...