【小白学机器学习26】 极大似然估计,K2检验,logit逻辑回归(对数回归)(未完成----)
目录
1 先从一个例题出来,预期值和现实值的差异怎么评价?
1.1 这样一个问题
1.2 我们的一般分析
1.3 用到的关键点1
1.4 但是差距多远,算是远呢?
2 极大似然估计
2.1 极大似然估计的目的
2.1.1 极大似然估计要解决什么问题?
2.1.2 极大似然估计的原则:
2.2 什么是极大似然估计?
2.2.1 定义
2.2.2 似然率,likehood
2.3 如何理解
2.4 如何落地?具体用什么来验证极大似然估计? K2检验
3 K2检验 (K^2检验,K^2显著度检验)
3.1 K2检验
3.2 K2值de公式
3.3 K2值de判断逻辑
3.4 具体步骤
3.5 K2值表
3.5.1 K2分布表
3.5.2 特点
3.6 K2分布的曲线
3.6.1 曲线图形
3.6.2 特点
3.7 K2检验有2个要素
3.8 K2检验的过程
3.8.1 K2值独立检验
4 对数回归
4.1 什么叫对数回归 logit regression
4.1.1 似然率,likehood
4.1.2 从概率到→发生率
4.1.3 发生率的对然对数回归
5 为什么要用对数回归?
5.1 线性回归的局限性
5.1.1 具体举个例子
5.2 什么原因引起的?
5.3 怎么解决?
5.3.1 解决办法
5.3.2 对数回归的方法 logit regression
5.3.3 概率转化为发生率后,发生率的变化不对称
6 和机器学习的sigmoid函数(也叫逻辑函数)的关系(待完善)
1 先从一个例题出来,预期值和现实值的差异怎么评价?
1.1 这样一个问题
SPSS,还有戏说统计那本数上都有
一个关于员工其实的数据例子,其中假设有这么一些数据
整体员工里,黑人和白人的比例,60:40
经理员工里,黑人和白人的比例,4:20那么我们简单一看,就知道这两者比例不一样,那么这两者差距够大吗?是否可以作为黑人被歧视的证据之一呢?
1.2 我们的一般分析
- 第1:我们先有现在的这个现实数据了,但是我们不知道是否合理
- 第2:我们假设每个人都是平等的有成为经理的可能性。
- 先假设前提55开,也就是每个黑人和白人都是50%可能成为经理
- 那么假设员工人数里,就是合理现状,往下推论
- 现实的世界:SUM=24, 经理的现状4/20
- 按50%推测世界:(60*0.5=30) / (20*0.5=10)=3:1 ,SUM里应该分布是18/6
- 实际的和我们推测的数据差异很大,从而说明有问题,应然和实然差距太远
1.3 用到的关键点1
现实值,和预期值的差异,就是关键!
- 现实值VS预期值,对比
- 现实的世界 / 实然的世界:
- 按50%推测世界/ 应然的世界:
1.4 但是差距多远,算是远呢?
- 这就需要用到假设检验了
- 假设检验的方法就是,一般设定原假设,两者没差异H0。
- 然后给定一个我们能接受的显著度比如5%,双边检验。如果我们检验出来的值对应的概率,大于5%,我们就接受原接受。
- 如果对应的概率小于我们设定的显著度,那我们认为:在H0的假设下,现实已经发生的是小概率事件,不应该发生,从而拒绝原假设。
2 极大似然估计
2.1 极大似然估计的目的
上面引出的问题:预期值和现实值的差异怎么评价,就是极大似然估计要解决的问题
2.1.1 极大似然估计要解决什么问题?
- 极大似然估计要解决什么问题?:是用来判断预期值和现实值之前的差距,从而去推测过去应该是什么样子!
2.1.2 极大似然估计的原则:
- 极大似然估计的原则:现实一定是对应过去发生最大的概率的分支!
- 如果按照H0假设,推测发现已经存在的现实,并不是最大概率(小于显著度),那么就拒绝原假设!
2.2 什么是极大似然估计?
2.2.1 定义
定义:在现实已经发生的基础上,去回溯到过去,推测过去的某个时刻,自然量和因变量是什么样的关系时,现实的发生概率最大?这个推测过程,就是极大似然估计
简单定义:
- 过去最大概率对应的那个分支,极有可能就是现实!
- 现实就是,过去发生的各种可能里概率最大的那种情况!
2.2.2 似然率,likehood
- 现在的可能性—针对是未来,概率,probility
- 过去的可能性—针对是过去,似然率,likehood
2.3 如何理解
可以认为是一个类似坐上时光机去回溯,或者就是思想试验的东西
这个思想试验,是一个模型,就是认为现在往回去倒推,过去自变量和因变量的关系,现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也,那就错了。这个就是极大似然估计。
2.4 如何落地?具体用什么来验证极大似然估计? K2检验
见下面
3 K2检验 (K^2检验,K^2显著度检验)
3.1 K2检验
- chi-square test of independence
- K2检验和 自由度 高度相关
- K2就是chi-square,也就是 “ chi 的平方值 ”
3.2 K2值de公式
- K2=Σ(观察值-预期值)^2/预期值
- K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En
3.3 K2值de判断逻辑
- 需要查表,根据当前的df+概率值的 二维交叉表,可以查到当前的K2值,在指定的df下,其发生的概率大多是多大,如果是小概率的事件,就拒绝。因为极大概率不会发生!
- 这也就是极大似然估计的逻辑。
3.4 具体步骤
- K2值是作为一个查表数值
- 去一个 df*概率的二维交叉表里去差K2数值在那一列!(df决定了行,df和K2共同决定了列!)
- 这样反查概率。
- 用概率率来判断,如果概率很小,证明是小概率事件,发生可能性很小,拒绝H0假设!
3.5 K2值表
3.5.1 K2分布表
- 横轴,行:自由度,DF
- 纵轴,列:概率
- 表中的值,K2值
3.5.2 特点
- 自由度df越大,自由的单元格就更多,表里同样概率对应的K2值就会更大
- 反过来说,也就是出现较大K2值的概率就越大

3.6 K2分布的曲线
3.6.1 曲线图形
- 横轴表示K2值,x
- 纵轴表示概率值,f(x)
- 不同的曲线表示不同df对应的 K2-概率曲线--也就是图上的K参数

- 看经典的K2的曲线。
- 自由度比较小的时候,单调下降
- 自由度比较大之后就开始接近正态分布的钟形曲线了,超过20接近正态
- T值检验T值也和自由度有关系,但关系比较松散不用太关心。
- 因为T检验一般检验连续变量,连续变量自由度很容易超过20,一般不考虑这个限制。
- 但是K2分布,一定要看自由度DF
- 一般自由度越大的K2曲线,K2的值,均值都会更大。
3.6.2 特点
可以看到变化
- 1 前面k=1 k=2的事后,是个完全单调下降的曲线,从df=3开始就开始接近正态分布,
- 2 自由度越大,越接近于正态分布
- 3 在自由度比较大时,比如df大于8,大于20,都可以比较多条曲线,就是同样的K2值(平行于纵轴的竖线)与对应的不同曲线的相交点,DF越大的曲线对应的概率越大。
- 反过来说,就是比较不同的自由度,自由度越大的曲线,对应同样的K2值,其对应的纵轴的概率会越大!
3.7 K2检验有2个要素
- 自由度
- K2值
3.8 K2检验的过程
3.8.1 K2值独立检验
- 先检验,算出来了确定的K2值的结果下,来判断,
- 如果自由度小,K2一般越大,越表示发生的概率小。
- 因而根据最大似然估计,推测 现在不可能是小概率发生,从而用K2检验拒绝了原来的假设。
- 极大似然估计认为,现在一定是 在过去那个事件点发生的概率最大!
4 对数回归
4.1 什么叫对数回归 logit regression
- 对数回归,即发生率的自然对数回归.
- 是以过去的可能性/概率为因变量(/结果)的回归分析
这里面有很多子概念,下面逐个拆解
- 过去的可能性/概率probility=似然率 likehood
- 发生率
- 发生率的对然对数回归
- 为什么要用对数回归
4.1.1 似然率,likehood
- 现在的可能性—针对是未来,概率,probility
- 过去的可能性—针对是过去,似然率,likehood
4.1.2 从概率到→发生率
- 我们这里不直接衡量,过去事情的发生率α,而是衡量其发生率
- 发生率=某个事件发生的概率/此事件不发生的概率
- α/(1-α)
4.1.3 发生率的对然对数回归
- 发生率的对然对数回归
- Ln(α/(1-α))
- 这个才是对数回归中,概率的测量单位: 发生率的自然对数。
5 为什么要用对数回归?
因为线性回归经常会遇到问题
5.1 线性回归的局限性
有时候用线性回归会出现 负数系数,负数截距等,而这是逻辑上不可能的情况
- 比如上学年数是收入的负相关系数,截距也为负等等
- 还会出现概率超过1情况
- 等等逻辑上很怪异的情况
5.1.1 具体举个例子
比如现实中的成绩只有 合格,不合格两档次,而且又没有具体的分数,我们需要分析人们及格的概率,需要怎么做呢?如果我们这么设计
5.2 什么原因引起的?
线性回归遇到问题的原因
- 原因1:如果纯都是定量数据就没问题,但是一旦里面混入了定性/定类数据,就有了问题
- 比如分析模型里有,年龄,成绩,这种定比数据,还有男女,是否经理这种定类数据都作为自变量时就有可能出现这样的情况
- 原因2:本身变量之间的关系就很复杂,不适合用线性关系来描述
- 原因3:其他
5.3 怎么解决?
5.3.1 解决办法
1 对数回归是方法之一:用对数函数处理后,结果还可以用线性表示
2 其他方法
5.3.2 对数回归的方法 logit regression
- 其实还是用的线性回归,只是用对数函数做了中转。
- 因为必须改成曲线回归
- 如何做曲线回归,很难
- 而用对数,可以变换成其他直线回归
5.3.3 概率转化为发生率后,发生率的变化不对称
概率转化为发生率后,发生率的变化不对称。但是发生率的自然对数。Log of it =p/(1-p) 却是对称的,正是利用了对数函数的这一效果。
- 概率,转化为发生率后,发生率的变化不对称。
- 发生率不对称,因为是比率,分母分子变化不对等
- 0.9/0.1=9 变化大,发生率变化小
- 0.99/0.01=99
- 0.999/0.001=999
- 0.9999/0.0001=9999 微量变化小,反而发生率变化很大。
- 转化为发生率的自然对数。
- Log of it =ln(p/(1-p))
- e=2.718
- 所以用自然对数,变成稳定的-4.5~4.5之间了

6 和机器学习的sigmoid函数(也叫逻辑函数)的关系(待完善)
【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)-腾讯云开发者社区-腾讯云在KNN算法中直接可以得出预测结果,但是如果想输出预测结果,还要输出预测结果的概率,这时候就需要使用逻辑回归解决问题。
https://cloud.tencent.com/developer/article/2450449https://zhuanlan.zhihu.com/p/696212659
https://zhuanlan.zhihu.com/p/696212659
相关文章:
【小白学机器学习26】 极大似然估计,K2检验,logit逻辑回归(对数回归)(未完成----)
目录 1 先从一个例题出来,预期值和现实值的差异怎么评价? 1.1 这样一个问题 1.2 我们的一般分析 1.3 用到的关键点1 1.4 但是差距多远,算是远呢? 2 极大似然估计 2.1 极大似然估计的目的 2.1.1 极大似然估计要解决什么问题…...
【日常记录-Java】SLF4J扫描实现框架的过程
1. 简介 SLF4J(Simple Logging Facade for Java)作为一种简单的门面或抽象,服务于其他各种日志框架,例如JUL、log4j、logback等,核心作用有两项: 提供日志接口;提供获取具体日志对象的方法; 2. 扫描过程 …...
uni-app 获取 android 手机 IMEI码
1、需求来源 最近项目上需要获取手机的IMEI码,并且在更换手机号登录后,需要提示重新更新IMEI码。 2、需求拆分 2.1 获取 IMEI 码 查阅 uni-app 官网发现在android 10 已经无法获取imei码,所以对于这个需求拆分成两种情况。 第一种情况&am…...
后台管理系统的通用权限解决方案(八)认证机制介绍、JWT介绍与jjwt框架的使用
文章目录 1 认证机制介绍1.1 HTTP Basic Auth1.2 Cookie-Session Auth1.3 OAuth1.4 Token Auth 2 JWT2.1 JWT介绍2.2 JWT的数据结构2.2.1 JWT头2.2.2 JWT有效载荷2.2.3 JWT签名 3 jjwt3.1 jjwt介绍3.2 jjwt案例 1 认证机制介绍 1.1 HTTP Basic Auth HTTP Basic Auth 是一种简…...
接口测试 —— Postman 变量了解一下!
Postman变量是在Postman工具中使用的一种特殊功能,用于存储和管理动态数据。它们可以用于在请求的不同部分、环境或集合之间共享和重复使用值。 Postman变量有以下几种类型: 1、环境变量(Environment Variables): 环境变量是在…...
鸿蒙系统:核心特性、发展历程与面临的机遇与挑战
好动与不满足是进步的第一必需品 文章目录 前言重要特点和组成部分核心特性主要组件发展历程 机遇挑战总结 前言 鸿蒙系统(HarmonyOS)是由华为技术有限公司开发的一款面向全场景的分布式操作系统。它旨在为用户提供更加流畅、安全且高效的数字生活体验&…...
从0到1,用Rust轻松制作电子书
我之前简单提到过用 Rust 做电子书,今天分享下如何用Rust做电子书。制作电子书其实用途广泛,不仅可以用于技术文档(对技术人来说非常方便),也可以制作用户手册、笔记、教程等,还可以应用于文学创作。 如果…...
半天入门!锂电池剩余寿命预测(Python)
往期精彩内容: 时序预测:LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较 全是干货 | 数据集、学习资料、建模资源分享! EMD变体分解效果最好算法——CEEMDAN(五)-CSDN博客 拒绝信息泄露!VMD滚动分…...
学生党头戴式耳机哪款音质更胜一筹?TOP4好音质头戴式耳机推荐
在挑选头戴式耳机时,市场上琳琅满目的品牌和型号常常让人目不暇接。究竟哪个学生党头戴式耳机哪款音质更胜一筹?这已成为许多人面临的难题。由于每个人对耳机的偏好各有侧重——一些人追求音质的纯净,一些人重视佩戴的舒适性,而另…...
数据结构 ——— 二叉树的概念及结构
目录 二叉树的概念 特殊的二叉树 一、满二叉树 二、完全二叉树 二叉树的概念 二叉树树示意图: 从以上二叉树示意图可以看出: 二叉树每个节点的度不大于 2 ,那么整个二叉树的度也不大于 2 ,但是也不是每个节点都必须有 2 个…...
【React】React 的核心设计思想
🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 💫个人格言: "如无必要,勿增实体" 文章目录 React 的核心设计思想引言声明式编程声明式 vs 命令式示例 组件化组件的优势组件…...
C++ 二叉树进阶:相关习题解析
目录 1. 二叉树创建字符串。 2. 二叉树的分层遍历1 3. 二叉树的分层遍历2 4. 二叉树的最近公共祖先 5. 将二叉搜索树转换为排序的双向链表 6. 从前序与中序遍历序列构造二叉树 7. 从中序与后序遍历序列构造二叉树 8. 二叉树的前序遍历,非递归迭代实现 9.…...
Matlab实现蚁群算法求解旅行商优化问题(TSP)(理论+例子+程序)
一、蚁群算法 蚁群算法由意大利学者Dorigo M等根据自然界蚂蚁觅食行为提岀。蚂蚁觅食行为表示大量蚂蚁组成的群体构成一个信息正反馈机制,在同一时间内路径越短蚂蚁分泌的信息就越多,蚂蚁选择该路径的概率就更大。 蚁群算法的思想来源于自然界蚂蚁觅食&a…...
2024年10月HarmonyOS应用开发者基础认证全新题库
注意事项:切记在考试之外的设备上打开题库进行搜索,防止切屏三次考试自动结束,题目是乱序,每次考试,选项的顺序都不同 这是基础认证题库,不是高级认证题库注意看清楚标题 高级认证题库地址:20…...
kafka 分布式(不是单机)的情况下,如何保证消息的顺序消费?
大家好,我是锋哥。今天分享关于【kafka 分布式(不是单机)的情况下,如何保证消息的顺序消费?】面试题?希望对大家有帮助; kafka 分布式(不是单机)的情况下,如何保证消息的…...
数据分析案例-苹果品质数据可视化分析+建模预测
🤵♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞Ǵ…...
沈阳乐晟睿浩科技有限公司抖音小店运营创新
在当今这个数字化迅猛发展的时代,电子商务已经成为推动经济增长的重要引擎。而在电商的广阔舞台上,短视频与直播带货的崛起无疑是最为耀眼的明星之一。作为这一领域的佼佼者,抖音小店凭借其庞大的用户基础和独特的算法优势,吸引了…...
【前端】CSS知识梳理
基础:标签选择器、类选择器、id选择器和通配符选择器 font:font-style(normal) font-weight(400) font-size(16px) /line-height(0) font-family(宋体) 复合: 后代选择器( )、子选择器(>)、并集选择器(…...
【undefined reference to xxx】zookeeper库编译和安装 / sylar项目ubuntu20系统编译
最近学习sylar项目,编译项目时遇到链接库不匹配的问题,记录下自己解决问题过程,虽然过程很艰难,但还是解决了,以下内容供大家参考! undefined reference to 问题分析 项目编译报错 /usr/bin/ld: ../lib/lib…...
IDEA解决 properties 文件乱码问题
博主介绍: 计算机科班人,全栈工程师,掌握C、C#、Java、Python、Android等主流编程语言,同时也熟练掌握mysql、oracle、sqlserver等主流数据库,具有丰富的项目经验和开发技能。提供相关的学习资料、程序开发、技术解答、…...
AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...
Java 语言特性(面试系列2)
一、SQL 基础 1. 复杂查询 (1)连接查询(JOIN) 内连接(INNER JOIN):返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...
云计算——弹性云计算器(ECS)
弹性云服务器:ECS 概述 云计算重构了ICT系统,云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台,包含如下主要概念。 ECS(Elastic Cloud Server):即弹性云服务器,是云计算…...
【人工智能】神经网络的优化器optimizer(二):Adagrad自适应学习率优化器
一.自适应梯度算法Adagrad概述 Adagrad(Adaptive Gradient Algorithm)是一种自适应学习率的优化算法,由Duchi等人在2011年提出。其核心思想是针对不同参数自动调整学习率,适合处理稀疏数据和不同参数梯度差异较大的场景。Adagrad通…...
大型活动交通拥堵治理的视觉算法应用
大型活动下智慧交通的视觉分析应用 一、背景与挑战 大型活动(如演唱会、马拉松赛事、高考中考等)期间,城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例,暖城商圈曾因观众集中离场导致周边…...
C++八股 —— 单例模式
文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全(Thread Safety) 线程安全是指在多线程环境下,某个函数、类或代码片段能够被多个线程同时调用时,仍能保证数据的一致性和逻辑的正确性…...
CMake控制VS2022项目文件分组
我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...
QT3D学习笔记——圆台、圆锥
类名作用Qt3DWindow3D渲染窗口容器QEntity场景中的实体(对象或容器)QCamera控制观察视角QPointLight点光源QConeMesh圆锥几何网格QTransform控制实体的位置/旋转/缩放QPhongMaterialPhong光照材质(定义颜色、反光等)QFirstPersonC…...
【Android】Android 开发 ADB 常用指令
查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...
手机平板能效生态设计指令EU 2023/1670标准解读
手机平板能效生态设计指令EU 2023/1670标准解读 以下是针对欧盟《手机和平板电脑生态设计法规》(EU) 2023/1670 的核心解读,综合法规核心要求、最新修正及企业合规要点: 一、法规背景与目标 生效与强制时间 发布于2023年8月31日(OJ公报&…...
