机器学习·概率论基础
概率论
概率基础
这部分太简单,直接略过
条件概率
独立性
独立事件A和B的交集如下
非独立事件
非独立事件A和B的交集如下
贝叶斯定理
先验 事件 后验
在概率论和统计学中,先验概率和后验概率是贝叶斯统计的核心概念
简单来说后验概率就是结合了先验概率的前提和新事件的信息
自然贝叶斯
自然贝叶斯就是在有多个先验的前提下,假设它们相互独立,利用公式算出来的近似概率
贝叶斯与机器学习
-
条件概率生成像素
-
条件概率识别图像
概率分布
随机变量
随机变量分为离散型随机变量和连续型随机变量
区别如下
两个分布函数
-
概率密度函数
-
累积分布函数
概率分布
纵坐标都是概率密度函数,面积才是概率,且总面积为1
-
伯努利分布和二项分布
-
均匀分布或标准分布
概率密度函数在一个范围[a,b]为定值
理解模板函数
μ和σ的几何意义
一旁的函数是面积
箱型图
箱线图也称箱须图、箱形图、盒图,用于反映数据的离散程度,倾斜程度
主要由Q1,Q2,Q3百分位数组成,
QQ图
定义
分位数-分位数图是通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法
横坐标是理论正态概率分布的百分数,纵坐标是数据概率分布的百分数
具体定义如下
统计意义
- 比较数据是否符合正态分布
- 越接近直线越可能是正态分布
边缘分布
将高维度密度分布降低至低纬度密度分布
离散型随机变量
*唯一公式
体现在联合分布的散点图上
连续性随机变量
本质是散点图+概率密度绘制成三维图像上的一个横截面,公式与离散型完全一致
条件分布
两个随机变量的条件分布
公式:本质上是条件概率
- 离散型随机变量
- 连续型随机变量
几何意义:横截面只是上式的分母
协方差
公式
对于数据集来收,概率分布为恒定值;对于随机变量来说,公式要变成加权的形式
统计意义
协方差为正或负说明数据集之间有正相关或负相关的关系,接近0说明数据集几乎没有关系
协方差矩阵
对角线上都是变量的方差,其他都是两个变量之间的协方差
相关系数
就是把协方差标准化的结果
数理统计
总体和样本的统计属性
样本的方差
这种结果更接近总体真实的方差
大数定理
大数定律揭示了随着样本量 𝑛 的增加,样本均值将越来越接近总体的期望值
中心极限定理
中心极限定理(Central Limit Theorem,CLT)是概率论和统计学中的一个重要定理,它描述了在一定条件下,独立同分布随机变量的和(或均值)趋近于正态分布的性质。具体来说,中心极限定理表明,当样本量足够大时,任何分布的独立同分布随机变量的均值的分布都将接近于正态分布,不论这些变量的原始分布是什么。
直接应用
- 利用样本的均值计算总体估计总体的均值,因为中心极限定理告诉我们当n->∞+,二者的均值是一致的,
也可以用来估计方差随着样本的变化趋势
- 中心极限定理表明,当 n 足够大时,均值的标准化形式将收敛于标准正态分布
可以用于假设检验等这些要求正态分布的情况
点估计-最大似然估计MLE
最大似然估计(Maximum Likelihood Estimation,MLE)是一种用于估计统计模型参数的方法。最大似然估计通过找到使得观测数据出现的概率最大的参数值,来估计模型参数。
说人话就是已知某个数据集,想要计算某个模型的参数,只需要令各个数据在这个模型(概率密度/分布函数)中的概率乘积(等价于出现可能性)最大,就可以通过求导找出零点解出参数值
伯努利估计
- 随机变量只有两个取值
取对数求极值
最终大概率:实际出现值的平均值
高斯函数估计
基本同理:也是最大化点在正态分布曲线上的概率
线性回归
你的模型就是一条直线,现在讨论的时让数据集尽可能接近你的直线,利用垂直的高斯函数,最大化概率计算直线的参数
- 假设都是用的标准高斯函数进行概率模拟
等价于最小化这些平方误差
正则化
正则化(Regularization)是一种用于防止机器学习模型过拟合的技术。过拟合是指模型在训练数据上表现良好,但在新数据(测试集)上表现不佳,即模型过于复杂,以至于捕捉了训练数据中的噪音和细节,无法很好地推广到新的数据。正则化通过在损失函数中增加一个惩罚项,限制模型的复杂度,从而提高模型的泛化能力。
常见正则化方法:L2-正则化
多项式拟合中,多项式系数的平方之和组成惩罚项
正则项
L2-正则化误差乘以正则化参数
贝叶斯统计
贝叶斯公式:信念,先验和后验
贝叶斯统计将概率解释为对不确定事件的主观信念或信念程度。它通过更新这种信念来进行统计推断。
- 贝叶斯公式的进一步解释
- 离散和连续分布的贝叶斯公式
最大化后验概率 MAP
其实就是更新后的后验概率分布中取一个最大值,最大化你的信念
贝叶斯统计的特点
先验很大程度上影响着后验
没有任何信息的先验,均匀分布的PDF函数的最大后验就是MLE
如果有充分数据,MLE和MAP估计是一样的
三者的关系
模型的总损失=模型本身的损失·MLE估计的损失+正则化损失
模型损失
多项式模型的系数分布在正太分布曲线上之积最小化
条件概率:MLE估计
就是模型生成的点与目标函数的差在正态分布曲线上的概率最大值
正则化
置信区间
显著性水平α
样本落在置信区间外的概率
z-score
Z-score是一种标准化的数据度量,仅仅适用于正态分布中
Z-score表示一个数据点距离其所在数据集均值的标准差倍数。
Z 分数用于衡量一个观测值在其分布中的相对位置,能够帮助识别数据点的异常程度以及进行不同数据集之间的比较。
计算公式
- Z分数与显著性水平的关系
z相关于显著性水平α的的值通过查表获得
置信区间的计算公式
怎么来的:将均值标准化后根据置信水平确定Z值,然后还原为随机变量X-bar即可
在标准差准确的情况下,均值的分布一定是正态分布,根据中心极限定理
- 边际误差的计算
t分布-当标准差未知的情况
当使用样本的标准差时,均值的分布不是一个正态分布,而是一个t分布
t分布有一个自由度=样本数N-1,自由度越大,均值分布越接近于正态分布
概率的置信区间计算
P-hat是抽样的概率,概率的置信区间与样本均值的置信区间计算公式一致,都是±边际误差
相关文章:
机器学习·概率论基础
概率论 概率基础 这部分太简单,直接略过 条件概率 独立性 独立事件A和B的交集如下 非独立事件 非独立事件A和B的交集如下 贝叶斯定理 先验 事件 后验 在概率论和统计学中,先验概率和后验概率是贝叶斯统计的核心概念 简单来说后验概率就是结合了先验概…...
c生万物系列(面向对象:封装)
本系列博客主要介绍c语言的一些屠龙技,里面包含了笔者本人的一些奇思妙想。 该系列博客笔者只是用作记录。如果你偶然找到了这篇博客,但是发现不知所云,请不要过多投入时间,可能笔者本人那时候也看不懂了。 笔者决定用c语言模仿…...
当当网数据采集:Scrapy框架的异步处理能力
在互联网数据采集领域,Scrapy框架以其强大的异步处理能力而著称。Scrapy利用了Python的异步网络请求库,如twisted,来实现高效的并发数据采集。本文将深入探讨Scrapy框架的异步处理能力,并展示如何在当当网数据采集项目中应用这一能…...
React——useEffect和自定义useUpdateEffect
useEffect 是React的一个内置Hook,用于在组件渲染后执行副作用(例如数据获取、订阅或手动更改DOM)。它将在第一次渲染后和每次更新后都会执行。 useEffect(() > {// 这里的代码将在组件挂载和更新时执行。 }, [dependencies]); // depend…...
Hadoop大数据处理架构中ODB、DIM、DWD、DWS
在Hadoop的大数据处理架构中,ODS、DIM、DWD和DWS分别代表了数据仓库体系中不同的层次和功能。下面解释这几个概念: ODS (Operational Data Store) 想象你有一家超市,每天营业结束后,你会把当天所有的销售记录、顾客信息、商品库…...
【刷题汇总 -- 爱丽丝的人偶、集合、最长回文子序列】
C日常刷题积累 今日刷题汇总 - day0211、爱丽丝的人偶1.1、题目1.2、思路1.3、程序实现 2、集合2.1、题目2.2、思路2.3、程序实现 -- set 3、最长回文子序列3.1、题目3.2、思路3.3、程序实现 -- dp 4、题目链接 今日刷题汇总 - day021 1、爱丽丝的人偶 1.1、题目 1.2、思路 …...
基于vue3 + vite产生的 TypeError: Failed to fetch dynamically imported module
具体参考这篇衔接: Vue3报错:Failed to fetch dynamically imported module-CSDN博客 反正挺扯淡的,错误来源于基于ry-vue-plus来进行二次开发的时候遇到的问题。 错误起因 我创建了一个广告管理页面。然后发现访问一直在加载中。报的是这样…...
批量自动添加好友,高效拓展人脉圈.
随着微信使用数量的不断增加,手动添加好友成为了一项耗时且繁琐的任务。为了帮助大家解决这个问题,下面分享一款高效的微信管理系统,它能够帮助你实现批量自动添加好友,极大提升了人脉拓展的效率。 这款微信管理系统可以同时管理多…...
Web开发:一个可拖拽的模态框(HTML、CSS、JavaScript)
目录 一、需求描述 二、实现效果 三、完整代码 四、实现过程 1、HTML 页面结构 2、CSS 元素样式 3、JavaScript动态控制 (1)获取元素 (2)显示\隐藏遮罩层与模态框 (3)实现模态框拖动效果 一、需求…...
【深度学习】fooocusapi,docker,inpainting图像
基础镜像制作来源 fooocusapi接口官方写的: docker run -d --gpusall \-e NVIDIA_DRIVER_CAPABILITIEScompute,utility \-e NVIDIA_VISIBLE_DEVICESall \-p 8888:8888 konieshadow/fooocus-api会下载一些模型,下载完后推这个镜像 docker commit 4dfd1…...
算法017:二分查找
二分查找. - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/binary-search/ 二分查找,其实是双指针的一种特殊情况,但是时间复杂度极低&#…...
谷粒商城实战笔记-37-前端基础-Vue-基本语法插件安装
文章目录 一,v-model1,双向绑定2,vue的双向绑定2.1 html元素上使用指令v-model2.2 model中声明对应属性2.3,验证view绑定modelmodel绑定view 完整代码 二,v-on1,指令简介2,在button按钮中添加v-…...
mybatis中的缓存(一级缓存、二级缓存)
文章目录 前言一、MyBatis 缓存概述二、一级缓存1_初识一级缓存2_一级缓存命中原则1_StatementId相同2_查询参数相同3_分页参数相同4_sql 语句5_环境 3_一级缓存的生命周期1_缓存的产生2_缓存的销毁3_网传的一些谣言 4_一级缓存核心源码5_总结 三、二级缓存1_开启二级缓存2_二级…...
实现自动化采购:食堂采购系统源码开发详解
本篇文章,笔者将详细介绍食堂采购系统的开发过程,从需求分析、系统设计到实现和测试,为您全面解析如何构建一个高效的自动化采购系统。 一、需求分析 1.采购计划管理 2.供应商管理 3.订单管理 4.库存管理 5.财务管理 6.数据分析与报告 …...
linux、windows、macos清空本地DNS缓存
文章目录 Linux:Windows:macOS: Linux: 对于使用systemd的操作系统(如CentOS 7、Ubuntu 16.04),可以使用以下命令重启systemd-resolved服务来清除缓存: sudo systemctl restart sys…...
领夹麦克风哪个品牌好,电脑麦克风哪个品牌好,热门麦克风推荐
在信息快速传播的时代,直播和视频创作成为了表达与交流的重要方式。对于追求卓越声音品质的创作者而言,一款性能卓越的无线麦克风宛如一把利剑。接下来,我要为大家介绍几款备受好评的无线麦克风,这些都是我在实际使用中体验良好…...
【第5章】Spring Cloud之Nacos服务注册和服务发现
文章目录 前言一、提供者1. 引入依赖2.配置 Nacos Server 地址3. 开启服务注册 二、消费者1. 引入依赖2.配置 Nacos Server 地址3. 开启服务注册 三、服务列表四、服务发现1. 获取服务列表2. 测试2.1 获取所有服务2.2 根据服务名获取服务信息 五、更多配置项总结 前言 本节通过…...
Springboot 启动时Bean的创建与注入(一)-面试热点-springboot源码解读-xunznux
Springboot 启动时Bean的创建与注入,以及对应的源码解读 文章目录 Springboot 启动时Bean的创建与注入,以及对应的源码解读构建Web项目流程图:堆栈信息:堆栈信息简介堆栈信息源码详解1、main:10, DemoApplication (com.xun.demo)2…...
单调栈(随缘复习到了,顺手刷了)
也是不知道为什么突然又复习到单调栈了,所以顺手刷了三道题,总结一下 P6503 [COCI2010-2011#3] DIFERENCIJA 思路:这题是要求每个子区间里面的最大值和最小值的差,我们一开始想的必然是纯暴力呀,但是一看这数据&#…...
学习测试10-3自动化 web自动化
web自动化 chrome驱动下载地址: https://registry.npmmirror.com/binary.html?pathchromedriver/ https://googlechromelabs.github.io/chrome-for-testing/#stable观察Google版本,下相应的驱动 运行代码试试,成功Google就会弹出 from se…...
安防视频监控EasyCVR视频汇聚平台修改配置后无法启动的原因排查与解决
安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台基于云边端一体化架构,兼容性强、支持多协议接入,包括国标GB/T 28181协议、部标JT808、GA/T 1400协议、RTMP、RTSP/Onvif协议、海康Ehome、海康SDK、大华SDK、华为SDK、宇视SDK、乐橙SDK、萤石云SD…...
爬虫学习2:爬虫爬取网页的信息与图片的方法
爬虫爬取网页的信息与图片的方法 爬取人物信息 import requestshead {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0" } # 这是get请求带参数的模式…...
MySQL定时备份数据,并上传到oss
1.环境准备 1.安装阿里云的ossutil 2.安装mysql 2.编写脚本 脚本内容如下 #!/bin/bash # 数据库的配置信息,根据自己的情况进行填写 db_hostlocalhost db_usernameroot db_passwordroot db_namedb_root # oss 存贮数据的bucket地址 bucket_namerbsy-backup-buck…...
极速删除 node_modules 仅3 秒()
今天教大家如何快速删除 node_modules 依赖的一个小秘诀,告别繁琐!!! 前言 作为前端开发者,相信大家都曾经历过删除 node_modules 文件夹时的漫长等待。 尤其是在处理那些依赖库繁多的项目时,删除操作…...
vue this.$refs 动态拼接
业务需要,refs是不固定的 <vxe-grid refgridWarehouse v-bind"gridWarehouseOptions" v-if"tableHeight" :height"tableHeight":expand-config"{iconOpen: vxe-icon-square-minus, iconClose: vxe-icon-square-plus}"c…...
一次搞定!中级软件设计师备考通关秘籍
大家好,我是小欧! 今天我们来聊聊软考这个话题。要是你准备参加计算机技术与软件专业技术资格(软考),那么这篇文章就是为你量身定做的。话不多说,咱们直接进入正题。 什么是软考? 软考…...
第十六讲 python中的序列-列表简介-特点-常用方法-创建-添加-删除-访问-切片-排序-复制-反转
目录 1. 序列的本质和内存结构 2.列表 2.1 列表简介 2.2 列表的特点 2.3 列表对象的常用方法大全: 2.4 列表的创建 2.4.1 使用方括号 [] 2.4.2 使用 list() 函数 2.4.3 使用 range() 函数 2.4.3.1 range的基本用法 2.4.3.2 返回值 2.4.3.3 range的使用例子 2.4.3.4 range的使…...
大模型日报 2024-07-22
大模型日报 2024-07-22 大模型资讯 谷歌将在ICML 2024展示机器学习研究成果 摘要: 谷歌研究人员将在ICML 2024会议上展示他们在机器学习领域的探索,从理论到应用,构建解决深层问题的ML系统。 代理符号学习:优化AI系统符号组件的框架 摘要: 大…...
Electron 的open-file事件
在 Electron 中,open-file 事件是一个重要的事件,它允许开发者在应用程序已经运行的情况下,通过文件打开请求(如双击文件或在命令行中使用 open 命令打开文件)来捕获文件路径。以下是对 open-file 事件的详细解析: 触发条件 应用已经打开。用户通过双击与应用程序关联的…...
前端面试 vue 接口权限控制
接口权限目前一般采用jwt的形式来验证,没有通过的话一般返回401,跳转到登录页面重新进行登录 对于 jwt的理解 (前端接口权限的控制主要通过接口权限配置和JWT(Json Web Token)技术来实现。 首先,…...
手机网站图片自适应代码/关键词优化排名
文章目录一、对《青春有你2》的参赛选手区域进行可视化分析二、爬《青春有你2》的参赛选手体重进行可视化分析一、对《青春有你2》的参赛选手区域进行可视化分析 """ 对《青春有你2》的参赛选手区域进行可视化分析 """ import matplotlib.pyplo…...
wordpress 获取当前位置/无锡百度推广开户
目录 前言 一、ImportBeanDefinitionRegistrar 方式一 方式二 二、EnableDubboConfig与DubboComponentScan 三、DubboConfigConfigurationRegistrar与DubboComponentScanRegistrar 扫描并注册Service Bean 扫描并注册Reference Bean 四、EnableDubbo 五、要点总结 前…...
中国公路建设行业协会网站这么上不/电商的运营模式有几种
JVM是JAVA虚拟机,JMM是JAVA内存模型。 JVM内存模型 JVM内存模型主要指运行时的数据区,包括5个部分 线程私有: 栈也就方法栈,是线程私有的,线程在执行每个方法时都会同时创建一个栈帧,用来存储局部变量表…...
广东app开发公司排行榜/排名优化软件点击
PyInstaller的原理简介PyInstaller其实就是把python解析器和你自己的脚本打包成一个可执行的文件,和编译成真正的机器码完全是两回事,所以千万不要指望成打包成一个可执行文件会提高运行效率,相反可能会降低运行效率,好处就是在运…...
社团网站设计网页/长沙seo关键词排名
使用Docker在服务器上部署Ubuntu,本地传文件到docker作者:王佳乐 目录 安装Docker安装Docker 全部安装流程: 登录服务器 ssh usernameip检查是否已经安装docker安装需要的包 sudo apt install apt-transport-https ca-certificates software-…...
商丘做手机做网站/好项目推荐平台
GTK中的构件II(Widgets)GTK中的构件II(Widgets)在本章的GTK程序设计中,我们仍然要继续向大家介绍和展示各种各样的构件。GtkComboBoxGtkComboBox构件的作用是让程序使用者根据不同的需求从很多选项中进行选择。#include <gtk/gtk.h>void combo_selected(GtkWi…...