机器学习:朴素贝叶斯模型算法原理(含实战案例)
机器学习:朴素贝叶斯模型算法原理
作者:i阿极
作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页
😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍
📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪
专栏案例:机器学习 |
---|
机器学习:基于逻辑回归对某银行客户违约预测分析 |
机器学习:学习k-近邻(KNN)模型建立、使用和评价 |
机器学习:基于支持向量机(SVM)进行人脸识别预测 |
决策树算法分析天气、周末和促销活动对销量的影响 |
机器学习:线性回归分析女性身高与体重之间的关系 |
机器学习:基于主成分分析(PCA)对数据降维 |
机器学习:基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测 |
机器学习:学习KMeans算法,了解模型创建、使用模型及模型评价 |
机器学习:基于神经网络对用户评论情感分析预测 |
文章目录
- 机器学习:朴素贝叶斯模型算法原理
- 1、前言
- 2、实验原理
- 2.1、一维特征向量
- 2.2二维特征向量
- 2.3n维特征向量
- 3、朴素贝叶斯模型演示
- 4、案例实战:肿瘤预测
- 4.1案例背景
- 4.2读取数据
- 4.3划分特征变量和目标变量
- 4.4划分训练集和测试集
- 4.5高斯朴素贝叶斯模型
- 4.6模型预测
- 总结
1、前言
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
在这个信息爆炸的时代,如何高效处理数据并利用数据推动决策显得尤为重要,这便是人们通常所说的“数据分析”。与数据分析相伴而生的机器学习(Machine Learning),有些人可能会感到陌生,然而说到战胜了众多人类围棋高手的智能机器人AlphaGo,想必大多数人都有所耳闻。AlphaGo背后的原理支撑就是机器学习,它通过模拟人类的学习行为,不停地分析海量的围棋数据,发现数据背后的规律,从而在已有条件下做出最为理性的决断,这个过程充满了机器美学。
Python是数据分析和机器学习的一把“利刃”,其功能强大且简单易上手。
2、实验原理
贝叶斯分类是机器学习中应用极为广泛的分类算法之一,其产生来自于贝叶斯对于逆概问题的思考,朴素贝叶斯是贝叶斯模型当中最简单的一种。
其算法核心为贝叶斯公式:
P(A)为事件A发生的概率
P(B)为事件B发生的概率
P(A|B)表示在事件B发生的条件下事件A发生的概率
同理P(B|A)则表示在事件A发生的条件下事件B发生的概率
如果只看公式,有些小伙伴会无法快速知道其中原理。举个例子:
已知流感季节一个人感冒(事件A)的概率为40%(P(A))
一个人打喷嚏(事件B)的概率为80%(P(B))
一个人感冒的条件下打喷嚏的概率为100%(P(B|A))
求这个人在打喷嚏的条件下患感冒的概率P(A|B),求解过程如下图所示:
2.1、一维特征向量
首先以一个更详细的例子来讲解一下贝叶斯公式更加偏实战的应用:如何判断一个人是否感冒了。假设已经有5个样本数据,如下表所示:
打喷嚏(X) | 感冒(Y) |
---|---|
1 | 1 |
1 | 1 |
0 | 1 |
1 | 1 |
1 | 0 |
打喷嚏 (X):其中数字1表示打喷嚏,0表示不打喷嚏;
感冒 (Y):其中数字1表示感冒了,数字0表示未感冒。
我们要利用贝叶斯公式,一个人打喷嚏 (X=1),那么他是否感冒了呢,也即预测他处于感冒状态的概率为多少,我们把此概率写作P(Y|X)。
则贝叶斯公式就有:
根据上述数据,我们可以计算在打喷嚏 (X=1) 的条件下,患上感冒的概率为:
再根据上面的公式,代入数据得:
2.2二维特征向量
在上面,我们讲解了一维特征向量,只有两个变量。现在来讲二维特征向量,加入另外一个特征变量:头痛(X),其中数字1表示头痛,0表示不头痛;这里的目标变量仍为感冒(Y)。
打喷嚏(X1) | 头痛(X2) | 感冒(Y) |
---|---|---|
1 | 1 | 1 |
1 | 1 | 1 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
一个人他打喷嚏且头痛 (X1=1, X2=1) ,那么他是否感冒了呢,也即预测他处于感冒状态的概率为多少,在数学上,我们把此概率写作P(Y|X1,X2)。
则贝叶斯公式就有:
在比较 P(Y=1|X1,X2) 与 P(Y=0|X1,X2) 时,由于分母 P(X1,X2) 的值是相同的,所以我们在实际计算中可以舍去这部分的计算,直接比较两者分子大小即可。即:
2.3n维特征向量
我们可以在2个特征变量的基础上推广至n个特征变量 X1, X2, … , Xn,应用贝叶斯公式有:
朴素贝叶斯模型假设给定目标值后特征之间相互独立,上式可以写作:
3、朴素贝叶斯模型演示
朴素贝叶斯模型(这里用的是高斯贝叶斯分类器)的引入方式如下所示:
导入模块
from sklearn.naive_bayes import GaussianNB
创建相关数据
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [0, 0, 0, 1, 1]
建立高斯贝叶斯分类器
model = GaussianNB()
model.fit(X, y)
使用模型对数据预测
print(model.predict([[6,6]]))
4、案例实战:肿瘤预测
4.1案例背景
医疗水平突飞猛进,人们对医院快速识别肿瘤是否为良性的要求同样也越来越高,能否根据患者肿瘤的相关特征水平快速判断肿瘤的性质影响着患者的治疗方式和痊愈速度。传统的做法是医生根据数十个指标来判断肿瘤的性质,不过该方法的预测效果依赖于医生的个人经验而且效率较低,而通过机器学习我们有望能快速预测肿瘤的性质。
4.2读取数据
import pandas as pd
df = pd.read_excel(r"D:\CSDN\data\naivebayes\肿瘤数据.xlsx")
df.head()
最大周长,最大凹陷度,最大面积,最大半径代表所有肿瘤中最大3个值的平均值
平均凹陷度,平均表面纹理灰度值,代表所有肿瘤度的平均值
对于目标变量肿瘤性质,Y=0 代表肿瘤为恶性,Y=1代表肿瘤为良性
4.3划分特征变量和目标变量
将特征变量和目标变量单独提取出来
X = df.drop(columns='肿瘤性质')
y = df['肿瘤性质']
4.4划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
4.5高斯朴素贝叶斯模型
from sklearn.naive_bayes import GaussianNB
nb_clf = GaussianNB()
nb_clf.fit(X_train,y_train)
nb_clf.score(X_train,y_train)
4.6模型预测
搭建模型的目的便是希望利用它来预测数据,这里把测试集中的数据导入到模型中来进行预测,代码如下,其中nb_clf就是上面搭建的朴素贝叶斯回归模型。
pre = nb_clf.predict(X_test)
利用创建DataFrame相关知识点,将预测的y_pred和测试集实际的y_test汇总,代码如下:
data = pd.DataFrame()
data['预测值'] = list(pre)
data['实际值'] = list(y_test)
查看测试集数据对预测准确度
from sklearn.metrics import accuracy_score
score = accuracy_score(pre,y_test)
score
将score打印输出,发现score的值为0.947,也即预测准确度为94.7%,说明114(569*0.2)个测试数据中,共有约108个数据预测正确,6个数据预测错误。
总结
朴素贝叶斯模型是一种非常经典的机器学习模型,它主要基于贝叶斯公式,在应用过程中会把数据集中的特征看成是相互独立的,而不需考虑特征间的关联关系,因此运算速度较快。相比于其他经典的机器学习模型,朴素贝叶斯模型的泛化能力稍弱,不过当样本及特征的数量增加时,其预测效果也是不错的。
相关文章:
机器学习:朴素贝叶斯模型算法原理(含实战案例)
机器学习:朴素贝叶斯模型算法原理 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏&…...
Linux 多线程:理解线程
目录一、理解线程的思想二、Linux中的线程与进程1.Linux中的进程2.Linux中的线程三、线程的工作方式四、线程的独有数据与共享数据1.独有数据2.共享数据一、理解线程的思想 线程就是把一个进程分成多个执行部分,一个部分就是一个线程,比如可以让一个线程…...
Web前端学习:章四 -- JavaScript初级(四)-- BOM
138:Object数据格式简介 1、object对象 JS中独有 的一种数据格式 名字可以随便取,值一般就那几种数据格式 139:BOM - JS跳转页面 BOM Browser Object Model:浏览器对象模型 使用JavaScript控制浏览器交互 控制浏览器里面的内…...
Lesson9.网络基础1
网络协议初识 所谓的协议就是人们为了通信的一种约定 操作系统要进行协议管理,必然会先描述,再组织协议本质就是软件,软件是可以"分层"协议在设计的时候,就是被层状的划分的, 为什么要划分成为层状结构 场景复杂功能解耦(便于人们进行各种维护)OSI七层模型 局域网中…...
这几个SQL语法的坑,你踩过吗
本文已经收录到Github仓库,该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点,欢迎star~ Github地址:https://github.com/…...
算法基础——复杂度
前言 算法是解决问题的一系列操作的集合。著名的计算机科学家Niklaus Wirth曾提出:算法数据结构程序,由此可见算法在编程中的重要地位。本篇主要讨论算法性能好坏的标准之一——复杂度。 1 复杂度概述 1.1 什么是复杂度 本文所讨论的复杂度是指通过事先…...
基类与派生类对象的关系 派生类的构造函数
🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C 🔥座右铭:“不要等到什么都没有了,才下…...
【算法】生成分布式 ID 的雪花算法
ID 是数据的唯一、不变且不重复的标识,在查询数据库的数据时必须通过 ID 查询,在分布式环境下生成全局唯一的 ID 是一个重要问题。 雪花算法(snowflake)是一种生成分布式环境下全局唯一 ID 的算法,该算法由 Twitter 发…...
Linux系统编程 - 基础IO(IO操作)
目录 预备知识 复习C文件IO相关操作 printf相关函数 fprintf snprintf 读取文件 系统文件IO操作 open函数 umask()函数 open函数返回值 预备知识 1.你真的理解文件原理和操作了吗?不是语言问题,是系统问题2.是不是只有C/C有文件操作呢&#x…...
基于 Avue 的 CRUD 表格组件封装
在 components 文件夹中,创建一个新的 .vue 文件,例如:AvueCrudTable.vue。 透传父组件传递的属性和事件 : 1、利用v-bind=“ a t t r s " 支持所有 a v u e 的使用方法并在其基础上进行封装 2 、使用 v − o n = " attrs"支持所有 avue 的使用方法并在其基…...
树莓派学习笔记(十三)基于框架编写驱动代码
文章目录一、代码分析:二、源码一、代码分析: 在内核中由于代码文件多,避免函数名重复,使用static将函数的作用域限制在该文件内 内核的打印函数printk和printf类似 file_operations结构体使用符号“ . ”指定参数,省…...
vue事件修饰符之.prevent
.prevent 事件修饰符只是阻止默认事件,不会自动触发任何事件处理函数。因此,在使用 .prevent 事件修饰符时,需要自己编写相应的事件处理函数来处理事件。 例如,在上面的例子中,我们通过在表单上绑定 submit.prevent&q…...
【SpringCloud AlibabaSentinel实现熔断与限流】
本笔记内容为尚硅谷SpringCloud AlibabaSentinel部分 目录 一、Sentinel 1、官网 2、Sentinel是什么 3、下载 4、特性 5、使用 二、安装Sentinel控制台 1、sentinel组件由2部分构成 2、安装步骤 1.下载 2.运行命令 3.访问sentinel管理界面 三、初始化演示工程 …...
类与对象-封装
一、封装的意义封装是C面向对象三大特性之一语法: class name { 访问权限:属性行为 };注意:类中的属性和行为 统称为成员属性 又称 成员属性 / 成员变量行为 又称 成员函数 / 成员方法封装将属性和行为作为一个整体,表现生活中的事物例①&…...
【回忆杀】2012年拥有第一台电脑【致逝去的青春】
高中说起 在2012年的时候吧,高考过后,那个时候一门心思的想当一名体育老师【现在居然还有这个想法,哈哈】,最后没有考上自己希望的大学我记得好像是2012年7月的时候就去重庆投靠朋友,他教我做模具,2012年做…...
PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies
Abstract PointNet 是点云理解领域最有影响力的神经网络架构之一。虽然近期出现了 PointMLP 和 Point Transformer 等新型网络,它们的精度已经大大超过了 PointNet,但我们发现大部分性能提升是由于改进的训练策略,例如数据增强和优化技术以及…...
打印九九乘法表-课后程序(JavaScript前端开发案例教程-黑马程序员编著-第2章-课后作业)
【案例2-9】打印九九乘法表 一、案例描述 考核知识点 for双重循环 练习目标 掌握for循环应用。实现九九乘法表。 需求分析 九九乘法表相信大家一点也不陌生,之前见到的乘法表是印刷在课程本之上的。而在本案例中我们将用JavaScript代码来实现九九乘法表。 案例分…...
【Linux】基于阻塞队列的生产者消费者模型
🌠 作者:阿亮joy. 🎆专栏:《学会Linux》 🎇 座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根 目录👉为何要使用…...
【华为OD机试 2023最新 】 真正的密码(C++)
文章目录 题目描述输入描述输出描述用例题目解析C++题目描述 在一行中输入一个字符串数组,如果其中一个字符串的所有以索引0开头的子串在数组中都有,那么这个字符串就是潜在密码, 在所有潜在密码中最长的是真正的密码,如果有多个长度相同的真正的密码,那么取字典序最大的…...
差分算法(蓝桥杯复习+例题讲解+模板c++)
文章目录差分介绍差分应用区间加区间求和总结3729. 改变数组元素100. 增减序列文章首发于:My Blog 欢迎大佬们前来逛逛 差分介绍 差分是一种常见的算法,用于快速修改数组中某一段区间的值。 差分的思想就是预处理出数组的差分数组,然后修改…...
CSS+ JS 实现手电筒效果
前言概述 JavaScript 结合 CSS 打造的一款图片特效,当鼠标拖拽滑块时,让本该置灰的图片局部恢复本来的颜色。且该效果随着你的鼠标的按下时的移动而移动。 核心功能 图片置灰 拖拽功能 让滑块位置处的图片恢复本来的颜色 实现原理 这个的实现原理并不…...
2021地理设计组二等奖:基于InSAR和指数分析的地面沉降风
作品简介 一、作品背景 地面沉降是指地面高程的降低, 又称地面下沉或地沉, 是以缓慢、难以察觉的向下垂直运动为主, 是指在自然和人为因素作用下, 由于地壳表层土体压缩而导致区域性地面标高降低的一种环境现象。目前, 地面沉降己成为城市化进程中普遍存在的生态环境问题, 成为…...
计算机操作系统(第四版)第二章进程的描述与控制—课后习题答案
1.什么是前趋图?为什么要引入前趋图? 前趋图是一个有向无循环图,记为DAG,用于描述进程之间执行的先后关系。 2.试画出下面四条语句的前趋图: S1:axy; S2:bz1; S3:ca-b; S4:wc1; 3.为什么程序并发执行会产生间断性特征&…...
CAN通信----电路图
CAN通信----基本原理 一、CAN总线网络连接 1.闭环总线网络----ISO11898 闭环总线网络高速、短距离,它的总线最大长度为 40m,通信速度最高为 1Mbps,总线的两端各要求有一个120 欧的电阻。 2.开环总线网络----ISO11519 开环总线网络低速、…...
Windows系统安装ElasticSearch(一)
一 ES介绍Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作:分布式实时文件存储&#…...
linux 产生随机数 并遍历
1、产生随机数 varRANDOMvarRANDOM varRANDOMvar[ $var % 150 ] 2、产生不重复的随机数 $ entries($(shuf -i 0-149 -n 15)) $ echo “${entries[]}” 3、对随机数排序 $ entries($(shuf -i 0-149 -n 15 | sort -n)) $ echo “entries[]"12224549546678798393118119124140…...
【3.24】Mybatis常见面试题
Mybatis常见面试题 #{}和¥{}的区别是什么? 【#】:底层执行SQL使用PreparedStatement对象,预编译SQL,相对安全。入参使用占位符的方式。 【$】:底层执行SQL使用Statement对象,入参使用SQL拼接的…...
IDEA 热部署,修改代码不用重启项目
热部署指在修改项目代码的时候不重启服务器让修改生效。安装JRebel and XRebelFile->Settings,然后Plugins-> Marketplace,输入JRebel,安装如下插件——JRebel and XRebel ,重启idea激活JRebel and XRebel第一行输入网址&am…...
将 XLS 转换为 EXE:xlCompiler Crack
只需单击几下即可将Excel文件转换为应用程序 xl编译器无需编程即可将您的Excel电子表格转换为软件应用程序 将 XLS 转换为 EXE 将Excel文件转换为具有保护选项的应用程序。Excel 到 EXE 转换器为您提供了分发 Excel 模型的竞争优势和灵活性。将 Excel 的功能丰富的环境保存在应…...
【百面成神】spring基础12问,你能坚持到第几问
前 言 🍉 作者简介:半旧518,长跑型选手,立志坚持写10年博客,专注于java后端 ☕专栏简介:java面试宝典,特点:全、精、深、简,力求每个核心知识点1分钟回答好。 dz…...
有没有做字的网站/网络营销策划书步骤
目录: 3、垃圾收集器以及内存分配 3.1、串行垃圾收集器 3.1.1、编写测试代码 3.1.2、设置垃圾回收为串行收集器 3.2、并行垃圾收集器 3.2.1、ParNew垃圾收集器 3.2.2、ParallelGC垃圾收集器 3.3 、CMS垃圾收集器 3.3.1、测试 3.4、G1垃圾收集器࿰…...
wordpress animate css/厦门网络推广
前言 Zuul 是Netflix 提供的一个开源组件,致力于在云平台上提供动态路由,监控,弹性,安全等边缘服务的框架。也有很多公司使用它来作为网关的重要组成部分,碰巧今年公司的架构组决定自研一个网关产品,集动态路由&#…...
wordpress未登录用户重定向/站长网站大全
重启nginx命令失败解决 查询Nginx安装目录 whereis nginx进入Nginx的sbin目录 cd /usr/sbin/重启nginx命令 ./nginx -s reload...
郑州网站建设培训/如何优化百度seo排名
2019独角兽企业重金招聘Python工程师标准>>> 摘要: 进入“中国制造2025”新时代的节奏又加快了速度!阿里云是国内最大的云计算厂商,去年9月阿里云推出了首个公共云上的超算平台,可一键部署获得媲美大型超算集群环境的云…...
对于网站反爬虫如何做/电脑优化系统的软件哪个好
有时候我们在使用pycharm进行python编程的时候,遇到了no python interpreter for the project,怎么解决呢,下面来分享一下方法 工具/原料 pycharm no python interpreter for the project解决方法 方法/步骤 1 第一步我们在使用pycharm进行py…...
网站建设后怎么/注册网址
1.HashSet存储字符串并遍历 * 特点:无序、无索引、无重复 HashSet存储字符串并遍历HashSet<String> hs new HashSet<>();hs.add("a");hs.add("b");hs.add("a");hs.add("c");hs.add("c");hs.add(&qu…...