机器学习|DBSCAN 算法的数学原理及代码解析
机器学习|DBSCAN 算法的数学原理及代码解析
引言
聚类是机器学习领域中一项重要的任务,它可以将数据集中相似的样本归为一类。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
是一种是一种经典的密度聚类算法,它能够有效地发现任意形状的聚类簇,并且可以识别出噪声点。在本文中,我们将深入探讨DBSCAN
算法的数学原理,并提供Python
示例代码帮助读者更好地理解和应用该算法。
DBSCAN数学原理
基本思想
DBSCAN
算法通过定义样本点的邻域密度来划分簇,具体思想如下:
- 若一个样本点的邻域内包含足够数量的样本点,则将该点作为核心点,并以该点为中心形成一个新的簇。
- 若一个样本点的邻域内不包含足够数量的样本点,但存在某个核心点的邻域包含该点,则将该点归入该核心点所属的簇。
- 若一个样本点既不是核心点,也不能归入其他簇,则将其作为噪声点。
数学定义
DBSCAN
算法通过计算数据样本之间的密度来完成聚类任务。在介绍具体数学原理之前,我们先定义几个重要概念:
距离度量
:通常使用欧氏距离
或曼哈顿距离
来度量样本点之间的距离。
领域半径
:表示样本点在距离度量上的阈值,用于确定一个样本点的邻域
。
核心对象(Core Object)
:如果一个样本点周围的密度达到一定阈值(eps),则该样本点称为核心对象。
直接密度可达(Directly Density-Reachable)
:如果点p
在点q
的ε-
邻域内,并且点q
是核心对象,则点p
从点q
直接密度可达。
密度可达(Density-Reachable)
:对于点p
和q
,如果存在样本点序列p1, p2, ..., pn
,p1=p
,pn=q
,并且pi+1
从pi
直接密度可达,则点p
从点q
密度可达。
密度相连(Density-Connected)
:对于两个样本点p
和q
,如果存在样本点o
,使得点p
和点q
都从点o
密度可达,则点p
和点q
密度相连。
基于上述定义,DBSCAN
算法通过遍历数据集中的每个样本点,不断扩展核心对象的密度可达区域,最终将密度可达的样本点划分到同一个簇中,同时将噪声点单独归类。
DBSCAN算法流程
DBSCAN算法的具体流程如下:
- 初始化未访问
样本集合D
,将所有样本标记为未访问
。 - 从D中随机选择一个未访问样本点
p
。 - 若
p
为核心点,则创建一个新簇C
,并以p
为种子点开始扩展该簇。- 扩展方法:将
p
的直接密度可达样本点加入簇C
,并在其邻域内寻找其他核心点,递归地扩展簇C
。 - 若
p
不为核心点,则标记p
为噪声点。
- 扩展方法:将
- 重复步骤2和3,直到所有样本点都被访问或标记为噪声点。
DBSCAN示例代码
下面是使用Python
编写的一个简单的DBSCAN
示例代码:
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN# 生成月亮形状的数据集
X, y = make_moons(n_samples=200, noise=0.05, random_state=0)# 构建DBSCAN模型
dbscan = DBSCAN(eps=0.3, min_samples=5)
y_pred = dbscan.fit_predict(X)# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis')
plt.title('DBSCAN Clustering')
plt.show()
在示例代码中,我们使用 make_moons()
函数生成了一个月亮形状的数据集,其中包含200个样本点,并添加了一些噪声。然后,我们使用 DBSCAN()
构建了一个DBSCAN
聚类模型,并指定了 eps=0.3
和 min_samples=5
的参数。通过调用 fit_predict()
方法,我们将模型应用于数据集并得到聚类结果。
最后,我们使用 scatter()
函数将样本点绘制在二维平面上,并根据聚类结果进行着色。
输出图表
结语
通过本文,我们详细讲解了DBSCAN
算法的数学原理,并提供了一个简单的Python
示例代码展示了如何使用该算法进行聚类任务。希望本文能够帮助读者更好地理解DBSCAN
算法,并能够将其应用到实际问题中。
参考文献:
- Ester, M., Kriegel, H.P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96) (pp. 226-231).
- Schubert, E., Zimek, A., & Kriegel, H.P. (2017). Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection. Data Mining and Knowledge Discovery, 31(3), 1-46.
- Campello, R.J.G.B., Moulavi, D., & Sander, J. (2013). Density-based clustering based on hierarchical density estimates. Data Mining and Knowledge Discovery, 27(3), 344-371.
- Zheng, Z., & Zhou, W. (2018). DBSCAN revisited: Mis-claim, un-fixability, and approximation. In Proceedings of the 28th International Conference on Scientific and Statistical Database Management (SSDBM-18) (pp. 31:1-31:12).
- Kriegel, H.P., Kroger, P., Schubert, M., & Zimek, A. (2011). Interpreting and unifying outlier scores. In Proceedings of the 11th SIAM International Conference on Data Mining (SDM-11) (pp. 13-24).
相关文章:
机器学习|DBSCAN 算法的数学原理及代码解析
机器学习|DBSCAN 算法的数学原理及代码解析 引言 聚类是机器学习领域中一项重要的任务,它可以将数据集中相似的样本归为一类。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种是一种经典的密度聚类…...
用NUXT.JS,轻松搞定SEO!
nuxt.js 是什么? 如果你正在准备开发一个SEO友好的新项目,而且准备用 vue 开发,那么恭喜你,用 nuxt 是一个成本和效率都比较优秀的方案。 官方文档 知识中心案例 简单介绍下背景,这是一个专门为氚云低代码平台引流…...
什么是电商RPA?电商RPA能解决什么问题?电商RPA实施难点在哪里?
RPA机器人可以应用于各个行业和领域,例如金融、保险、制造、物流、电商等。它可以减少人工错误和重复工作,提高效率和生产力。RPA还可以在处理大量数据时加快处理速度,提供更准确和可靠的结果。此外,RPA还可以为员工提供更有价值的…...
【BUG】Docker启动MySQL报错
个人主页:金鳞踏雨 个人简介:大家好,我是金鳞,一个初出茅庐的Java小白 目前状况:22届普通本科毕业生,几经波折了,现在任职于一家国内大型知名日化公司,从事Java开发工作 我的博客&am…...
Spring Boot通过企业邮箱发件被Gmail退回的解决方法
这两天给我们开发的Chrome插件:Youtube中文配音 增加了账户注册和登录功能,其中有一步是邮箱验证,所以这边会在Spring Boot后台给用户的邮箱发个验证信息。如何发邮件在之前的文章教程里就有,这里就不说了,着重说说这两…...
Windows使用MobaXterm远程访问ubuntu20.04桌面
参考ubuntu 2020.4 安装vnc 一、脚本文件 remote_setup.sh脚本文件内容: #! /bin/bash #参考链接:https://blog.csdn.net/hailangdeyingzi/article/details/124507304 sudo apt update sudo apt install x11vnc -y sudo x11vnc -storepasswd telpo.12…...
C++注释风格
1. 文件头注释 每个文件都应该开始于一个注释块,描述文件的目的、作者、创建日期和版权信息。 /** FileName: MyClass.cpp* Purpose: Provides functionality for XYZ operations.* Author: [Your Name]* Creation Date: YYYY-MM-DD* Last Updated: YYYY-MM-DD* C…...
Linux 编译内核模块出现--Unknown symbol mcount
文章目录 Linux suse: # cat /etc/os-release NAME"SLES" VERSION"12-SP2" VERSION_ID"12.2" PRETTY_NAME"SUSE Linux Enterprise Server 12 SP2" ID"sles" ANSI_COLOR"0;32" CPE_NAME"cpe:/o:s…...
Pywin32 Cookbook by Eric
Writing Prompt 现在你是一名专业的Python工程师,请你根据"Pywin32_Funtion"函数的功能,为其编写一个清晰的文档说明Functions win32gui.GetWindowDC(hwnd) 描述 win32gui.GetWindowDC()函数用于获取指定窗口的设备上下文(Devi…...
indexDB入门到精通
前言 由于开发3D可视化项目经常用到模型,而一个模型通常是几m甚至是几十m的大小对于一般的服务器来讲加载速度真的十分的慢,为了解决这个加载速度的问题,我想到了几个本地存储的。 首先是cookie,cookie肯定是不行的,因为最多以只…...
Ubuntu 20.04配置静态ip
ip配置文件 cd /etc/netplan配置 根据需求增加 # Let NetworkManager manage all devices on this system network:version: 2renderer: NetworkManager # 管理 不是必须ethernets:enp4s0: #网卡名dhcp4: no #关闭ipv4动态分配ip地址dhcp6: no #关闭ipv6动态分配…...
Tushare入门小册
Tushare入门小册 一、Tushare平台介绍 Pro版数据更稳定质量更好了,我们提供的不再是直接从互联网抓取,而是通过社区的采集和整理存入数据库经过质量控制后再提供给用户。但Pro依然是个开放的,免费的平台,不带任何商业性质和目的…...
<c++开发>通信工具 -之-SOME/IP移植部署 第一篇文章
<c开发>通信工具 -之-SOME/IP移植ubuntu部署 第一篇文章 一 前言 SOME/IP (Scalable service-Oriented MiddlewarE over IP) 是一种通信协议,主要用于嵌入式系统和车载网络中的服务导向通信。SOME/IP是AUTOSAR(AUTomotive Open …...
权威的软件测试服务供应商分享,怎么获得软件安全检测报告?
我们深知在如今的数字化时代,软件安全对于企业和个人来说具有极其重要的意义。然而,许多用户对于软件安全测试报告的概念还不够清晰,也不知道如何获得这样的报告。在本文中,小编将为您简析什么是安全测试报告以及如何获取这样的报…...
管理类联考——逻辑——真题篇——按知识分类——汇总篇——二、论证逻辑——假设——第二节——搭桥假设
文章目录 第二节 假设-分类1-搭桥假设-当题干推理存在明显断点,常见形式比如:“因为A→B,C→D,所以A→D”,则正确选项为“B→C”真题(2014-39)-假设-分类1-题干推理存在明显断点-搭桥假设-建模搭桥-“因为A→B,所以A→C”,搭桥假设为“B→C”真题(2019-44)-假设-分…...
百度云BOS云存储的图片如何在访问时,同时进行格式转换、缩放等处理
前言 之前做了一个图片格式转换和压缩的服务,结果太占内存。后来查到在访问图片链接时,支持进行图片压缩和格式转换,本来想着先格式转换、压缩图片再上传到BOS,现在变成了上传后,访问时进行压缩和格式转换。想了想&am…...
go生成文件md5、sha1摘要简单示例
备注 go官方文档 https://pkg.go.dev/crypto/md5 已经给出如何使用该package生成文件或者字节数组的摘要值, 参照即可。 摘要值不是对文内容的加密,它主要用来进行checksum,就是验证两个文件内容是否一致,是否被篡改或者变化了。…...
Docker容器:docker数据管理、镜像的创建及dockerfile案例
文章目录 一、docker数据管理1.为何需要docker数据管理2.数据管理类型3.数据卷4.数据卷容器5.容器的互联 二.docker镜像的三种创建方法1.基于现有镜像创建1.1 启动镜像1.2 生成新镜像 2.基于本地模板创建2.1 OPENVZ 下载模板2.2 导入容器生成镜像 3.基于dockerfile创建3.1 dock…...
Ajax fetch Axios 的区别
AJAX:一种创建交互式网页应用的网页执行交互技术 通过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。意味着:在不重新加载整个网页 的情况下,对网页某部分进行更新。 缺点: 针对MVC编程,…...
数据库结构差异对比工具
简介 前几年写了一个数据库对比工具,但是由于实现方式的原因,数据库支持有限,所以重新设计了一下,便于支持多种数据库,并且更新了UI。 新版地址:https://gitee.com/xgpxg/db-diff 旧版地址:h…...
Shell编程学习之breakcontinuereturn的应用
Shell编程中的break关键字:break关键字:退出最近的循环,后续循环不再执行;break关键字用法: break #结束本层循环 break 数字n #结束n层循环测试代码1: #!/bin/bashfor((i1;i<6;i)) dofor((…...
有趣的数学 数学建模入门二 一些理论基础
一、什么是数学建模? 现实世界中混乱的问题可以用数学来解决,从而产生一系列可能的解决方案来帮助指导决策。大多数人对数学建模的概念感到不舒服,因为它是如此开放。如此多的未知信息似乎令人望而却步。哪些因素最相关?但正是现实世界问题的…...
Spring复习:(55)ApplicationContext中BeanFactoryPostProcessor是怎么添加到容器的?
容器创建时会调用AbstractApplicationContext的refresh方法,其中会调用invokeBeanFactoryPostProcessor方法,如下图 invokeBeanFactoryPostProcessors代码如下: 其中调用的PostProcessorRegistrationDelegate的invokeBeanFactoryPostProcess…...
给wordpress添加关键词与描述
Wordpress网站的关键字及网页描述关系网站对搜索引擎的友好程度,如果自己手动加显然太折腾了,那如何让WordPress博客自动为每篇文章自动关键字及网页描述。每篇文章的内容不同,我们该如何让wordpress自动添加文章描述和关键词呢?下…...
Verilog 入门
Verilog 入门 本内容来自 牛客网Verilog入门特别版 1、一个没有输入和一个输出常数1的输出的电路,输出信号为one module top_module(one);output wire one;assign one 1b1; endmodule2、创建一个具有一个输入和一个输出的模块,其行为类似于电路上的连…...
shell 简单且常用的几种
目录 一、配置环境的shell脚本 二、系统资源脚本 一、要求 二、脚本内容 三、脚本解析 四、赋权并验证 三、查看当前内存的总大小、实际使用大小、剩余大小、显示使用率百分比的脚本 一、第一种方法 二、验证 三、第二种方法 四、验证 四、查看网卡实时流量脚本 一…...
redis基本介绍以及在node中使用
文章目录 引言一、什么是redis1. redis简介2. redis的特点3. redis的应用场景 二、redis在windows下安装1. 下载安装2.验证是否安装成功3. 配置环境变量 三、redis-cli常用命令介绍1. redis-cli2. keys *3. set key value4. get key5. exists key6. del key7. info8. flushdb9.…...
React Native 文本输入基础知识
在 React Native 中提供了一个文本输入组件TextInput。此组件主要是监听键盘输入事件,并把对应的输入值显示在组件中,此组件还提供了很多功能配置参数,例如自动更正、自动大写、占位符文本和不同的键盘类型(例如数字键盘ÿ…...
qt显示图片并转换成灰度图及伪彩图
写了个程序,可在途图片,并切换成灰度图及伪彩图显示,主要代码如下: #include "mainwindow.h" #include "ui_mainwindow.h"MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainW…...
oj在线编程输入输出
练习地址:校招笔试真题_C工程师、golang工程师_牛客网 1.读取多行内容 输入描述: 输入包括两个正整数a,b(1 < a, b < 1000),输入数据包括多组。 输出描述: 输出ab的结果输入例子: 1 5 10 20 输出例子: 6 30imp…...
wordpress get_the_tag_list/今日新闻快讯
一、 1、 2路CAN接口(MCP2515的1路,STM32F103C8T6自带的1路CAN),可以实现两路CAN的通信; 2、供电范围宽(7-28v),采用可插拔式4位数码管模块进行显示,数码管模块采用2线…...
做酒水网站有哪些/长沙网络推广营销
「 周四见 」公开课分享时间:2019年1月3日20:30本周四见不见不散~周四见|知数堂公开课系列之《变化多端的SQL写法及性能》分享方式 线上直播,不限地域,火星也行1腾讯课堂直播不想下载客户端,想点开就能听课,没问题…...
互联虚拟主机/福建seo网站
目录4281 Problem A GoGo向前冲4282 Problem B 密码解析(正确)4283 Problem C 三体4284 Problem D 请不要用sort(正确)4287 Problem E 数字根2(正确)4285 Problem F Ackermann function4286 Problem G 消失…...
前端做的网站/站长工具seo综合查询问题
中国石油大学华东2013-2014-2C语言A卷A卷2013—2014学年第2学期《计算机程序设计 C(2-2)》期末考试试卷专业班级姓名学号开课系室计算机应用技术系考试日期2014年6月22日题号一二三总分得分阅卷人一、程序阅读题(每空2分,共20分)1.又是一年一…...
做动画网站去哪采集/中国最厉害的营销策划公司
本文地址:http://www.cnblogs.com/archimedes/p/win-tc-graphics-use.html,转载请注明源地址。 由于最近接到一个紧急任务,需要实现一个程序,显示一些分形几何中的图形,例如:Koch曲线 感觉java的swing的界面…...
wordpress会员充值管理系统/google关键词搜索工具
服务器 1.初始化 WSAStartup(…) 2.创建Socket s Socket ( … ) 3.绑定端口 ret bind ( … ) 4.监听 ret listen ( … ) 5.接收客户端的连接请求 s_new accept ( … ) // 三次握手发生在这个过程 6.收发数据 ret recv ( … ) // 阻塞模式, 内存不够存放发送的…...