当前位置：首页 > news >正文

手写kNN算法的实现-用欧几里德空间来度量距离

news 2025/7/8 16:00:32

kNN的算法思路：找K个离预测点最近的点，然后让它们进行投票决定预测点的类型。

step 1: kNN存储样本点的特征数据和标签数据
step 2: 计算预测点到所有样本点的距离，关于这个距离，我们用欧几里德距离来度量（其实还有很多其他的，比如曼哈顿距离等），并进行排序，拿出前k个样本点。
step 3: 统计前k个样本点的类别，以最多的那个类型作为预测结果。

欧几里德距离：
请添加图片描述

上代码：

import numpy as np
# 用于统计
from collections import Counterclass MyKnn:# 初始化投票的数量，neighbors表示我们要找的点的数量，用于投票决定预测点的类型def __init__(self,neighbors):self.k = neighbors# 因为kNN是一个惰性机器性学习模型，只在预测阶段才会用到的训练数据，不存在训练阶段。或者说在所谓的训练阶段，只是为了存储样本数据。# X为特征集# Y为对应的标签集def fit(self,X,Y):self.X = np.array(X)self.Y = np.array(Y)# 如果特征集不是矩阵阵列或则标签集不是一维数组，都直接抛异常。if self.X.ndim != 2 or self.Y.ndim != 1:raise Exception("dimensions are wrong!")# 如果标签的数量不竺于特征集的行数也直接抛异常if self.X.shape[0] != self.Y.shape[0]:raise Exception("input labels are not correct!")def predict(self,X_pre):# 这是要预测的点pre = np.array(X_pre)# 判断测试点的矩阵是不是和样本点的矩阵一样的，不是直接抛异常if self.X.ndim != pre.ndim:raise Exception("input dimensions are wrong!")# 我们用rs数组来存储预测结果rs = []for p in pre:# 用temp临时数组来存储预测点到所有样本点的欧几里德距离temp = []for a in self.X:# 取出每一个样本点来与预测点计算欧几里德距离# np.sqrt(((p - a) ** 2).sum(-1)) 算出距离，先求出每预测点到样本点的差值，再平方，再将所有平方后的值加在一起，最后对加起来的结果进行开方，得到欧几里德距离。并临时存储在temp数组里temp.append(np.sqrt(((p - a) ** 2).sum(-1)))temp = np.array(temp)# 对所有距离进行排序，用np.argsort排序时，结果对识破距离的下标，而不是具体的值，因为我们并不关心具体的值，我们只要前k个点。用np.argsort排序完，取出前k个点的indices（就是下标）neighbors_indices = np.argsort(temp)[:self.k]#  通过前k个点的下标，取出相应的标签，然后用Counter进行统计（这个就是计票环节）ss = np.take(self.Y,neighbors_indices)# 我们开始计票，取出票数第一的标签值。# e.g: Counter(ss) -> {2: 4, 1: 1} 表示标签值为2的得4示，标签为1的得1票# most_common(1) -> [(2, 4)] , 所以most_common(1)[0][0]的值就是 2found = Counter(ss).most_common(1)[0][0]# 预测结果存储到rs数组中rs.append(found)return rs

欧几里德距离的计算：
请添加图片描述

测试上面的kNN算法：

# 用鸢尾花数据集来验证我们上面写的算法
from sklearn.datasets import load_iris
# 使用train_test_split对数据集进行拆分，一部分用于训练，一部分用于测试验证
from sklearn.model_selection import train_test_split
# 1.生成一个kNN模型
myknn = MyKnn(5)
# 2.准备数据集：特征集X_train和标签集y_train
X_train,y_train = load_iris(return_X_y=True)
# 留出30%的数据集用于验证测试
X_train,X_test,y_train,y_test = train_test_split(X_train,y_train,test_size=0.3)
# 3.训练模型
myknn.fit(X_train,y_train)
# 4.预测，acc就是预测结果
acc = myknn.predict(X_test)
# 计算准确率
(acc == y_test).mean()

acc == y_test 得到的结果是

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,True,  True,  True,  True,  True,  True,  True,  True,  True,True,  True,  True,  True,  True,  True,  True,  True,  True,True,  True,  True,  True,  True,  True,  True,  True,  True,False,  True,  True,  True,  True,  True,  True,  True,  True])

True 是1，False是0，准确率就是：

正确的个数 / 总数 = 准确率

用余弦相似度实现kNN算法

手写kNN算法的实现-用欧几里德空间来度量距离

kNN的算法思路：找K个离预测点最近的点，然后让它们进行投票决定预测点的类型。 step 1: kNN存储样本点的特征数据和标签数据step 2: 计算预测点到所有样本点的距离，关于这个距离，我们用欧几里德距离来度量（其实还有很多…...

编程日记 2024/6/10 16:46:05

IGraph使用实例——线性代数计算（blas）

1 概述在图论中，BLAS（Basic Linear Algebra Subprograms）并不直接应用于图论的计算，而是作为一套线性代数计算中通用的基本运算操作函数集合，用于进行向量和矩阵的基本运算。然而，这些基本运算在图论的相…...

编程日记 2024/6/10 16:45:04

【MySQL】（基础篇五） —— 排序检索数据

排序检索数据本章将讲授如何使用SELECT语句的ORDER BY子句，根据需要排序检索出的数据。排序数据还是使用上一节中的例子,查询employees表中的last_name字段 SELECT last_name FROM employees;输出结果： 发现其输出并没有特定的顺序。其实&#xf…...

编程日记 2024/6/10 16:44:03

C++ C_style string overview and basic Input funcitons

write in advance 最近在做题，遇到一个简单的将console的输入输出到文件中的简单题目，没有写出来。悔恨当初没有踏实地总结string 相关的 I/O 以及与文件的操作。这篇文章旨在记录基础的字符I/O, 简单常用的文件I/O操作函数。当然，你会说C…...

编程日记 2024/6/10 16:43:01

VS2022+Qt雕刻机单片机马达串口上位机控制系统

程序示例精选 VS2022Qt雕刻机单片机马达串口上位机控制系统如需安装运行环境或远程调试，见文章底部个人QQ名片，由专业技术人员远程协助！ 前言这篇博客针对《VS2022Qt雕刻机单片机马达串口上位机控制系统》编写代码，代码整洁&a…...

编程日记 2024/6/10 16:42:00

Android Ble低功耗蓝牙开发

一、新建项目在Android Studio中新建一个项目，如下图所示： 选择No Activity，然后点击Next 点击Finish，完成项目创建。 1、配置build.gradle 在android{}闭包中添加viewBinding，用于获取控件 buildFeatures {viewB…...

编程日记 2024/6/10 16:40:59

Visual Studio的快捷按键

Visual Studio的快捷按键对于提高编程效率至关重要。以下是一些常用的Visual Studio快捷按键，并按照功能进行分类和归纳： 1. 文件操作 Ctrl O：打开文件Ctrl S：保存文件Ctrl Shift S：全部保存Ctrl N：…...

编程日记 2024/6/10 16:38:56

【WEB系列】过滤器Filter

Filter，过滤器，属于Servlet规范，并不是Spring独有的。其作用从命名上也可以看出一二，拦截一个请求，做一些业务逻辑操作，然后可以决定请求是否可以继续往下分发，落到其他的Filter或者对应的Servl…...

编程日记 2024/6/10 16:37:55

[书生·浦语大模型实战营]——LMDeploy 量化部署 LLM 实践

1.基础作业 1.1配置 LMDeploy 运行环境创建开发机创建新的开发机，选择镜像Cuda12.2-conda；选择10% A100*1GPU；点击“立即创建”。注意请不要选择Cuda11.7-conda的镜像，新版本的lmdeploy会出现兼容性问题。其他和之前一样&…...

编程日记 2024/6/10 16:36:54

TiDB-从0到1-配置篇

TiDB从0到1系列 TiDB-从0到1-体系结构TiDB-从0到1-分布式存储TiDB-从0到1-分布式事务TiDB-从0到1-MVCCTiDB-从0到1-部署篇TiDB-从0到1-配置篇一、系统配置 TiDB的配置分为系统配置和集群配置两种。其中系统配置对应TiDB Server（不包含TiKV和PD的参数&#xff0…...

编程日记 2024/6/10 16:32:50

微信小程序按钮设计与交互：打造极致用户体验

微信小程序作为一种流行的应用形式，其界面设计和交互体验对于用户吸引力和留存率至关重要。其中，按钮作为用户与小程序进行交互的主要方式之一，其设计和实现直接影响到用户体验的质量。在本文中，我们将探讨微信小程序按钮的设计与…...

编程日记 2024/6/10 16:31:47

ES6中如何使用class和extends关键字实现继承？

在ES6中，可以使用class关键字来定义类，使用extends关键字来实现继承。下面是一个示例： // 父类 class Parent {constructor(name) {this.name name;}sayHello() {console.log(Hello, my name is ${this.name});} }// 子类 class Child ex…...

编程日记 2024/6/10 16:28:44

Linux：基本指令

文章目录 ls指令pwd指令cd指令touch指令mkdir指令rmdir指令 && rm指令cp指令man指令echo指令输出重定向追加重定向 cat指令输入重定向 mv指令which指令alias指令more && less指令head && tail指令事件相关的指令date显示时间戳 cal指令find指令grep指令…...

编程日记 2024/6/10 16:26:42

商业C++静态代码检测工具PC-lint Plus 、 polysace和sonarqube对比

商业C静态代码检测工具PC-lint Plus 、 polysace和sonarqube对比特性/工具PC-lint PlusPolyspaceSonarQube主要功能高精度静态代码分析、编码标准检查高级静态分析和形式验证、优化嵌入式系统综合性代码质量管理、静态分析、技术债务管理集成方式可集成到IDE和构建系统与开发…...

编程日记 2024/6/10 16:25:42

邬家桥公园

文｜随意的风原文地址我游览过现存规模最大、保存最完整的皇家园林颐和园，瞻仰过拥有世界上最大祭天建筑群的天坛公园，那都是多年前的事情了。邬家桥公园相比颐和园、天坛公园，气势雄伟倒谈不上。它没有西湖的水平如镜&#xff…...

编程日记 2024/6/10 16:24:41

Flutter 中的 RenderObjectToWidgetAdapter 小部件：全面指南

Flutter 中的 RenderObjectToWidgetAdapter 小部件：全面指南 Flutter 是一个功能强大的 UI 框架，由 Google 开发，允许开发者使用 Dart 语言构建跨平台的移动、Web 和桌面应用。在 Flutter 的渲染体系中，RenderObjectToWidgetAdap…...

编程日记 2024/6/10 16:22:39

SNAT与DNAT

一、SNAT策略概述 1、SNAT 策略的典型应用环境局域网主机共享单个公网IP地址接入Internet（私有IP不能在Internet中正常路由） 局域共享上网 2、 SNAT 策略的原理修改数据包的源地址把从内网 --> 外网的数据的源内网地址转换成公网源地址 3、SN…...

编程日记 2024/6/10 16:21:37

MySql八股文知识点总结,一篇文章让mysql成为面试加分项

MySql八股文知识点总结（自检） 1.前言参与了几次中大厂的面试，你会发现一面时对于八股文的考察也具有侧重点（MySQLRedis > 网络 > 系统 >设计模式 > java集合 >spring) 本文的目标就是通过这一篇文章让你能在面…...

编程日记 2024/6/10 16:19:35

Python 很好用的爬虫框架：Scrapy:

了解Scrapy 爬虫框架的工作流程： 在scrapy中， 具体工作流程是这样的： 首先第一步当爬虫引擎<engine>启动后， 引擎会到 spider 中获取 start_url<起始url> 然后将其封装为一个request对象， 交给调度器<…...

编程日记 2024/6/10 16:17:34

C/C++｜关于 namespace 在C++中的代码组织

命名空间（namespace）在C中用于组织代码，避免命名冲突，并提供更好的代码结构和可读性。下面详细解释命名空间在C多文件编写中的各种作用和表达。基本概念命名空间是一个声明区域，用于组织代码，防止不同部…...

编程日记 2024/6/10 16:16:33

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造，完美适配AGV和无人叉车。同时，集成以太网与语音合成技术，为各类高级系统（如MES、调度系统、库位管理、立库等）提供高效便捷的语音交互体验。 L…...

编程新知 2025/7/8 1:26:07

大话软工笔记—需求分析概述

需求分析，就是要对需求调研收集到的资料信息逐个地进行拆分、研究，从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。需求分析的作用非常重要，后续设计的依据主要来自于需求分析的成果，包括: 项目的目的…...

编程新知 2025/7/6 21:31:42

AI Agent与Agentic AI：原理、应用、挑战与未来展望

文章目录一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程三、AI Agent的核心技术栈解密3.1 感知模块代码示例：使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例：使用OpenAI GPT-3进…...

编程新知 2025/7/6 20:31:24

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

在前面的练习中，每个页面需要使用ref，onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入，需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...

编程新知 2025/6/19 5:54:07

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码，专为学校招生场景量身打造，功能实用且操作便捷。从技术架构来看，ThinkPHP提供稳定可靠的后台服务，FastAdmin加速开发流程，UniApp则保障小程序在多端有良好的兼…...

编程新知 2025/7/6 18:35:52

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程四、Thread类的核心…...

编程新知 2025/6/27 3:48:34

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

前言： 最近在做行为检测相关的模型，用的是时空图卷积网络（STGCN），但原有kinetic-400数据集数据质量较低，需要进行细粒度的标注，同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

编程新知 2025/7/7 8:22:46

Scrapy-Redis分布式爬虫架构的可扩展性与容错性增强：基于微服务与容器化的解决方案

在大数据时代，海量数据的采集与处理成为企业和研究机构获取信息的关键环节。Scrapy-Redis作为一种经典的分布式爬虫架构，在处理大规模数据抓取任务时展现出强大的能力。然而，随着业务规模的不断扩大和数据抓取需求的日益复杂，传统…...

编程新知 2025/7/7 19:36:12

【前端异常】JavaScript错误处理：分析 Uncaught (in promise) error

在前端开发中，JavaScript 异常是不可避免的。随着现代前端应用越来越多地使用异步操作（如 Promise、async/await 等），开发者常常会遇到 Uncaught (in promise) error 错误。这个错误是由于未正确处理 Promise 的拒绝（r…...

编程新知 2025/7/6 8:20:01

【Kafka】Kafka从入门到实战：构建高吞吐量分布式消息系统

Kafka从入门到实战：构建高吞吐量分布式消息系统一、Kafka概述 Apache Kafka是一个分布式流处理平台，最初由LinkedIn开发，后成为Apache顶级项目。它被设计用于高吞吐量、低延迟的消息处理，能够处理来自多个生产者的海量数据，并将这些数据实时传递给消费者。 Kafka核心特…...

编程新知 2025/6/21 15:21:51

相关文章：