当前位置: 首页 > news >正文

Spearman、Pearson、Euclidean、Cosine、Jaccard,用来衡量不同数据之间的相似性或差异性

1. Spearman相关系数:

  • 用于衡量两个变量之间的排序关系的强度和方向。
  • Spearman相关系数关注的是两个变量的排序一致性,而不关心具体的数值大小。
  • 值的范围为-1到1,1表示完全正相关,-1表示完全负相关,0表示无相关性。
  • 常用于统计分析和数据之间的单调关系检测。

2. Pearson相关系数

  • 衡量不同数据之间相似性或差异性的一种方法。
  • 它主要用于度量两个变量之间的线性相关性。具体来说,Pearson相关系数反映的是两个变量的协同变化趋势,即当一个变量增加或减少时,另一个变量是否以相似的方式变化。
  • 值的范围为-1到1,1表示完全正相关,-1表示完全负相关,0表示无相关性,即两个变量之间没有线性关系。

Spearman与Pearson之间的区别:

  • Pearson 适用于两个变量之间的线性关系,而Spearman适用于单调关系
  • Pearson 处理变量的数据原始值,而 Spearman 处理数据排序值需要先做变换,transform
  • 如果散点图表明“可能是单调的,可能是线性的”关系,最好的选择是 Spearman 而不是 Pearson。即使数据证明是完全线性的,用 Spearman 也不会造成信息丢失。但是,如果不是完全线性但使用 Pearson 系数,会丢失 Spearman 可以捕获的信息,是否单调。http://相关系数: Pearson vs Spearman - ml-butcher的文章 - 知乎 https://zhuanlan.zhihu.com/p/465213120

3. 欧氏距离(Euclidean distance) 

  • 衡量两个之间的“直线”距离,计算公式为点之间各坐标差的平方和的平方根。
  • 在多维空间中常用来衡量两个样本的差异,距离越大表示差异越大
  • 常用于聚类算法(如K-Means)和最近邻算法(如KNN)。
  • 另:欧氏距离可以应用于两个向量之间的比较。它常用于衡量两个向量在多维空间中的“直线”距离,也就是说,两个向量之间的差异程度。

4. 余弦相似度(Cosine similarity)

  • 衡量两个向量之间的角度相似性,计算公式为两个向量点积除以其模长乘积。
  • 取值范围为[-1, 1],1表示完全相似,0表示不相关,-1表示完全相反。
  • 常用于文本相似性分析(如TF-IDF向量化后的文本比较)和推荐系统中。
  • 在PPI网络中,使用随机游走生成的节点向量时,比较向量相似性通常更适合使用余弦距离
  • 原因如下:
  • 向量的方向更重要

    • 在PPI网络中,随机游走生成的向量反映了节点之间的拓扑结构和邻接关系。此时,向量的方向(即节点在网络中的相对位置)往往比向量的绝对大小更重要。
    • 余弦距离衡量的是向量之间的夹角,即方向上的相似性,而不考虑向量的长度。因此,适用于比较基于网络拓扑生成的向量。
  • 降低向量长度的影响

    • PPI网络中的节点连接数(度)可能会有较大差异,导致生成的向量大小不同。余弦距离在这种情况下可以消除向量长度对相似性计算的影响,只比较向量的方向。
    • 欧氏距离会受到向量长度的影响,如果节点度数差异较大,使用欧氏距离可能会导致相似性评估不准确。
  • 在网络嵌入应用中的常用做法

    • 在大多数基于图嵌入的应用中(如Node2Vec、DeepWalk等),余弦相似度是常见的选择。它在衡量网络节点的相似性时表现更为稳定。

5. Jaccard相似度(Jaccard similarity): 

  • 衡量两个集合之间的相似性,计算公式为两个集合交集的大小除以并集的大小。
  • 取值范围为[0, 1],1表示完全相似,0表示完全不同。
  • 常用于集合相似性比较,如文本、标签或分类数据的比较。

相关文章:

Spearman、Pearson、Euclidean、Cosine、Jaccard,用来衡量不同数据之间的相似性或差异性

1. Spearman相关系数: 用于衡量两个变量之间的排序关系的强度和方向。Spearman相关系数关注的是两个变量的排序一致性,而不关心具体的数值大小。值的范围为-1到1,1表示完全正相关,-1表示完全负相关,0表示无相关性。常…...

Suno 歌曲生成 API 对接说明

随着 AI 的应用变广,各类 AI 程序已逐渐普及。AI 已逐渐深入到人们的工作生活方方面面。而 AI 涉及的行业也越来越多,从最初的写作,到医疗教育,再到现在的音乐。 Suno 是一个专业高质量的 AI 歌曲和音乐创作平台,用户…...

详细且系统的Spring Boot应用开发

为了帮助大家更好地理解如何使用Spring Boot来构建一个基础的Web应用程序,我将通过一个简单的例子来进行说明。这个例子将是一个基本的RESTful API服务,用于管理图书信息。 项目准备 1. 开发环境设置(这个我之前有发文,这里就不详…...

线程支持库(C++11)

线程支持库包含了线程&#xff0c;互斥锁&#xff0c;线程条件变量(class thread)&#xff0c;定义于<thread> 线程提供一个并发的实例&#xff0c;需要对应一个“线程函数” 线程的主要任务就是去执行这个"线程函数" 既然线程需要提供一个线程函数&#xff0c…...

【计网】深入理解NAT机制,内网穿透与内网打洞,代理服务

我没胆量犯错 才把一切错过 --- 林夕 《我对不起我》--- 一文了解NAT机制&#xff0c;代理服务&#xff0c;内网穿透 1 再谈 NAT 机制2 内网穿透与内网打洞3 代理服务器 1 再谈 NAT 机制 NAT机制我们在解决IP地址不足的问题中提到过。为了解决IP地址不足的问题&#xff0c;采…...

C# 创建型设计模式----工厂模式

1 、什么是工厂模式 简单来说就是由一个对象去生成不同的对象&#xff0c;工厂模式是用工厂方法代替new操作的一种模式。工厂方法封装了多个相关联类的new方法&#xff0c;每次实例化这些类的时候不需要new多次&#xff0c;只需要调用工厂类的对应方法即可实例化这些类&#x…...

java中Scanner的nextLine和next方法

思考&#xff0c;输入1 2 3 4 5加上enter&#xff0c;输出什么 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);int[][] m new int[2][2];for (int i 0; i < 2; i) {for (int j 0; j < 2;…...

2024年全国山洪径流模拟与洪水危险性评价技术及典型地区洪水淹没及损失分析

洪水淹没危险性&#xff08;各种年遇型洪水淹没&#xff09;是洪水损失评估、风险评估及洪水应急和管理规划等工作的重要基础。当前开展洪水危险性研究工作中的主要困难之一是水文资料稀缺&#xff0c;尤其是径流资料稀缺&#xff0c;既包括径流观测资料在时间上的短缺&#xf…...

CDC 同步数据需要的MySQL数据权限

授权命令如下: grant Replication client on *.* to username%; grant Replication slave on *.* to username%; flush privileges;...

Ubuntu20.04 更新Nvidia驱动 + 安装CUDA12.1 + cudnn8.9.7

一、概述 最近客户给了几台GPU服务器,长期放置落灰那种,然后想利用起来,所以上去看看了配置,系统是Ubuntu20.04,相关的驱动版本稍嫌老一些,所以需要更新Nvidia驱动,同时在安装CUDA和CUDNN,查看了显卡型号之后,打算使用onnxruntime进行推理,对比了版本,最后选择了CUD…...

算法自学 Lesson3 - 逻辑回归(LR)

目录 背景 一、适用数据集 1. 数据集选择 1.1 领域 1.2 数据集维度 1.3 记录行&#xff08;样本数量&#xff09; 2. 本文数据集介绍 3. 数据集下载 注意 二、逻辑回归的基本原理 1. 目的 2. Sigmoid 函数 3. 类别划分 4. 召回率 三、代码 1. 导入所需包&数…...

文件IO流

1.文件流概念 2.文件创建方式 3.常用方法 4.IO流原理 &#xff08;1&#xff09;InputStream&#xff0c;OutputStream, Reader, Writer四个都是抽象类&#xff0c;无法直接new, 需要由子类继承&#xff0c;然后new子类&#xff1b; &#xff08;2&#xff09;Reader和Writer…...

拥塞控制与TCP子问题(粘包问题,异常情况等)

​拥塞控制 除了拥塞控制 以上的策越都是为了解决tcp 客户端和服务端提高效率&#xff0c;解决丢包的策略 但是拥塞控制是了为解决网络拥堵 出现了大面积丢包&#xff0c;我们发送方会判定是网络出现了问题&#xff1f; 丢包好解决&#xff0c;我们直接采用超时重传&#…...

stm32入门教程--DMA 超详细!!!

目录 简介 工作模式 1、数据转运DMA 2、ADC扫描模式DMA 简介 工作模式 1、数据转运DMA 这个例子的任务是将SRAM的数组DataA&#xff0c;转运到另一个数组DataB中&#xff0c;这个基本结构里的各个参数应该如何配置呢&#xff1f; 首先是外设站点和存储器站点的起始地址、…...

【使用Flask构建RESTful API】从零开始开发简单的Web服务!

使用Flask构建RESTful API&#xff1a;从零开始开发简单的Web服务 引言 随着Web应用程序的广泛使用&#xff0c;RESTful API已成为现代Web服务的核心技术之一。通过RESTful API&#xff0c;我们可以轻松地创建、读取、更新和删除&#xff08;CRUD&#xff09;数据&#xff0c…...

用sdcc给51单片机编译C程序

学习单片机大部分人用的是Keil uVision&#xff0c;虽然好用&#xff0c;可大部分人用的是盗版&#xff0c;其实单片机程序小的话&#xff0c;完全可以用文本编辑器&#xff08;推荐notepad)编写&#xff0c;然后用免费的sdcc来编译&#xff0c;下面介绍一下大致的过程。 sdcc…...

Java Lock LockSupport 源码

前言 相关系列 《Java & Lock & 目录》&#xff08;持续更新&#xff09;《Java & Lock & LockSupport & 源码》&#xff08;学习过程/多有漏误/仅作参考/不再更新&#xff09;《Java & Lock & LockSupport & 总结》&#xff08;学习总结/最新…...

Elasticsearch基础操作入门

阅前准备知识 学习 Elasticsearch (简称 ES) 的查询方式&#xff0c;建议从以下几个步骤入手&#xff1a; 理解 Elasticsearch 的基础概念 首先要了解 Elasticsearch 的核心概念&#xff0c;例如&#xff1a; Index&#xff08;索引&#xff09;&#xff1a;相当于数据库中…...

跨域问题解决办法

跨域问题在Web开发中是一个常见的问题&#xff0c;特别是在前后端分离的开发模式下。以下是一些解决跨域问题的办法&#xff1a; 一、后端配置CORS&#xff08;跨来源资源共享&#xff09; CORS是一种机制&#xff0c;它使用额外的HTTP头来告诉浏览器一个网页的当前来源&…...

【数据结构与算法】力扣 23. 合并 K 个升序链表

题干描述 23. 合并 K 个升序链表 给你一个链表数组&#xff0c;每个链表都已经按升序排列。 请你将所有链表合并到一个升序链表中&#xff0c;返回合并后的链表。 示例 1&#xff1a; 输入&#xff1a; lists [[1,4,5],[1,3,4],[2,6]] 输出&#xff1a; [1,1,2,3,4,4,5,6]…...

Java Lock CountDownLatch 总结

前言 相关系列 《Java & Lock & 目录》&#xff08;持续更新&#xff09;《Java & Lock & CountDownLatch & 源码》&#xff08;学习过程/多有漏误/仅作参考/不再更新&#xff09;《Java & Lock & CountDownLatch & 总结》&#xff08;学习总…...

vue+spreadjs开发

创建vue3项目 pnpm create vite --registryhttp://registry.npm.taobao.org安装spreadjs包 pnpm install "grapecity-software/spread-sheets17.1.7" "grapecity-software/spread-sheets-resources-zh17.1.7" "grapecity-software/spread-sheets-vu…...

针对初学者的PyTorch项目推荐

文章目录 1. MNIST手写数字识别2. CIFAR-10图像分类3. 图像风格迁移4. 文本生成&#xff08;使用RNN&#xff09;5. 简单的问答系统6. 简单的生成对抗网络&#xff08;GAN&#xff09;7. 简单的推荐系统 对于初学者来说&#xff0c;选择一些简单且具有教育意义的项目来实践PyTo…...

Helm Chart文件介绍

介绍&#xff08;这个还没有完善 &#xff0c;目前在找工作呢&#xff09; Helm是Kubernetes的包管理器&#xff0c;类似于Ubuntu中的apt、CentOS中的yum或Python中的pip&#xff0c;可以快速查找、下载和安装软件包。Helm主要由客户端组件helm和服务端组件Tiller组成&#xf…...

1Panel 是新一代的 Linux 服务器运维管理面板

1Panel 是一款新一代的 Linux 服务器运维管理面板&#xff0c;旨在通过现代化的 Web 界面帮助用户轻松管理 Linux 服务器。它集成了主机监控、文件管理、数据库管理、容器管理等功能&#xff0c;并且支持多语言和国际化&#xff0c;包括英语、中文(繁体)和日语。以下是 1Panel …...

Qml-ShaderEffect的使用

Qml-ShaderEffect的使用 ShaderEffect的概述 ShaderEffect使用自定义的顶点和片段着色器用于渲染一个矩形。用于在qml场景中添加阴影、模糊、着色和页面卷曲等效果。 Qt5和Qt6中ShaderEffect有一定区别&#xff0c;在Qt6中由于支持不同的渲染API&#xff0c;ShaderEffect是用…...

鸿蒙next之axios二次封装并携带cookie

由于官方提供的ohos.net.http模块&#xff0c;直接使用不是很灵活&#xff0c;就引入了第三方ohos/axios库。 以下是引入axios并进行二次封装的步骤&#xff1a; 1、DevEco Studio打开终端输入命令安装插件 ohpm install ohos/axios 2、新建RequestUtil.ets import { JSON, …...

WordPress中最值得推荐的AI插件:专家级指南

WordPress平台上&#xff0c;人工智能&#xff08;AI&#xff09;技术不断发展&#xff0c;为用户提供了丰富的工具和功能。对于有经验的用户&#xff0c;这些工具不仅能提升网站性能和用户体验&#xff0c;还能在安全和互动方面提供更多支持。在这篇文章中&#xff0c;我将为大…...

HTTP介绍及请求过程

HTTP(HyperText Transfer Protocol),即超文本传输协议,是一种用于分布式、协作式和超媒体信息系统的应用层协议。以下是关于 HTTP 的详细介绍: 一、基本概念 定义与作用: HTTP 是互联网上应用最为广泛的一种网络协议,它定义了客户端和服务器之间请求和响应的标准方式。…...

WebGL进阶(五)-可视域

理论基础&#xff1a; 顶点着色器 Vertex Shader 主要是负责处理顶点位置、顶点颜色、顶点向量等顶点的数据&#xff1b;处理一些顶点的变换&#xff1a;例如在进行视图变换和投影变换时MVP矩阵会改变顶点的位置信息。 输入&#xff1a; 顶点着色器输入部分主要是声明&…...

建网站空间可以不买/同城推广平台有哪些

前言❤️ 天空黑暗到一定程度&#xff0c;星辰就会熠熠生辉 ❤️前端基础知识第一章---HTML一、HTML 简介&#xff08;1&#xff09;网页1.1 什么是网页1.2 什么是 HTML&#xff08;2&#xff09;常用浏览器2.1 常用的浏览器2.2 浏览器内核&#xff08;3&#xff09;Web 标准&a…...

做儿童交互网站/品牌推广战略

转行IT&#xff0c;有软件开发、技术支持、运营&#xff0c;那么为什么偏偏选择做软件测试相关工作&#xff0c;这到底是偶然还是必然&#xff1f;01不断变化的行业现状在早年&#xff0c;软件测试还属于一个崭新的内容&#xff0c;出现在大家的眼中。而软件测试究竟需要什么样…...

南宁市保障住房建设管理服务中心网站/360站长工具seo

1 异常 异常&#xff1a;Java代码在运行时期发生的问题就是异常。 1.1 异常的继承体系 Throwable&#xff1a;是所有错误和异常的超类。 Error&#xff1a;错误类。 Exception&#xff1a;编译期异常&#xff0c;进行编译Java程序时出现的问题。 RuntimeException&#xf…...

镇江建站/巩义网络推广公司

重新换回wamp3.1.3开发环境&#xff0c;发现不能切换版本&#xff0c;主要原因是不能添加php到环境变量里面&#xff0c;具体问题见这篇博客&#xff1a; https://blog.csdn.net/hu_feng903/article/details/81259834 但是去掉了php环境变量&#xff0c;composer这些要怎么用…...

促销礼品网站建设/新闻发稿渠道

execute()方法一直是阻塞状态原因:一般是在等待接口的返回。解决办法:接口给个返回值(这个是接口无返回值的情况)或者设置读取接口返回结果的超时时间。...

网架报价明细表/seo咨询常德

http://poj.org/problem?id3007 用STL 会超时 用哈希哟 本题哈希很简单&#xff0c;主要是字符串可能出现的各种情况处理起来有点复杂 #include<iostream> #include<cmath> #include<string> #include<algorithm> #include<queue> #include<…...