当前位置: 首页 > news >正文

milvus 通俗易懂原理

向量值如何生成的

Milvus 是一个开源的向量数据库,专门用于处理高维向量的存储、搜索和分析。向量值本身通常来自于某些机器学习或深度学习模型的输出,尤其是在自然语言处理(NLP)、计算机视觉(CV)、推荐系统等应用中。具体来说,向量值的生成过程通常包括以下几个步骤:

  1. 数据表示与特征提取文本数据:

对于文本数据,向量通常是通过词嵌入(Word Embedding)或句子嵌入(Sentence Embedding)生成的。例如,利用像 Word2Vec、GloVe 或 BERT 这样的预训练模型,可以将文本(单词、句子、段落)转换成高维向量(embedding)。这些向量能够捕捉到文本的语义信息。

图像数据:对于图像数据,向量通常是通过深度神经网络(如卷积神经网络,CNN)进行特征提取。例如,使用 ResNet、VGG、EfficientNet 等预训练模型,可以将图像转换为一个固定长度的高维向量,表示图像的特征。

音频数据:对于音频数据,通常使用 MFCC(梅尔频率倒谱系数)、VGGish 等方法将音频信号转化为向量表示。视频数据:视频数据通常通过处理每一帧图像或提取时序特征来生成向量,这些向量可以反映视频中的动态信息。

  1. 特征向量生成经过特征提取后,得到的向量(通常是一个浮动的高维数字数组)就代表了数据在某个特征空间中的位置。通过深度学习模型(如卷积神经网络、循环神经网络、Transformer等)训练出的向量通常能较好地捕捉数据的语义信息。比如,对于文本数据,使用 BERT 这类大型语言模型生成的句子向量可以反映出句子中单词之间的语义关系。

  2. 向量的存储与索引Milvus 会接收这些高维向量并将其存储在数据库中,提供高效的向量搜索。Milvus 使用了特定的向量索引结构(如 IVF、HNSW、Annoy 等)来加速高维向量之间的相似性搜索。

  3. 向量搜索一旦向量存储在 Milvus 中,你可以使用 相似性搜索 来查找相似向量。Milvus 提供多种搜索算法,可以通过向量之间的距离度量(如 欧氏距离、余弦相似度、曼哈顿距离 等)来找到最相似的向量。

总结:Milvus 中的“向量值”通常是通过各种机器学习和深度学习模型从原始数据(如文本、图像、音频等)中提取出来的。这些向量表示了数据的特征,可以用于相似度搜索、聚类、推荐等任务。具体的生成方式取决于输入数据的类型和应用场景。

如何查询一个相似性

在 Milvus 或其他向量数据库中进行向量搜索时,核心思想是利用向量之间的相似度度量来找到最相似的向量。具体而言,当你提供一个查询向量(比如一个待搜索的值),Milvus 会计算这个查询向量与数据库中存储的每个向量之间的相似度,然后返回与查询向量最相似的那些向量。

这个过程可以分为以下几个关键步骤:

  1. 向量表示和相似度度量

向量表示:首先,数据(如文本、图像、音频等)被转化为向量。每个数据点都有一个高维向量表示,它是数据在某种特征空间中的位置。查询时,你会提供一个查询向量,表示你要查找的内容。

相似度度量:Milvus 通过计算查询向量和存储向量之间的相似度来判断它们的相似程度。常见的相似度度量方法有:
欧氏距离(Euclidean Distance):用于计算两向量之间的直线距离。距离越小,相似度越高。
余弦相似度(Cosine Similarity):用于衡量两个向量的夹角,值越大(接近1),表示两个向量越相似。
曼哈顿距离(Manhattan Distance):计算向量在各个维度上的绝对差的总和。
通常,余弦相似度和欧氏距离是最常用的相似度度量方法,尤其在处理文本和高维数据时。

  1. 向量索引结构

由于高维数据的计算复杂度较高,直接对所有向量进行一对一比较(即暴力搜索)会非常低效。为此,Milvus 使用了几种高效的向量索引结构,以加速相似度计算和检索。常见的索引结构有:

倒排文件(IVF, Inverted File):将向量分成若干个簇,并将每个簇索引起来。当查询向量到来时,Milvus 只需要搜索与查询向量相似的簇,从而避免了对整个数据库的全面搜索。IVF 适用于大规模数据集,能够提高查询速度。
HNSW(Hierarchical Navigable Small World):一种图索引方法,通过构建小世界网络来加速相似向量的查找。HNSW 在高维空间中也能提供高效的近似邻近搜索。
Annoy(Approximate Nearest Neighbor Search):一种基于树结构的近似搜索算法,适用于在大规模数据集上进行快速的相似性搜索。
PQ(Product Quantization):将向量分解为子向量,通过量化方法来减少存储空间,并加速相似度搜索。
这些索引方法能够大幅度降低计算复杂度,使得即便是在数百万或数十亿个向量的数据库中,Milvus 也能快速响应相似度搜索请求。

  1. 近似搜索 vs 精确搜索

在大规模向量搜索中,直接进行精确的最近邻搜索会非常耗时,尤其是高维空间(如数百维或更高)的情况下。Milvus 提供了近似最近邻搜索(ANN),即在搜索时通过某些算法(如HNSW、IVF)进行近似计算,以换取更高的速度。虽然这种方法不是100%精确的,但在大多数应用中,这种近似误差是可以接受的,并且相较于精确搜索,能大大提高效率。

精确搜索:会计算查询向量与所有向量的相似度,找到最匹配的向量。这种方法计算量大,适合数据量不大的情况。
近似搜索:通过近似算法(如图结构、聚类等)来减少需要检查的向量数目,通常能提供足够高质量的搜索结果,但可能会错过一些最相似的向量。
4. 搜索流程

搜索过程的一般流程如下:

生成查询向量:首先,系统会将查询的数据(如文本、图像)转化为向量表示,称为查询向量。

索引选择和查找:Milvus 会根据存储的向量的索引类型(如HNSW、IVF等)选择合适的索引结构,定位出可能与查询向量相似的子集。

计算相似度:通过计算查询向量与候选向量之间的相似度,找到最相似的向量。Milvus 会根据设置的参数(如返回的近邻数)返回前 K 个最相似的向量。

返回结果:返回相似度最高的向量及其对应的原始数据。

  1. 示例:搜索文本相似度

假设你有一组文本数据,并已经通过 BERT 或其他模型将每个文本转换成了一个向量(例如 768 维的向量)。当你输入一个查询文本时,系统会将该文本转换成一个向量,并利用之前提到的索引结构(如 HNSW 或 IVF)找到与查询向量相似的文本。通过计算这些向量之间的相似度(如余弦相似度),系统会返回与查询最相似的文本及其相关信息。

总结

向量搜索的核心在于通过计算查询向量与数据库中存储向量之间的相似度,来找到最相关的数据。Milvus 通过高效的索引方法和相似度度量来加速这一过程,使得在大规模数据集上,向量相似度搜索既高效又准确。同时,Milvus 支持精确搜索和近似搜索,提供了灵活的选择来平衡搜索精度和性能。

相关文章:

milvus 通俗易懂原理

向量值如何生成的 Milvus 是一个开源的向量数据库,专门用于处理高维向量的存储、搜索和分析。向量值本身通常来自于某些机器学习或深度学习模型的输出,尤其是在自然语言处理(NLP)、计算机视觉(CV)、推荐系…...

什么是撞库、拖库和洗库?

“撞库”是黑客通过收集互联网已泄露的用户和密码信息,生成对应的字典表,尝试批量登陆其他网站后,得到一系列可以登录的用户。 很多用户在不同网站使用的是相同的帐号密码,因此黑客可以通过获取用户在A网站的账户从而尝试登录B网…...

安卓-碎片的使用入门

1.碎片(Fragment)是什么 Fragment是依赖于Activity的,不能独立存在的,是Activity界面中的一部分,可理解为模块化的Activity,它能让程序更加合理和充分地利用大屏幕的空间,因而在平板上应用得非常广泛. Fragment不能独立存在,必须…...

华为IPD流程学习之——深入解读123页华为IPD流程体系设计方法论PPT

该方案全面介绍了华为IPD流程体系设计方法论,包括流程体系建设的背景、理念、架构、核心特征、构建模型、与组织和战略的关系、运营机制、数字化转型以及流程管理组织等内容,旨在为企业提供一套系统的流程体系建设指导,以提升运营效率、质量和…...

DriveMLLM:一个专为自动驾驶空间理解任务设计的大规模基准数据集

2024-11-20, 由武汉大学、中国科学院自动化研究所、悉尼科技大学、牛津大学等合创建了DriveMLLM数据集,该数据集是自动驾驶领域首个专为评估多模态大型语言模型(MLLMs)空间理解能力而设计的基准,对于推动自动驾驶技术的…...

高效处理 iOS 应用中的大规模礼物数据:以直播项目为例(1-礼物池)

引言 在现代iOS应用开发中,处理大规模数据是一个常见的挑战。尤其实在直播项目中,礼物面板作为展示用户互动的重要部分,通常需要实时显示海量的礼物数据。这些数据不仅涉及到不同的区域、主播的动态差异,还需要保证高效的加载与渲…...

python的函数与递归

需求: 编写一个函数,计算斐波那契数列的第 N 项,并使用递归实现。 为了计算斐波那契数列的第 N 项,可以使用递归方法。斐波那契数列的定义是: F(0) 0 F(1) 1 对于 n > 2,F(n) F(n-1) F(n-2)&#xf…...

RabbitMQ学习-Seven

再SpringBoot中使用MQ 1.创建SpringBoot项目 除了我们平常使用的一些工具依赖,还需要选择这个Spring for RabbitMQ依赖 2.需要在application.yml文件中进行配置 server:port :9090 spring:application:name:producerrabbitmq:host: 你的主机名port: 5672virtual-…...

中科亿海微SoM模组——波控处理软硬一体解决方案

本文介绍的波控处理软硬一体解决方案主要是面向相控阵天线控制领域,波控处理通过控制不同天线组件的幅相来调整天线波束的方向和增益,实现高精度角度控制和高增益。本方案由波控处理板、波控处理控制软件算法和上位机软件共同构成。波控处理SoM模组原型样…...

开源法律、政策和实践

#一切皆可开源# 木兰社区对《Open Source Law,Policy and Practice 》这本书的第二版进行了翻译,并发布在了gitee上。这本书是对开源文化、开源政策、法律的全面介绍。目录如下: 1 Open Source as Philosophy,Methodology,and CommerceUsing Law with …...

【计算视觉算法与应用】金字塔,下采样Gaussian Pyramid. 上采用 Laplacian Pyramid (code: py)

金字塔(Pyramid)在图像处理中主要用于多尺度分析和图像压缩。常见的图像金字塔有两种: 高斯金字塔(Gaussian Pyramid):用于下采样图像,生成分辨率逐渐降低的图像序列。拉普拉斯金字塔&#xff…...

基于BERT的语义分析实现

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…...

DNS查询工具

DNS查询工具是用于查询和获取域名相关信息的工具。通过这些工具,您可以获取到诸如IP地址、邮件服务器以及域名服务器等信息,这对于排查问题、设置域名配置以及确保网站正常运行都非常重要。 以下是五款常用的DNS记录查询工具: MxToolbox MxTo…...

ODB 框架

目录 概述 基本工作原理 映射C对象到数据库表 从数据库中加载对象 持久化C对象到数据库 ODB常用接口 表创建预处理 #pragma db Object table 数据表属性 id auto column(“xxx”) type("xxx") unique index null default&…...

Ubuntu WiFi检测

ubuntu检测到多个同名wifi,怎么鉴别假冒的wifi? 在Ubuntu中,如果检测到多个同名的Wi-Fi网络,可能存在假冒的Wi-Fi(例如“蜜罐”攻击)。以下是一些鉴别假冒Wi-Fi的方法: 检查信号强度&#xff1a…...

QILSTE H4-108TCG高亮纯lu光LED灯珠 发光二极管LED

型号:H4-108TCG 在电子领域,H4-108TCG LED以其卓越的性能和微小的尺寸1.6x0.8x0.4mm脱颖而出。这款高亮纯绿光LED,采用透明平面胶体,符合EIA标准包装,是环保产品,符合ROHS标准。防潮等级为Level 3&#xf…...

IP与“谷子”齐飞,阅文“乘势而上”?

爆火的“谷子经济”,又捧出一只“潜力股”。 近日,阅文集团股价持续上涨,5日累计涨幅达13.20%。这其中,周三股价一度大涨约15%至29.15港元,强势突破20日、30日、120日等多根均线,市值突破280亿港元关口。 …...

Java阶段三05

第3章-第5节 一、知识点 动态代理、jdk动态代理、cglib动态代理、AOP、SpringAOP 二、目标 理解什么是动态代理和它的作用 学会使用JAVA进行动态代理 理解什么是AOP 学会使用AOP 理解什么是AOP的切入点 三、内容分析 重点 理解什么是动态代理和它的作用 理解什么是AO…...

C# yield 关键字

文章目录 前言一、yield 关键字的语法形式及使用场景(一)yield return(二)yield break 二、yield 关键字的工作原理三、yield 关键字的优势与应用场景(一)优势(二)应用场景 前言 在 …...

SpringBoot开发——结合Nginx实现负载均衡

文章目录 负载均衡介绍介绍Nginx实现负载均衡的示例图:负载均衡策略1.Round Robin:2.Least Connections:3.IP Hash :4.Generic Hash:5.Least Time (NGINX Plus only)6.Random:Nginx+SpringBoot实现负载均衡环境准备Nginx 配置负载均衡测试负载均衡介绍 介绍 在介绍Nginx的负…...

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数,对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

R语言AI模型部署方案:精准离线运行详解

R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

以下是对华为 HarmonyOS NETX 5属性动画(ArkTS)文档的结构化整理,通过层级标题、表格和代码块提升可读性:

一、属性动画概述NETX 作用:实现组件通用属性的渐变过渡效果,提升用户体验。支持属性:width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项: 布局类属性(如宽高)变化时&#…...

postgresql|数据库|只读用户的创建和删除(备忘)

CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的?

uni-app 中 Web-view 与 Vue 页面的通讯机制详解 一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件,用于在原生应用中加载 HTML 页面: 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...

回溯算法学习

一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...

【Go语言基础【13】】函数、闭包、方法

文章目录 零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理 二、函数类型与高阶函数1. 函数类型定义2. 高阶函数(函数作为参数、返回值) 三、匿名函数与闭包1. 匿名函数(Lambda函…...

如何更改默认 Crontab 编辑器 ?

在 Linux 领域中,crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用,用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益,允许他们自动执行各种系统任务。 编辑 Crontab 文件通常使用文本编…...

【网络安全】开源系统getshell漏洞挖掘

审计过程: 在入口文件admin/index.php中: 用户可以通过m,c,a等参数控制加载的文件和方法,在app/system/entrance.php中存在重点代码: 当M_TYPE system并且M_MODULE include时,会设置常量PATH_OWN_FILE为PATH_APP.M_T…...