当前位置: 首页 > news >正文

向量数据库的分类概况

保存和检索矢量数据的五种方法:

  1. 像 Pinecone 这样的纯矢量数据库
  2. 全文搜索数据库,例如 ElasticSearch
  3. 矢量库,如 Faiss、Annoy 和 Hnswlib
  4. 支持矢量的NoSQL 数据库,例如 MongoDB、Cosmos DB 和 Cassandra
  5. 支持矢量的SQL 数据库,例如 SingleStoreDB 或 PostgreSQL
    1.纯矢量数据库
    纯向量数据库专门用于存储和检索向量。示例包括 Chroma、LanceDB、Marqo、Milvus/Zilliz、Pinecone、Qdrant、Vald、Vespa、Weaviate 等。

    在纯矢量数据库中,数据是根据对象或数据点的矢量表示来组织和索引的。这些向量可以是各种类型数据的数值表示,包括图像、文本文档、音频文件或任何其他形式的结构化或非结构化数据。

    纯载体数据库的优点

    利用索引技术进行高效的相似性搜索
    大型数据集和高查询工作负载的可扩展性
    支持高维数据
    支持基于 HTTP 和 JSON 的 API
    对向量运算的本机支持,包括加法、减法、点积、余弦相似度

    纯载体数据库的缺点

    仅矢量:纯矢量数据库可以存储矢量和一些元数据,但仅此而已。对于大多数企业人工智能用例,您可能需要包括实体、属性和层次结构(图形)、位置(地理空间)等的描述等数据。
    有限或没有 SQL 支持:纯向量数据库通常使用自己的查询语言,这使得很难对向量和相关信息运行传统分析,或者将向量和其他数据类型结合起来。
    没有完整的 CRUD。纯向量数据库并不是真正为创建、更新和删除操作而设计的。对于读取操作,数据必须首先进行矢量化和索引以进行持久化和检索。这些数据库专注于提取矢量数据、对其进行索引以进行有效的相似性搜索以及基于矢量相似性查询最近邻居。
    建立索引非常耗时。索引矢量数据计算量大、成本高且耗时。这使得很难将新数据用于生成人工智能应用程序。

    被迫权衡。根据所使用的索引技术,矢量数据库要求客户在准确性、效率和存储之间进行权衡。例如,Pinecone 的 IMI 索引(反向多重索引,ANN 的一种变体)会产生存储开销,并且计算量很大。它主要针对静态或半静态数据集而设计,如果频繁添加、修改或删除向量,则可能会受到挑战。Milvus 使用称为“产品量化”和“分层可导航小世界”(HNSW) 的索引,这些索引是权衡搜索准确性和效率的近似技术。此外,其索引需要配置各种参数,使用不正确的参数选择可能会影响搜索结果的质量或导致效率低下。

    企业特征值得怀疑。许多矢量数据库在基本功能上严重落后,包括 ACID 事务、灾难恢复、RBAC、元数据过滤、数据库可管理性、可观察性等。这可能会导致严重的业务问题 - 类似于丢失所有数据的客户。

    对于许多客户来说,矢量数据库的局限性将归结为性价比。鉴于矢量运算的计算量大,OSS矢量数据库或矢量库成为特别大规模应用程序的可行替代方案。

    2. 全文检索数据库

    此类别包括 Elastic/Lucene、OpenSearch 和 Solr 等数据库。

    优点

    --高可扩展性和性能,特别是对于非结构化文本文档
    --丰富的文本检索功能,例如内置外语支持、可自定义分词器、词干分析器、停止列表和 N 元语法
    --基于开源库(Apache Lucene)
    --大型集成生态系统,包括向量库

    矢量数据全文检索数据库的局限性

    --未针对向量搜索或相似性匹配进行优化
    --专为全文搜索而不是语义搜索而设计,因此基于其构建的应用程序不会具有检索增强生成 (RAG) 和其他用例的完整上下文。为了实现语义搜索功能,这些数据库需要使用其他工具以及大量的自定义评分和相关性模型进行扩充。
    --其他数据格式(图像、音频、视频)的应用有限
    --缺乏 GPU 支持

    3. 向量库

    对于许多开发人员来说,Faiss、Annoy 和 Hnswlib 等开源矢量库是一个不错的起点。

    Faiss是一个用于密集向量的相似性搜索和聚类的库。Annoy(Approximate Nearest Neighbors Oh Yeah)是一个用于 ANN 搜索的轻量级库。Hnswlib是一个实现 ANN 搜索的 HNSW 算法的库。

    开源向量库的优点

    --快速最近邻搜索
    --专为高维而打造
    --支持面向 ANN 的索引结构,包括倒排文件、乘积量化和随机投影
    --支持推荐系统、图像搜索和 NLP 的用例
    --SIMD(单指令、多数据)和 GPU 支持可加速矢量相似性搜索操作

    开源向量库的局限性

    --繁琐的维护和集成
    --与精确方法相比,牺牲搜索精度
    --自带基础设施矢量库需要大量内存和计算资源,它们需要您构建和维护复杂的基础设施,以便为应用程序需求提供足够的 CPU、GPU 和内存资源。
    --对元数据过滤、SQL、CRUD 操作、事务、高可用性、灾难恢复以及备份和恢复的支持有限或不支持

         4.支持向量的NoSQL数据库

该类别包括:

  1. NoSQL 数据库,例如 MongoDB、Cassandra/DataStax Astra 和 CosmosDB。
  2. 键值数据库,例如 Redis
  3. 其他特殊用途数据库,如 Neo4j(

几乎所有这些 NoSQL 数据库最近才通过添加矢量搜索扩展而变得支持矢量。

优点

  • 对于其特定的数据模型,NoSQL 数据库提供高性能和规模。Neo4j(图形数据库)可以与社交网络或知识图的法学硕士结合使用。具有矢量功能的时间序列数据库(例如 kdb)也许能够将矢量数据与金融市场数据结合起来。

局限性

  • NoSQL 数据库的向量功能是基本的/新生的/未经测试的。许多 NoSQL 数据库今年才添加了向量支持。五月,Cassandra 宣布计划添加矢量搜索。4 月份,Rockset 宣布支持基本向量搜索,Azure Cosmos DB于 5 月份宣布支持 MongoDB vCore 的向量搜索。DataStax和MongoDB就在本月宣布了矢量搜索功能(均为预览版)!
  • NoSQL 数据库的矢量搜索性能差异很大,具体取决于支持的矢量函数、索引方法和硬件加速。
    5. 支持向量的 SQL 数据库
         该类别由一组非常小的数据库组成——SingleStoreDB、PostgreSQL 的 pgvector/Supabase Vector(测试版)、Clickhouse、Kinetica 和 Rockset。我们预计更多流行的数据库会出现在这个列表中,因为向已建立的数据库添加基本矢量功能并不是一件繁重的工作。事实上,矢量数据库 Chroma 是从 ClickHouse 中诞生的。
    更新:2023 年 9 月,Oracle 也宣布了矢量搜索功能。

    支持矢量的 SQL 数据库的优点

    --具有点积、余弦相似度、欧氏距离和曼哈顿距离等功能的幂向量搜索。
    --使用相似度分数查找 K 最近邻
    --多模型 SQL 数据库提供混合搜索,并且可以将向量与其他数据结合起来以获得更有意义的结果
    --大多数 SQL 数据库可以部署为服务,并在任何主要云上完全管理。

    SQL 数据库用于矢量数据处理的局限性

    --SQL 数据库是为结构化数据而设计的。生成式人工智能应用程序背后的语料库主要包含非结构化数据,例如图像、音频和文本。虽然关系数据库通常可以存储文本和 blob,但大多数数据库不会对这种非结构化数据进行矢量化以用于机器学习。
    --大多数 SQL 数据库尚未针对矢量搜索进行优化。关系数据库的索引和查询机制主要是为结构化数据设计的,而不是高维向量数据。虽然用于矢量数据处理的 SQL 数据库的性能可能并不出色,但支持矢量的 SQL 数据库可能会添加扩展或新功能来支持矢量搜索。例如,虽然 SingleStoreDB 支持精确的 k-NN 搜索,但我们打算添加 ANN 搜索来提高非常大、高维数据集的性能。
    --传统的 SQL 数据库无法横向扩展,因此其性能会随着数据的增长而下降。使用 SQL 数据库处理高维向量的大型数据集可能需要您进行额外的优化,例如对数据进行分区或采用专门的索引技术来保持高效的查询性能。

相关文章:

向量数据库的分类概况

保存和检索矢量数据的五种方法: 像 Pinecone 这样的纯矢量数据库 全文搜索数据库,例如 ElasticSearch 矢量库,如 Faiss、Annoy 和 Hnswlib 支持矢量的NoSQL 数据库,例如 MongoDB、Cosmos DB 和 Cassandra 支持矢量的SQL 数据库&am…...

工业镜头的类别

工业镜头的类别 按照等效焦距分为: 广角镜头 中焦距镜头 长焦距镜头 广角镜头 等效焦距小于标准镜头(等效焦距为50mm)的镜头。特点是最小工作距离短,景深大,视角大。常常表现为桶形畸变。 中焦距镜头 焦距介于广角镜…...

实验11 SQL互联网业务查询-2

这就是SQL题带给我的自信😕 可能发题解到博客上,主要是写完一遍实在不想看第二遍,太长了,优化都不想优化,看着头疼。 技术栈 – WhiteNights Site 一 USE mydata; #请在此处添加实现代码 ########## Begin #######…...

C++知识点梳理:C++ templates

c模板包括&#xff1a;类模板、类&#xff08;非模板类和模板类&#xff09;方法模板、函数模板、别名模板、变量模板。 类模板模板参数列表说明&#xff1a; 1&#xff09;类定义 仅模板参数列表声明&#xff0c;template<>行。 类名后无需参数说明<>。 2&#xf…...

uniapp form表单提交事件手动调用

背景&#xff1a; UI把提交的按钮弄成了图片&#xff0c;之前的button不能用了。 <button form-type"submit">搜索</button> 实现&#xff1a; html&#xff1a; 通过 this.$refs.fd 获取到form的vue对象。手动调用里面的_onSubmit()方法。 methods:…...

Accelerate 0.24.0文档 三:超大模型推理(内存估算、Sharded checkpoints、bitsandbytes量化、分布式推理)

文章目录 一、内存估算1.1 Gradio Demos1.2 The Command 二、使用Accelerate加载超大模型2.1 模型加载的常规流程2.2 加载空模型2.3 分片检查点&#xff08;Sharded checkpoints&#xff09;2.4 示例&#xff1a;使用Accelerate推理GPT2-1.5B2.5 device_map 三、bitsandbytes量…...

HackTheBox-Starting Point--Tier 2---Markup

文章目录 一 Markup测试过程1.1 打点1.2 权限获取1.3 权限升级 二 题目 一 Markup测试过程 1.1 打点 1.端口扫描 nmap -A -Pn -sC 10.129.95.1922.访问web网站&#xff0c;登录口爆破发现存在弱口令admin&#xff1a;password 3.抓包&#xff0c;发现请求体是XML格式 4.尝试使…...

android studio导入eclipse项目

网上下载一个老工程&#xff0c;.project文件里有eclipse。 android studio导入eclipse项目 eclipse项目结构 Android studio文件结构 下面是导入步骤&#xff1a; 第一步&#xff0c;打开一个项目。 选择File->New->Import Project 第二步&#xff0c;选择Eclipse项目根…...

如何利用AI实现银行存量客户的营销?

近年来&#xff0c;大数据、人工智能等热门关键字多次被写入中央文件与国务院政府工作报告&#xff0c;目前已上升为国家战略&#xff0c;并将深刻地改变现有行业的游戏规则。 金融行业是当今大数据、人工智能应用最广、最深的领域之一。随着数据仓库和数据科学的发展&#xff…...

springboot327基于Java的医院急诊系统

交流学习&#xff1a; 更多项目&#xff1a; 全网最全的Java成品项目列表 https://docs.qq.com/doc/DUXdsVlhIdVlsemdX 演示 项目功能演示&#xff1a; ————————————————...

Unity3d 导入中文字体转TMPtext asset

外部字体放入unity仓库以后呢&#xff0c;需要把这个字体转成用立体的字体文件才可以被使用&#xff01; 要想转换的话呢先放入仓库对字体点右键上面有一个Create创建里面有一个TEXT Asset&#xff0c;创建好就可以使用了...

云积万相,焕发电商店铺新活力

数字化时代&#xff0c;电商店铺的运营和营销策略越来越受到重视。如何让店铺在众多的竞争中脱颖而出&#xff0c;吸引更多的顾客&#xff0c;提高销售额&#xff0c;是每个电商品牌都需要思考的问题。云积天赫最近推出的云积万相为电商店铺带来全新的活力和更多的可能性。   …...

字典管理怎么使用,vue3项目使用若依的的字典管理模块

若依框架数据字典的使用_若依数据字典_哈哈水水水水的博客-CSDN博客 【精选】关于数据字典的理解与设计_数据字典怎么设计-CSDN博客 若依的字典值如何使用&#xff08;超详细图文教程&#xff09;_若依字典管理_丿BAIKAL巛的博客-CSDN博客 Vue3组合式API&#xff1a;getCurr…...

【汇编】内存中字的存储、用DS和[address]实现字的传送、DS与数据段

文章目录 前言一、内存中字的存储1.1 8086cpu字的概念1.2 16位的字存储在一个16位的寄存器中&#xff0c;如何存储&#xff1f;1.3 字单元 二、用DS和[address]实现字的传送2.1 字的传送是什么意思&#xff1f;2.2 要求原理解决方案&#xff1a;DS和[address]配合8086传送16字节…...

数据分析 - 分散性与变异的量度

全距 - 极差 处理变异性 方差度量 数值与均值的距离&#xff0c;也就是数据的差异性 标准差描述&#xff1a;典型值 和 均值的距离的方法&#xff0c;数据与均值的分散情况...

Neo4j数据库介绍及简单使用

图数据库介绍 图数据库是一种专门设计用于存储和管理图形数据的数据库类型。在图数据库中&#xff0c;数据以图的形式表示&#xff0c;其中节点表示实体&#xff0c;边表示实体之间的关系。这种表示方式非常适合处理具有复杂关系的数据&#xff0c;如社交网络、推荐系统、网络…...

ubuntu 20.04安装 Anaconda教程

在安装Anaconda之前需要先安装ros(防止跟conda冲突&#xff0c;先装ros)。提前安装好cuda 和cudnn。 本博客参考&#xff1a;ubuntu20.04配置ros noetic和cuda&#xff0c;cudnn&#xff0c;anaconda&#xff0c;pytorch深度学习的环境 安装完conda后&#xff0c;输入: pyth…...

iframe渲染后端接口文件和实现下载功能

一&#xff1a;什么是iframe&#xff1f; 1、介绍 iframe 是HTML 中的一种标签&#xff0c;全称为 Inline Frame&#xff0c;即内联框架。它可以在网页中嵌入其他页面或文档&#xff0c;将其他页面的内容以框架的形式展示在当前页面中。iframe的使用方式是通过在HTML文档中插入…...

广西建筑工地模板:支模九层桉木模板

广西作为中国西南地区的重要建筑市场&#xff0c;建设工地的模板需求量一直居高不下。在众多建筑模板中&#xff0c;支模九层桉木模板以其强度高、使用寿命长的特点而备受关注。本文将介绍广西建筑工地常用的支模九层桉木模板&#xff0c;并探讨其在建筑施工中的应用优势。支模…...

java集合,栈

只有栈是类 列表是个接口 栈是个类 队列 接口有双链表,优先队列(堆) add会报错 offer是一个满了不会报错 set集合 有两个类实现了这个接口...

Ubuntu 20.04 LTS ffmpeg gif mp4 互转 许编译安装ffmpeg ;解决gif转mp4转换后无法播放问题

安装ffmpeg apt install ffmpeg -y gif转mp4 ffmpeg -f gif -i ldh.gif ldh.mp4 故障&#xff1a;生成没报错&#xff0c;但mp4无法播放&#xff0c;体积也不正常 尝试编译安装最新版 sudo apt install -y yasm axel -n 100 https://ffmpeg.org/releases/ffmpeg-6.0.1.tar.x…...

【Nginx】使用nginx进行反向代理与负载均衡

使用场景 反向代理&#xff1a;一个网站由许多服务器承载的&#xff0c;网站只暴露一个域名&#xff0c;那么这个域名指向一个代理服务器ip&#xff0c;然后由这台代理服务器转发请求到网站负载的多台服务器中的一台处理。这就需要用到Nginx的反向代理实现了 负载均衡&#xf…...

基于IDEA 进行Maven依赖管理

1. 依赖管理概念 Maven 依赖管理是 Maven 软件中最重要的功能之一。Maven 的依赖管理能够帮助开发人员自动解决软件包依赖问题&#xff0c;使得开发人员能够轻松地将其他开发人员开发的模块或第三方框架集成到自己的应用程序或模块中&#xff0c;避免出现版本冲突和依赖缺失等…...

瑞萨RZ/G2L平台 初起动(SD卡启动)

文章目录 一 准备条件1 工具2 硬件3 镜像 二 烧录SD卡启动盘三 写Bootloader1 烧录文件2 启动烧录3 烧录 四 启动设置 一 准备条件 1 工具 ** BalenaEtcher&#xff08;俗称“ Etcher”&#xff09;&#xff0c;是一款快速将系统镜像文件&#xff08; .iso 或 .img 或 .zip或…...

chkconfig及服务脚本

运行级别 linux启动之后处于某个状态 linux运行级别 0&#xff1a;关机 #设置即重启 1&#xff1a;单用户&#xff0c;为root权限&#xff0c;禁止远程登录 2&#xff1a;无网络文本模式 3&#xff1a;多用户文本模式 4&#xff1a;未使用 5&#xff1a;图形化…...

[Android] libcutils - native 获取/设置 property

前言&#xff1a; Android 的property系统类似于linux的环境变量&#xff0c;但是更加精细。可以通过adb 设置和读取 property&#xff0c;同时也可以在代码 (JAVA/C/C) 中设置和获取属性。这有助于我们在运行时控制代码执行逻辑。比如打开 测试开关 或者 dump源数据文件。 工…...

Matlab 方位角计算之二

文章目录 一、简介二、实现代码三、实现效果一、简介 我们总是说降维打击,这种思路尤其在一些问题上显现的尤为突出,就比如方位角这个问题,如果我们局限于二维这个空间,那么很多时候就需要判断方向向量落在了那个象限,之后再一个个情况逐一分析,虽然这样做并不复杂,但总…...

Postman工具简介

介绍 Postman是一个商业的接口测试工具。免费的版本也可以使用不少功能。 官网&#xff1a;https://www.postman.com/ 下载、安装、应用界面 下载 安装、安装成功以后的应用界面 双击下载下来的可执行文件进行安装&#xff0c;出现如下界面&#xff1a; 可以注册一个账…...

2023.11.17 -hivesql调优,数据压缩,数据存储

目录 1.hive命令和参数配置 2.hive数据压缩 3.hive数据存储 0.原文件大小 18.1MB 1.textfile行存储格式, 压缩后size:18MB 2.行存储格式:squencefile ,压缩后大小8.89MB​ 3. 列存储格式 orc - ZILIB ,压缩后大小2.78MB 4.列存储格式 orc-snappy ,压缩后大小3.75MB 5…...

基于Vue+SpringBoot的大学计算机课程管理平台 开源项目

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 实验课程档案模块2.2 实验资源模块2.3 学生实验模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 实验课程档案表3.2.2 实验资源表3.2.3 学生实验表 四、系统展示五、核心代码5.1 一键生成实验5.2 提交实验5.3 批阅实…...