科技云报道:押注向量数据库,为时过早?
科技云报道原创。
在大模型的高调火热之下,向量数据库也获得了前所未有的关注。
近两个月内,向量数据库迎来融资潮,Qdrant、Chroma、Weaviate先后获得融资,Pinecone宣布1亿美元B轮融资,估值达到7.5亿美元。
东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超600亿人民币。
但是在这蒸蒸日上的发展态势下,向量数据库依然面临着不可忽视的挑战。
有声音认为,不必专门开发一款纯粹的向量数据库,而是可以在现有数据库的基础上添加一些层,赋予其向量检索的能力。更有业内人士认为,现在入局向量数据库可能并非合适的时机。
那么,向量数据库是否算得上AI时代的标配?其热度能维持到几时,此时押注后续又要挤出多少泡沫?
向量数据库 大模型的“海马体”
与传统数据库不同,向量数据库不依赖于结构化格式,而是将数据作为数学向量存储在高维空间中并对其进行索引。
这种方法被称为“向量化”,可以更有效地搜索相似性并更好地处理复杂的数据类型(图像、音视频、自然语言)。
某种程度上,向量数据库代表了数据存储和检索的范式转变。随着大模型的兴起,向量数据库的优势得以充分发挥,甚至有人将其视为AIGC成功的基石。
一种通俗的比方是,行业内将大模型称为“大脑”,向量数据库则是其“海马体”。
目前的大模型都是预训练模型,对于训练截止日之后发生的事情一无所知,第一是没有实时的数据,第二是缺乏私域数据或者企业数据。
向量数据库可以通过存储最新信息或者企业数据有效弥补了这些不足,让大模型突破在时间和空间上的限制,加速大模型落地行业场景。
同时,通过向量数据的本地存储,还能够协助解决目前企业界最担忧的大模型泄露隐私的问题。
不过值得一提的是,向量技术并不新鲜,早在ChatGPT横空出世之前,向量数据库非常小众。前文提到的两家初创公司Pinecone和Weaviate都成立于2019年,但此前无论是融资还是营收都是乏善可陈的状态。
Pinecone联合创始人兼首席执行官Edo Liberty曾坦率地提到,如果没有ChatGPT的出现,我们根本不可能获得巨额融资。
软件服务初创公司Heltar的创始人Avyukt Aggarwal也谈到,AIGC的爆火成就了向量数据库。
“每次淘金热都会有人卖铲子。对于生成式AI,铲子是什么?向量数据库。几乎每一个LLM支持的应用程序都在使用它们或即将使用它们。”
向量数据库 有必要走向专业化吗?
向量数据库系统的诞生,来源于具体业务需求——想要高效处理海量的向量数据,就需要更细分、更专业的数据基础设施,为向量构建专门的数据库处理系统。
但这种路径是必须的吗?
从产品层面讲,如果传统数据库厂商不单独研发向量数据库,那么基本上会主张支持原生的向量词嵌入和向量搜索引擎。
向量数据库市场的阵营,在ChatGPT影响之前就已经在形成分化,既包括提供开源组件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商业化服务产品Pinecone,再到大厂谷歌推出的Vertex AI匹配引擎,数据库厂商Elastic和Redis基于自身提供的向量检索功能等等。
这其实也表明了当前向量数据库市场存在的两种路线:
一个是基于分析数据库的向量化执行引擎,英文是Vectorization,这是学术界2013年提出的名词,如Clickhouse、Spark引擎,是一种新型的执行方式,用于处理传统的结构化数据如表单等,更多的是结构化数据分析数据里面做并行执行的一种方式,在新型的处理芯片上进行处理。
另一个则是推出向量数据库(Vector Database),本质上处理的是AI领域的一类新型数据类型,例如对多模数据的处理,相比其他的向量检索技术在检索速度和精准性上都有了一个很高的提升。
后者的做法也基本在几家主流云厂商如亚马逊云、阿里云上能够看到,而这些云平台应用市场也会提供给这些第三方向量数据库企业进行托管。
例如,阿里云开发的内存数据库Tair,在兼容Redis生态的同时,也具备向量检索能力,实现缓存+向量二合一,已经投入在电商等场景。
有业内人士认为,对于简单的用户和场景来说,在传统数据库上添加一个向量分层来满足技术发展需求,这种方法是可行的。
然而,考虑到 AI 场景和产业需求,情况可能有所不同。AI领域的迭代非常快,随着数据量和应用场景的增加,传统数据库可能不再适用于高要求的计算密集型场景,向量数据库可能才是最终的解决方案。
押注向量数据库 挑战颇多
作为今年以来的热门技术赛道,向量数据库已吸引了大量厂商和创业团队入场,先发者与后来者,老牌厂商与新生力量之间的竞争正在持续升温。
但值得注意的是,向量数据库真的值得厂商全力投入吗?
在《为什么你不应该投资向量数据库?》一文中,吴英骏表示,现在入局向量数据库可能并非合适的时机。其理由主要集中于以下几点:
其一,先发优势明显。目前向量化技术目前已十分成熟,并存在大量开源解决方案,在不同的领域也存在不同的向量化方案,潜在用户可以很容易地在现有市场中找到合适的选择。
其二,需求层次不同。如果一家公司已经采用了Elastic,Redis,SingleStore或Rockset等商业数据库,并且不需要高度先进的向量搜索功能,则可以充分利用这些数据库的现有功能。
尽管在向量数据处理方面的表现不如专业的向量数据库,但依然可以满足多数用户的一般要求。
其三,技术在不断前进。随着数据库领域技术的进步,越来越多的数据库会考虑纳入向量搜索功能,以满足当前用户群的需求。对于目前缺乏向量搜索功能的数据库,实现这些功能或许只是时间问题。
也有声音认为,相较于大模型的高调火热,向量数据库仍然靠近底层,并没有达到真正意义上的全民皆知,向量数据库更多时候是需要集成到其他平台或云上被销售。
而从需求端看,过去向量检索还主要聚焦于机器学习和数据挖掘领域,通过高效的数据存储和查询工具,使得相似性搜索和聚类分析成为可能。
在推荐系统中,向量数据库助力个性化推荐,根据用户兴趣和商品相似性,呈现给用户最贴切的推荐结果。
简言之,“与其投资新的向量数据库项目,不如集中精力于现有数据库,并探索利用向量引擎增强这些数据库的机会,使其更加健壮和强大”。
结语
无论如何,在技术的快速迭代下,数据库市场的持续扩张是不可避免的。当前存在着大量的需求,将吸引越来越多的数据库甚至向量数据库加入竞争。
不过从长远来看,向量数据库的市场需求尚处于初期,中远期规模尚难以预估。在若干轮优胜劣汰之后,我们或许才能看清谁是真正的执棋者。
【关于科技云报道】
专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
相关文章:
科技云报道:押注向量数据库,为时过早?
科技云报道原创。 在大模型的高调火热之下,向量数据库也获得了前所未有的关注。 近两个月内,向量数据库迎来融资潮,Qdrant、Chroma、Weaviate先后获得融资,Pinecone宣布1亿美元B轮融资,估值达到7.5亿美元。 东北证券…...
铭控传感亮相2023国际物联网展,聚焦“多场景物联感知方案”应用
金秋九月,聚焦IoT基石技术,荟萃最全物联感知企业,齐聚IOTE 2023第20届国际物联网展深圳站。铭控传感携智慧楼宇,数字工厂,智慧消防,智慧泵房等多场景物联感知方案及多品类无线传感器闪亮登场,现…...
前端demo: 实现对图片进行上传前的压缩功能
前端可以使用canvas和File API来对图片进行压缩和缩放处理,以下是一个示例代码 : 压缩方法compressImg这段代码是实现对图片进行上传前的压缩功能 1. 定义了一个压缩图片的函数 compressImg,接受两个参数:file表示要压缩的文件,q…...
计算机网络(文章链接汇总)
参考引用 计算机网络微课堂-湖科大教书匠计算机网络(第7版)-谢希仁 计算机网络(一):概述计算机网络(二):物理层计算机网络(三):数据链路层计算机网…...
黑科技-Android
1热更新(热修复):apk不用发版,就能修复bug 原理:我们修复好了bug的时候,把那些有改动的java源码编译成class,再打包成dex,然后通过反射技术放到dexElements数组的最前面,…...
450. 删除二叉搜索树中的节点
给定一个二叉搜索树的根节点 root 和一个值 key,删除二叉搜索树中的 key 对应的节点,并保证二叉搜索树的性质不变。返回二叉搜索树(有可能被更新)的根节点的引用。 一般来说,删除节点可分为两个步骤: 首先…...
python安全工具开发基础
文章目录 拷贝、with、is深拷贝、浅拷贝with 三器一闭迭代器生成器闭包装饰器 动态绑定垃圾回收网络编程UdpTcp 协程mysql预处理防止注入 redis未授权/弱密码 拷贝、with 、is a [11, 22, 33] b [11, 22, 33] ca print(id(a)) print(id(b)) print(id(c))print(a b) print(…...
26 docker前后端部署
[参考博客]((257条消息) DockerNginx部署前后端分离项目(SpringBootVue)的详细教程_在docker中安装nginx实现前后端分离_这里是杨杨吖的博客-CSDN博客) (DockerNginx部署前后端分离项目(SpringBootVue)) 安装docker # 1、yum 包更新到最新 yum update # 2、安装需要的软件包…...
[linux] SFTP文件传输基本命令 --- xshell 直接上传文件
2.sftp - 上传文件:如果上传/下载的是文件夹, 在put/get命令后加上-r参数即可。 上传文件: 把本地服务器的/www/wwwroot目录下面的study.log文件上传到远程服务器的/www/server目录下。 sftp> lcd /www/wwwroot sftp> put study.log /www/server…...
Tomcat 多实例
一、Tomcat 多实例 1、概念: Tomcat 多实例是指在同一台服务器上运行多个独立的 Tomcat 服务器实例。它们可以同时运行在同一台物理服务器或虚拟服务器上,但它们彼此之间是相互独立的,有各自的配置、应用程序和资源。 2、配置:…...
全民拼购模式:电商的新趋势和机遇
全民拼购模式是一种基于社交电商的新型模式,它通过拼团、拼购等方式,让消费者享受更优惠的价格和更便捷的购物体验。这种模式的出现,不仅为电商平台注入了新的活力,也成为了消费者追求高性价比商品的新选择。 全民拼购模式有以下…...
免费使用,媲美Midjourney!微软在Bing Chat等提供—DALL-E 3
微软在官网宣布,将OpenAI最新模型DALL-E 3集成在Bing Chat和Bing Image Create中,并免费提供给用户使用。 据悉,DALL-E 3是一款类Midjourney产品,通过文本就能生成二次元、3D、朋克、涂鸦、素描、黑白、极简、印象派、位面像素等…...
Nacos中AP和CP 切换
CAP理论 这个定理的内容是指的是在一个分布式系统中、Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。 一致性(C):在分布式系统中&a…...
服务器中勒索病毒怎么解决?勒索病毒解密,数据恢复
服务器中勒索病毒是一件低频、高概率的事情。而且一旦用户的服务器中招以后,想要处理无论是经济成本还是时间成本都非常的高。也会对企业的生产经营造成很大的影响。所以绝大多数企业主都很关心服务器中勒索病毒后怎么解决。针对这个问题,云天数据恢复中…...
全面解析UDP协议(特点、报文格式、UDP和TCP的区别)
了解UDP(User Datagram Protocol) UDP是无连接通信协议,即在数据传输时,数据的发送端和接收端不建立逻辑连接。简单来说,当一台计算机向另外一台计算机发送数据时,发送端不会确认接收端是否存在࿰…...
iPhone15手机拓展坞方案,支持手机快充+传输数据功能
手机拓展坞的组合有何意义?首先是数据存储场景,借助拓展坞扩展出的接口,可以连接U盘、移动硬盘等采用USB接口的设备,实现大文件的快速存储或者流转;其次是图片、视频的读取场景,想要读取相机、无人机SD/TF存…...
优化理论笔记
目录 一、前言 二、优化问题的基本要素 三、优化问题分类 四、最优值类型 五、最优化方法分类 六、非约束优化 1、问题定义 2、优化算法 1)一般局部搜索过程 2)集束搜索 3)禁忌搜索 4)模拟退火 5)蛙跳算法…...
FastAPI学习-23.异常处理器 exception_handler
前言 通常我们可以通过 raise 抛出一个 HTTPException 异常,请求参数不合法会抛出RequestValidationError 异常,这是最常见的2种异常。 HTTPException 异常 向客户端返回 HTTP 错误响应,可以使用 raise 触发 HTTPException。 from fastap…...
国庆出游远程实测:ToDesk 、TeamViewer、AnyDesk远程控制软件稳定性
ToDesk 、TeamViewer、AnyDesk远程控制软件稳定性 【前言】【实测软件】【测试环境】【实操体验】1. 软件安装2. 登录速度3. 文件传输4. 操作延迟5. 画面清晰度6. 安全防护 【本文小结】 【前言】 随着科技的不断发展,远程控制软件已成为我们生活中不可或缺的一部分…...
Facebook 惊现网络钓鱼浪潮,每周攻击 10 万个账户
日前,据Bleeping Computer网站披露,某黑客组织通过一个伪造和受损的 Facebook账户网络,发送钓鱼信息,利用密码窃取恶意软件攻击 Facebook企业账户。尽管该攻击链并不“新奇”,但此次网络攻击的活动规模却十分庞大&…...
高通camx开源部分简介
camera整体框架 ISP Pipeline diagram Simple Model Camx and chi_cdk 整体框架 CtsVerifier, Camra Formats Topology of Camera Formats. Topology (USECASE: UsecaseVideo) Nodes List Links between nodes Pipeline PreviewVideo Buffer manager Create Destro…...
Springboot 框架中加解密字段后存储数据库
为防止数据库泄露,表里的敏感字段被曝光,需要对用户的重要数据做加密存取。 选择加密算法: 首先,你需要选择适合你的需求的加密算法。一些常见的加密算法包括AES、RSA、SHA等。具体的选择取决于你要加密的数据和安全需求。 引入…...
计算机毕设 大数据工作岗位数据分析与可视化 - python flask
文章目录 0 前言1 课题背景2 实现效果3 项目实现3.1 概括 3.2 Flask实现3.3 HTML页面交互及Jinja2 4 **完整代码**5 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要…...
Maven聚合项目配合Springcloud案例
创建maven项目 导入依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache…...
目标检测网络系列——YOLO V1
文章目录 One Stage DectectionYOLO网络正向预测pipline反向传播过程理解grid和grid对应的B个预测框YOLO网络的限制对比实验与其他的real-time detection的对比VOC 2007数据集的错误分析YOLO和Fast RCNN的集成学习VOC 2012数据集结果YOLO模型的泛化性DEMOOne Stage Dectection …...
任务工单发送失败重试方案设计
需求背景: 该系统为一个工单系统,其中任务工单为该系统中的一个模块;任务工单它是需要周期性调度的一种任务类型;可以按照用户配置的时间周期定时性触发的。由于任务需要发送到对应的工作人员上,所以这里需要先对员工进…...
关于 Vue-iClient-MapboxGL 的使用注意事项
官网:https://iclient.supermap.io/web/apis/vue/zh/api/guide/installation.html 关于图的使用,其余的引入步骤不再赘述,仅说注意事项。 推荐使用的是全局引入,也就是完整引入 因为单独引入我踩了不少坑,比如说 cs…...
Go 语言 map 如何顺序读取?
Go 语言中的 map 是一种非常强大的数据结构,它允许我们快速地存储和检索键值对。 然而,当我们遍历 map 时,会有一个有趣的现象,那就是输出的键值对顺序是不确定的。 现象 先看一段代码示例: package mainimport &q…...
flutter StreamSubscription 订阅者 stream
当您使用[Stream.listen]收听[Stream]时 则返回[StreamSubscription]对象 List<StreamSubscription?> subscriptions []; overridevoid initState() {super.initState();//subscriptions列表添加两个StreamSubscription。Stream.listen返回StreamSubscription对象subs…...
安全性算法
目录 一、安全性算法 二、基础术语 三、对称加密与非对称加密 四、数字签名 五、 哈希算法 六、哈希算法碰撞与溢出处理 一、安全性算法 安全性算法的必要性: 安全性算法的必要性是因为在现代数字化社会中,我们经常需要传输、存储和处理敏感的数据…...
南京在线网站制作/福建seo关键词优化外包
今天偶尔处理到了冷僻字这个问题。我们知道,在c中如果是这样一个string a"中国";那么它的长度就是4,也就是每个汉字占两个字节但是在c#中这样一个语句下来长度就变成了2,后来有人告诉我是因为存储编码的方式不同,我还没…...
网站的管理权限有什么用/网站制作策划
误区: 1.基础最重要,所以什么英语数学应该努力学好。 2.交际比技术更重要 3.刻苦勤奋最重要 4. 多学几门 我的看法: 1. 废话。假如你是个没有基础的人,你去学习编程当然会有很多不足的地方。但是如果你觉得基础很重要,…...
简单网站系统/百度推广账户登录
PHP 字符串变量一个字符串(string)就是由一系列的字符组成,其中每个字符等同于一个字节。字符串变量用于存储并处理文本。PHP 中的字符串变量字符串变量用于包含有字符的值。在创建字符串之后,我们就可以对它进行操作了。您可以直接在函数中使用字符串&a…...
中信建设有限责任公司山东分公司/seo职位要求
机器人感知:因子图在SLAM中的应用 第一章:引言 1.首先提出来机器人中的推断问题,SLAM问题是根据先验信息(包括之前时刻的位姿以及已知路标点信息)以及传感器测得信息(测到的路标点信息)这两个进行推断,推断出该时刻的位姿以及未知…...
热门的网站模板/百度搜索智能精选入口
流式编程Stream 什么是Stream? Stream它并不是一个容器,它只是对容器的功能进行了增强,添加了很多便利的操作,例如查找、过滤、分组、排序等一系列的操作并且有串行、并行两种执行模式,并行模式充分的利用了多核处理器的优势&am…...
荆州市建设委员会网站/如何搭建一个网站
使用外部邮箱来发生邮件明显好处就是防止其他邮箱服务器当垃圾邮件处理,另一方面能降低收邮件延迟。 下面开始进行使用外部邮箱配置: zabbix服务端配置: 操作系统:CentOS7_x64 1、 安装一个邮件发送程序mailx工具(msm…...