当前位置: 首页 > news >正文

Redis Search系列 - 第一讲 创建索引

目录

    • 一、引言
    • 二、全文检索基本概念
    • 三、创建索引

一、引言

Redis Search 是 Redis 的一个模块,用于提供全文搜索和二级索引功能。它允许在 Redis 数据库中执行复杂的搜索查询,并支持多种数据类型和查询操作。以下是 Redis Search 的一些关键特性:

  1. 全文搜索:支持对文本字段进行全文搜索,包括分词、词干提取和高亮显示等功能。
  2. 多字段索引:可以对多个字段进行索引,包括文本、数值、地理位置等。
  3. 排序和分页:支持对搜索结果进行排序和分页,方便处理大数据量的查询结果。
  4. 聚合查询:支持对数据进行聚合操作,如分组、计数、求和等。
  5. 高性能:利用 Redis 的内存存储特性,提供高性能的搜索和索引功能。

二、全文检索基本概念

在全文检索(full-text search)中,以下术语是关键概念:

  • Index:索引是一个数据结构,用于快速查找包含特定词的文档。它通常是一个倒排索引(inverted index),其中存储了每个词及其在文档中的位置。

  • Document:文档是索引中的基本单位。它可以是任何形式的文本数据,如网页、文章、电子邮件等。在索引中,每个文档都有一个唯一的标识符。

  • Field:字段是文档中的一个部分或属性。例如,一个文档可能有标题字段、正文字段、作者字段等。字段可以单独索引和搜索。

  • Token:词元是从文本中提取的最小单位,通常是单词或词组。词元化(tokenization)是将文本分割成词元的过程。

  • Term:术语是索引中的一个条目,表示一个唯一的词元。术语是词元的规范化形式,通常经过词干提取(stemming,比如复数变单数、动词过去式变回原形)和小写转换。

  • Stop Word:停用词是指在索引和搜索过程中被忽略的常见词,如 “the”、“is”、“and” 等。停用词通常对搜索结果的相关性没有显著影响,因此被过滤掉以减少索引大小和提高搜索效率。
    在这里插入图片描述

三、创建索引

创建索引后,Redis Stack会自动索引存储在数据库中的任何现有的、修改的或新创建的JSON文档。

  • 对于现有文档,索引在后台异步运行,因此文档可用可能需要一段时间。
  • 修改已有的文档和新创建的文档是同步索引的,因此在添加或修改命令完成时,文档将可用。

创建索引FT.CREATE命令语法:

FT.CREATE index [ON HASH | JSON] [PREFIX count prefix [prefix ...]] [FILTER {filter}][LANGUAGE default_lang] [LANGUAGE_FIELD lang_attribute] [SCORE default_score] [SCORE_FIELD score_attribute] [PAYLOAD_FIELD payload_attribute] [MAXTEXTFIELDS] [TEMPORARY seconds] [NOOFFSETS] [NOHL] [NOFIELDS] [NOFREQS] [STOPWORDS count [stopword ...]] [SKIPINITIALSCAN]SCHEMA field_name [AS alias] TEXT | TAG | NUMERIC | GEO | VECTOR | GEOSHAPE [ SORTABLE [UNF]] [NOINDEX] [ field_name [AS alias] TEXT | TAG | NUMERIC | GEO | VECTOR | GEOSHAPE [ SORTABLE [UNF]] [NOINDEX] ...]

FT.CREATE命令参数说明:

索引参数说明
index要创建的索引名称。如果该索引已存在,则返回错误回复(错误)“Index already exists”。
SCHEMA在 SCHEMA关键字之后,声明要索引的字段: field_name [AS alias]
field_name:对于HASH则哈希中的字段名称,对于 JSON则为JSON Path表达式
alias:定义field的别名,可使用此功能将复杂的 JSONPath 表达式与更易记住(且更易输入)的名称关联
ON {data_type}HASH (默认) 或JSON,即支持索引的Redis数据类型,
若值为JSON则需要安装 RedisJSON模块
PREFIX {count} {prefix}需要被索引的key前缀,支持设置多个前缀,支持通配符*,默认*(表示全部)
FILTER {filter}filter过滤表达式,如使用@__key表示新增或修改(just added/changed)的key,
TODO A field can be used to set field name by passing ‘FILTER @indexName==“myindexname”’.
LANGUAGE {default_lang}文档索引的默认语言,默认值为:english,
可选值:[arabic, armenian, danish, dutch, english, finnish, french, german, hungarian, italian, norwegian, portuguese, romanian, russian, serbian, spanish, swedish, tamil, turkish, yiddish, chinese]
LANGUAGE_FIELD {lang_attribute}设置文档中的某个field表示具体的LANGUAGE
SCORE {default_score}文档的默认分值score,默认值:1.0
SCORE_FIELD {score_attribute}设置文档中的某个field表示具体的SCORE,此field的值范围为:[0.0, 1.0],如不设置默认为1
PAYLOAD_FIELD {payload_attribute}设置文档的某个属性用于存储文档的二进制安全负载字符串,可在查询时由自定义评分函数或重新返回给客户端。TODO is document attribute that you use as a binary safe payload string to the document that can be evaluated at query time by a custom scoring function or retrieved to the client.
MAXTEXTFIELDS强制Redis Search索引编码超过32个文本属性,这允许您使用FT.ALTER添加其他属性(超过32个)。为了提高效率,如果索引的文本属性少于32个,Redi Search会对索引进行不同的编码
NOOFFSETS不存储文档的term偏移量,可以节省内存,但不允许精确搜索或高亮显示,
使用此选项则意味着NOHL
TEMPORARY {seconds}临时索引,设置超过n秒 - 未被搜索或新增 - 即删除该索引及其关联的数据
注: 普通索引删除(FT.DROPINDEX)时并不删除数据,需使用DD标志才可级联删除
NOHL不支持高亮highlighting,可以节约存储和内存,
使用此选项则意味着NOOFFSETS
NOFIELDS不存储每个term的属性位,可以节省内存,但不允许按特定属性进行过滤
NOFREQS避免在索引中保存term频率,可以节省内存,但不允许基于文档中给定term的频率进行排序
STOPWORDS {count}使用自定义停词(stop word)列表设置索引,在索引和搜索时忽略这些词。
{count} 是停用词的数量,后面是长度正好为 {count} 的停词参数列表。
如果未设置,FT.CREATE 将使用默认的停词列表。
如果 {count} 设置为 0,则索引没有停用词。
SKIPINITIALSCAN创建索引时忽略扫描及索引已有数据

注意事项

  • 属性数量限制:RediSearch 支持每个模式最多 1024 个属性,其中最多 128 个可以是 TEXT 属性。在 32 位构建中,最多 64 个属性可以是 TEXT 属性。属性越多,索引越大,因为每增加 8 个属性,每个索引记录需要额外一个字节进行编码。如果不需要按文本属性进行过滤,可以始终使用 NOFIELDS 选项,不将属性信息编码到索引中,以节省空间。这仍然允许按数值和地理属性进行过滤。
  • 在集群数据库中运行:在集群数据库中有多个索引时,需要确保要索引的文档与索引位于同一分片上。可以通过按索引名称标记文档来实现这一点,例如:
    • HSET doc:1{idx}
    • FT.CREATE idx … PREFIX 1 doc: …
  • 当在集群数据库中运行Redi搜索时,您可以使用RSCoordinator跨分片跨索引。在这种情况下,上述规定不适用。

在SCHEMA中field支持的类型:

Field类型说明
TEXT允许全文(full-text)检索(会被分词、倒排索引)
TAG由逗号分隔的多标签文本,允许精准匹配(exact-match),如分类、主键、标签等的精确匹配
NUMERIC数字范围检索
GEO地址位置(Point),格式:经度,纬度,允许圆周范围检索
VECTOR向量(多值数组)相似度检索,需要dialect 2及以上(introduced in RediSearch v2.4) ,
关于VECTOR的详细说明可参见:Vectors
GEOSHAPE允许多边形(polygon)检索,需使用WKT格式:POLYGON((x1 y1, x2 y2, …)
支持的坐标系:
  • 球面(默认) - SPHERICAL for Geographic longitude and latitude coordinates
  • 平面 - FLAT for Cartesian X Y coordinates

在SCHEMA中field支持的参数说明:

参数说明
SORTABLENUMERIC、TAG、TEXT 或 GEO 属性可以有一个可选的 SORTABLE 参数。
当用户按此属性的值排序结果时,结果可用的延迟非常低。
请注意,这会增加内存开销,因此请考虑不要在大型文本属性上声明它。
可以在没有 SORTABLE 选项的情况下对属性进行排序,但延迟不如使用 SORTABLE 时好。
UNF默认情况下,对于哈希(不适用于 JSON),SORTABLE 会对索引值进行规范化(字符设置为小写,去除变音符号)
使用未规范化形式(UNF)时,可以禁用规范化并保留值的原始形式。
对于 JSON,UNF 在 SORTABLE 时是隐式的(禁用规范化)。
NOSTEM索引值时禁用词干提取(stemming)
这对于诸如专有名称之类的内容可能是理想的。
NOINDEX设置属性不被索引,
修改NOINDEX属性不会导致文档的完全重新索引。
有NOINDEX 且 没有 SORTABLE,则属性将被索引忽略。
PHONETIC {matcher}将文本属性声明为 PHONETIC 将在搜索中默认执行语音匹配。强制性的 {matcher} 参数指定使用的语音算法和语言。支持以下匹配器:
dm:en - 英语的双重音码
dm:fr - 法语的双重音码
dm:pt - 葡萄牙语的双重音码
dm:es - 西班牙语的双重音码
有关更多信息,请参见:Phonetic matching
WEIGHT {weight}适用于 TEXT 属性,声明在计算结果准确性时此属性的重要性。这是一个乘数因子,如果未指定,则默认为 1。
SEPARATOR {sep}适用于 TAG 属性,指示属性中包含的文本如何拆分为单个标签。默认值为,且参数值必须是单个字符。
CASESENSITIVE适用于TAG 属性,保留标签的原始字母大小写。如果未指定,则字符将转换为小写。
WITHSUFFIXTRIE对于 TEXT 和 TAG 属性,保留一个包含所有匹配后缀的术语的后缀字典树。
它用于优化包含(foo)和后缀(*foo)查询。否则,将对字典树进行暴力搜索。
如果某些字段存在后缀字典树,则检索时会忽略其他字段
INDEXEMPTY对于 TEXT 和 TAG 属性,在 v2.10 中引入,
允许您索引和搜索空字符串
默认情况下,空字符串不会被索引,
更多使用说明参见:Index missing or empty values
INDEXMISSING对于所有字段类型,在 v2.10 中引入,
允许您搜索缺失值,即不包含特定字段的文档。
注意: 字段为空值与文档缺少值之间的区别。
默认情况下,缺失值不会被索,
更多使用说明参见:Index missing or empty values

FT.CREATE命令示例:

# 创建JSON索引
FT.CREATE itemIdx ON JSON PREFIX 1 item: 
SCHEMA $.name AS name TEXT $.description as description TEXT $.price AS price NUMERIC $.colors.* AS colors TAG $.location AS loc GEO

相关文章:

Redis Search系列 - 第一讲 创建索引

目录 一、引言二、全文检索基本概念三、创建索引 一、引言 Redis Search 是 Redis 的一个模块,用于提供全文搜索和二级索引功能。它允许在 Redis 数据库中执行复杂的搜索查询,并支持多种数据类型和查询操作。以下是 Redis Search 的一些关键特性&#x…...

bat 重置 Navicat 试用

bat 脚本文件 echo off set dnInfo set dn2ShellFolder set rpHKEY_CURRENT_USER\Software\Classes\CLSID :: reg delete HKEY_CURRENT_USER\Software\PremiumSoft\NavicatPremium\Registration14XCS /f %针对<strong><font color"#FF0000">navicat<…...

【真题笔记】09-12年系统架构设计师要点总结

【真题笔记】09-12年系统架构设计师要点总结 41 视图DSSA&#xff08;特定领域架构&#xff09;集成系统数据库管理设计模式操作符运算符综合布线备份数据库集成工作流技术软件质量保证需求管理需求开发结构化方法企业战略数据模型事务数据库主题数据库系统设计原型开发静态分析…...

Node + HTML搭建自己的ChatGPT [基础版]

文章目录 明明外面的ChatGPT产品那么多了&#xff0c;为什么要在本地搭建自己的ChatGPT呢&#xff1f;整体架构流程1. 获取APIKey1.1 常见的AI模型1.2 为什么选DeepSeek1.3 怎么获取DeepSeek的APIKey1.3.1 注册并登录DeepSeek开放平台1.3.2 选择API keys1.3.3 创建API key1.3.4…...

关于小程序审核需要提交订单列表页面path的修改办法

小程序又又又又又搞事情啦&#xff5e;&#xff5e;&#xff5e; 从12月31号起&#xff0c;所有有订单生成逻辑的小程序在审核过程中&#xff0c;必须要填写订单列表页面的path才可以进行审核 在代码层面上会有一些小的改动&#xff0c;下面就告诉大家怎么去修改吧。 第一步…...

使用 Nginx 在同一端口部署两个前端项目并配置子路径

在现代 Web 开发中&#xff0c;我们经常需要在同一台服务器上部署多个前端项目。这不仅可以节省资源&#xff0c;还可以简化管理。本文将指导你如何使用Nginx在同一端口上部署两个前端项目&#xff0c;并通过配置子路径来区分它们。 环境准备 首先&#xff0c;我们需要准备两…...

怎么选择独立站SEO效果好的wordpress模板

选择独立站SEO效果好的WordPress模板需要考虑多个因素&#xff0c;包括模板的代码质量、加载速度、SEO友好性以及与SEO插件的兼容性。以下是一些具体的建议&#xff1a; 1. 代码简洁&#xff1a;选择代码简洁的WordPress主题&#xff0c;因为干净的代码不仅使网站更加安全可靠…...

深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)

法律文件隐私过滤 网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别 github仓…...

【数据结构与算法】之队列详解

队列&#xff08;Queue&#xff09;是一种重要的线性数据结构&#xff0c;遵循先进先出、后进后出的原则。本文将更详细地介绍队列的概念、特点、Java 实现以及应用场景。 模运算小复习&#xff1a; a % b 的值总是小于b 5 % 4 1 5 % 2 1 1 % 5 1 4 % 5 4 1. 队列…...

python最新h5st4.9.1调用源码(2025-10-25)

废话不多说&#xff0c;直接上源码&#xff0c;需要技术支持的私。 一、调用js方法&#xff1a; # -*- coding: utf-8 -*- """ -------------------------------------------------Author: byc6352File: jdh5st.pyTime: 2024/10/25 08:03Technical Support:by…...

微软投资比特币:将总资产1%投资于BTC?股东投票决定最终结果!

随着比特币及其他加密货币在全球金融市场中的影响力不断增加&#xff0c;科技巨头微软&#xff08;Microsoft&#xff09;也开始考虑是否在其资产负债表上纳入比特币。根据近期提交给美国证券交易委员会&#xff08;SEC&#xff09;的文件&#xff0c;微软将在2024年12月10日举…...

vue中标签的ref和id的用法和区别优缺点

Vue 3 中 ref 和 id 的用法详解&#xff1a;区别、优缺点及使用场景 在 Vue 3 开发中&#xff0c;我们经常需要获取 DOM 元素或组件实例来进行交互。Vue 提供了 ref 和原生 HTML 属性 id 来实现这种操作。虽然 ref 和 id 都能标识并操作元素&#xff0c;但它们的使用方式、优缺…...

Python基础知识-文件篇

Python 的文件操作是指与文件进行交互的各种技术和方法&#xff0c;包括读取、写入、关闭文件等。以下是对 Python 文件操作的详细介绍&#xff1a; 打开文件 要进行文件操作&#xff0c;首先需要打开文件。Python 提供了内置的 open() 函数。 file open(example.txt, r) …...

MacOS 环境下 VSCode 的 C++ 环境搭建

MacOS 环境下 VSCode 的 C 环境搭建 编译器安装 编译器可以选择 Clang 或者 GCC&#xff0c;在 MacOS 上 Clang 的安装更为简单一些。 Clang(推荐) 打开终端输入命令&#xff0c; clang -v 查看是否已经安装。 如果已经安装&#xff0c;会输出类似于如下的信息&#xff1…...

WPF样式

WPF&#xff08;Windows Presentation Foundation&#xff09;是微软推出的一种用于构建Windows应用程序的UI框架。它提供了一套丰富的控件、图形和动画功能&#xff0c;允许开发者创建具有丰富视觉效果的现代用户界面。WPF中的样式&#xff08;Styles&#xff09;是一种强大的…...

Vue Router 如何配置 404 页面?

在 Vue 项目中&#xff0c;如果你想配置一个 404 页面&#xff08;即找不到页面提示&#xff09;&#xff0c;你需要通过 Vue Router 来设置。这通常通过将路由配置中的 *&#xff08;通配符&#xff09;指向一个 404 组件来实现。 // 定义路由部分 const routes [{path: /,c…...

【C++:智能指针】

什么是内存泄漏 内存泄漏是指因为疏忽或者错误造成程序对一部分不再使用的内存没有进行释放的情况&#xff0c;内存释放不是指内存在物理上的消失&#xff0c;而是应用程序分配某段内存时&#xff0c;因设计错误&#xff0c;失去了对该内存的控制&#xff0c;从而造成内存浪费 …...

onlyoffice docker启用jwt并生成jwt

一、说明 本文是docker教程&#xff0c;linux/win的安装版本也类似&#xff0c;只需要修改配置文件中的secrt就可以了【Configuring JWT for ONLYOFFICE Docs - ONLYOFFICE】 二、正文开始 docker启动时候如果不想使用jwt&#xff0c;加上参数-e JWT_ENABLEDfalse就可以了&…...

希尔贝壳受邀参加首届“数据标注产业大会暨供需对接会”

为推动数据标注产业高质量发展&#xff0c;促进数据标注基地快速形成面向产业的规模化服务能力。10月22日&#xff0c;由国家数据局数字科技和基础设施建设司指导的首届“数据标注产业大会暨供需对接会”在北京召开&#xff0c;希尔贝壳受邀参加。 大会旨在进一步推动数据标注…...

35.第二阶段x86游戏实战2-C++遍历技能

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 本次游戏没法给 内容参考于&#xff1a;微尘网络安全 本人写的内容纯属胡编乱造&#xff0c;全都是合成造假&#xff0c;仅仅只是为了娱乐&#xff0c;请不要…...

Jenkins发布vue项目,版本不一致导致build错误

问题一 yarn.lock文件的存在导致在自动化的时候&#xff0c;频频失败问题二 仓库下载的资源与项目资源版本不一致 本地跑好久的一个项目&#xff0c;现在需要部署在Jenkins上面进行自动化打包部署&#xff1b;想着部署后今后可以省下好多时间&#xff0c;遂兴高采烈地去部署&am…...

vue3使用webSocket

1.安装插件 npm i vueuse/core10.11.12.引入使用 import { useWebSocket } from "vueuse/core"const { send, open, close: wsClose, status } useWebSocket(ws://192.168.100.90:53021/inms-application/alarm, {onMessage: (ws, { data }) > {console.log(&q…...

957种卫星参数文档的分享下载

自1957年10月4日苏联发射第一颗人造卫星Sputnik-1至今已经有67年&#xff0c;如今卫星已经在气象、遥感和通讯等领域为我们提供服务。 现在为你分享957种卫星参数&#xff0c;需要Excel文档请在文未查看领取下载方式。 卫星介绍 卫星是由人类制造并发射到太空&#xff0c;围…...

负载均衡详解:背景、实现技术、作用范围与常用算法

负载均衡&#xff08;Load Balancing&#xff09;是一种通过将请求分配到多个服务器上&#xff0c;从而优化资源使用、提高响应速度并增强系统可靠性的一种技术手段。它是现代分布式系统和互联网应用中不可或缺的一部分。在本篇文章中&#xff0c;我们将深入探讨负载均衡的方方…...

CCAA:产品认证基础3(产品认证方案)

学习要点 *产品认证方案和认证制度 *产品认证方案的基本要素、功能和活动 *产品认证方案的类型 *产品认证方案的制订和实施 *质量管理体系在产品认证方案中的应用 *典型产品认证方案的应用 第一节 产品认证方案和产品认证制度 一、概念 认证制度是指实施认证的规则、程序和…...

go语言中的Scan()和Scanln()输入函数

Scan()输入函数 package mainimport "fmt"func main() {var a intvar b stringfor {fmt.Println("请输入一个整数和一个字符串&#xff08;用空格分隔&#xff09;&#xff1a;")fmt.Scan(&a, &b) // 直接读取输入到变量中fmt.Println("整数…...

UML外卖系统报告(包含具体需求分析)

1 系统背景 随着互联网技术的快速发展&#xff0c;外卖订餐服务逐渐成为人们生活中的一部分。传统的电话订餐方式面临诸多不便和限制&#xff0c;而基于互联网的外卖订餐系统则提供了更加便捷、快速和高效的订餐服务。这种系统通过将餐厅、顾客和配送人员连接起来&#xff0c;…...

net Core Data Protection 数据保护 加密 编码 哈希 FromServices

》》》 通过构造函数 获取服务 [Route("api/[controller]")][ApiController]public class DataProtectController : ControllerBase{[HttpGet]public string Info(){return "zen";}// [FromServices] 自动获取 builder.Services.AddDataProtection()注…...

4K手机壁纸之动漫系列

因为平台限制了图片大小&#xff0c;大家将就看吧&#xff0c;原图找me...

关于eclipse的workspace

如果项目很多&#xff0c;为了方便管理&#xff0c;最好不要是使用working set 对项目进行分组。一个workspace加载项目过多&#xff0c;即使进行分组&#xff0c;有些操作也很对所有项目生效。为了避免卡顿&#xff0c;建议直接使用workspace分组管理&#xff0c;而不是workin…...

学校开发网站公司/百度搜索开放平台

每个人都会有缺点和不足&#xff0c;作为管理者&#xff0c;如果总想改造属下员工&#xff0c;这是一种不切实际的做法&#xff0c;因为每个人都是一个有思想的个体&#xff0c;只能由内而外的改变。每个人都有其用武之地&#xff0c;项目经理与其费尽心力改造员工&#xff0c;…...

在大学做网站赚钱吗/国内最新新闻摘抄

&#xff08;Numpy中ndarray和array的区别是什么&#xff1f;我在哪儿能够找到numpy中相应的实现&#xff1f;&#xff09; 答&#xff1a;Well, np.array is just a convenience function to create an ndarray, it is not a class itself. &#xff08;嗯&#xff0c;np.arra…...

小说网站模板建站/网址之家

作者: Alastair Townsend (经过作者亲自授权) 英文网址: http://www.alatown.com/spline-history-architecture 中文整理: 马海东 ,并提供了一个deboor曲线算法的grasshopper插件(见文末的下载链接) 一些建筑师将采用自由曲面设计和计算机辅助制造技术称为前沿&#xff0c;甚…...

经典的jq查询网站/站长之家是什么

var dataList []; $scope.page {  page:1,   pageSize:15,   numPerPageOpt:[15,30,50,100],   totalNum:0,   totalPage:0 }; $scope.pageChange function(pageNum){   if(!pageNum){     pageNum $scope.page.page;   }   var from (pageNum-1)*$sc…...

做网站要学些什么/宣传方式有哪些

今天需要将测试系统迁移到生产系统&#xff0c;于是在生产库中创建相应用户基表空间后&#xff0c;将测试系统的数据通过exp/imp(数据量不大)迁移到生产库上。通过windows下自带的ftp服务器上传到unix服务器上后&#xff0c;通过imp showy查看导入的内容以降低出错的概率&#…...

狠狠做新网站/太原seo网络优化招聘网

【链接】 我是链接,点我呀:) 【题意】 在这里输入题意 【题解】 我们考虑每个字符串中出现最多的字母出现的次数cnt[3] 对于这3个cnt的值。 如果cntn<s[i].size 那么显然最多能出现cntn次这个字母 但是如果cntn>s[i].size() 那就有问题了。 因为每次变换的字母不能和原…...