当前位置：首页 > news >正文

Redis Search系列 - 第一讲创建索引

news 2026/3/23 16:20:27

一、引言

Redis Search 是 Redis 的一个模块，用于提供全文搜索和二级索引功能。它允许在 Redis 数据库中执行复杂的搜索查询，并支持多种数据类型和查询操作。以下是 Redis Search 的一些关键特性：

全文搜索：支持对文本字段进行全文搜索，包括分词、词干提取和高亮显示等功能。
多字段索引：可以对多个字段进行索引，包括文本、数值、地理位置等。
排序和分页：支持对搜索结果进行排序和分页，方便处理大数据量的查询结果。
聚合查询：支持对数据进行聚合操作，如分组、计数、求和等。
高性能：利用 Redis 的内存存储特性，提供高性能的搜索和索引功能。

二、全文检索基本概念

在全文检索（full-text search）中，以下术语是关键概念：

Index：索引是一个数据结构，用于快速查找包含特定词的文档。它通常是一个倒排索引（inverted index），其中存储了每个词及其在文档中的位置。
Document：文档是索引中的基本单位。它可以是任何形式的文本数据，如网页、文章、电子邮件等。在索引中，每个文档都有一个唯一的标识符。
Field：字段是文档中的一个部分或属性。例如，一个文档可能有标题字段、正文字段、作者字段等。字段可以单独索引和搜索。
Token：词元是从文本中提取的最小单位，通常是单词或词组。词元化（tokenization）是将文本分割成词元的过程。
Term：术语是索引中的一个条目，表示一个唯一的词元。术语是词元的规范化形式，通常经过词干提取（stemming，比如复数变单数、动词过去式变回原形）和小写转换。
Stop Word：停用词是指在索引和搜索过程中被忽略的常见词，如 “the”、“is”、“and” 等。停用词通常对搜索结果的相关性没有显著影响，因此被过滤掉以减少索引大小和提高搜索效率。

三、创建索引

创建索引后，Redis Stack会自动索引存储在数据库中的任何现有的、修改的或新创建的JSON文档。

对于现有文档，索引在后台异步运行，因此文档可用可能需要一段时间。
修改已有的文档和新创建的文档是同步索引的，因此在添加或修改命令完成时，文档将可用。

创建索引FT.CREATE命令语法：

FT.CREATE index [ON HASH | JSON] [PREFIX count prefix [prefix ...]] [FILTER {filter}][LANGUAGE default_lang] [LANGUAGE_FIELD lang_attribute] [SCORE default_score] [SCORE_FIELD score_attribute] [PAYLOAD_FIELD payload_attribute] [MAXTEXTFIELDS] [TEMPORARY seconds] [NOOFFSETS] [NOHL] [NOFIELDS] [NOFREQS] [STOPWORDS count [stopword ...]] [SKIPINITIALSCAN]SCHEMA field_name [AS alias] TEXT | TAG | NUMERIC | GEO | VECTOR | GEOSHAPE [ SORTABLE [UNF]] [NOINDEX] [ field_name [AS alias] TEXT | TAG | NUMERIC | GEO | VECTOR | GEOSHAPE [ SORTABLE [UNF]] [NOINDEX] ...]

FT.CREATE命令参数说明：

索引参数	说明
index	要创建的索引名称。如果该索引已存在，则返回错误回复（错误）“Index already exists”。
SCHEMA	在 SCHEMA关键字之后，声明要索引的字段： field_name [AS alias] field_name：对于HASH则哈希中的字段名称，对于 JSON则为JSON Path表达式 alias：定义field的别名，可使用此功能将复杂的 JSONPath 表达式与更易记住（且更易输入）的名称关联
ON {data_type}	HASH (默认) 或JSON，即支持索引的Redis数据类型，若值为JSON则需要安装 RedisJSON模块
PREFIX {count} {prefix}	需要被索引的key前缀，支持设置多个前缀，支持通配符``，默认``（表示全部）
FILTER {filter}	filter过滤表达式，如使用`@__key`表示新增或修改（just added/changed）的key， `TODO` A field can be used to set field name by passing ‘FILTER @indexName==“myindexname”’.
LANGUAGE {default_lang}	文档索引的默认语言，默认值为：english，可选值：[arabic, armenian, danish, dutch, `english`, finnish, french, german, hungarian, italian, norwegian, portuguese, romanian, russian, serbian, spanish, swedish, tamil, turkish, yiddish, `chinese`]
LANGUAGE_FIELD {lang_attribute}	设置文档中的某个field表示具体的LANGUAGE
SCORE {default_score}	文档的默认分值score，默认值：1.0
SCORE_FIELD {score_attribute}	设置文档中的某个field表示具体的SCORE，此field的值范围为：[0.0, 1.0]，如不设置默认为1
PAYLOAD_FIELD {payload_attribute}	设置文档的某个属性用于存储文档的二进制安全负载字符串，可在查询时由自定义评分函数或重新返回给客户端。`TODO` is document attribute that you use as a binary safe payload string to the document that can be evaluated at query time by a custom scoring function or retrieved to the client.
MAXTEXTFIELDS	强制Redis Search索引编码超过32个文本属性，这允许您使用FT.ALTER添加其他属性(超过32个)。为了提高效率，如果索引的文本属性少于32个，Redi Search会对索引进行不同的编码
NOOFFSETS	不存储文档的term偏移量，可以节省内存，但不允许精确搜索或高亮显示，使用此选项则意味着NOHL
TEMPORARY {seconds}	临时索引，设置超过n秒 - 未被搜索或新增 - 即删除该索引及其关联的数据注：普通索引删除（FT.DROPINDEX）时并不删除数据，需使用DD标志才可级联删除
NOHL	不支持高亮highlighting，可以节约存储和内存，使用此选项则意味着NOOFFSETS
NOFIELDS	不存储每个term的属性位，可以节省内存，但不允许按特定属性进行过滤
NOFREQS	避免在索引中保存term频率，可以节省内存，但不允许基于文档中给定term的频率进行排序
STOPWORDS {count}	使用自定义`停词（stop word）`列表设置索引，在索引和搜索时忽略这些词。 {count} 是停用词的数量，后面是长度正好为 {count} 的停词参数列表。如果未设置，FT.CREATE 将使用默认的停词列表。如果 {count} 设置为 0，则索引没有停用词。
SKIPINITIALSCAN	创建索引时忽略扫描及索引已有数据

注意事项

属性数量限制：RediSearch 支持每个模式最多 1024 个属性，其中最多 128 个可以是 TEXT 属性。在 32 位构建中，最多 64 个属性可以是 TEXT 属性。属性越多，索引越大，因为每增加 8 个属性，每个索引记录需要额外一个字节进行编码。如果不需要按文本属性进行过滤，可以始终使用 NOFIELDS 选项，不将属性信息编码到索引中，以节省空间。这仍然允许按数值和地理属性进行过滤。
在集群数据库中运行：在集群数据库中有多个索引时，需要确保要索引的文档与索引位于同一分片上。可以通过按索引名称标记文档来实现这一点，例如：
HSET doc:1{idx}
FT.CREATE idx … PREFIX 1 doc: …

当在集群数据库中运行Redi搜索时，您可以使用RSCoordinator跨分片跨索引。在这种情况下，上述规定不适用。

在SCHEMA中field支持的类型：

Field类型	说明
TEXT	允许全文（full-text）检索（会被分词、倒排索引）
TAG	由逗号分隔的多标签文本，允许精准匹配（exact-match），如分类、主键、标签等的精确匹配
NUMERIC	数字范围检索
GEO	地址位置（Point），格式：经度,纬度，允许圆周范围检索
VECTOR	向量（多值数组）相似度检索，需要dialect 2及以上(introduced in RediSearch v2.4) ，关于VECTOR的详细说明可参见：Vectors
GEOSHAPE	允许多边形（polygon）检索，需使用WKT格式：POLYGON((x1 y1, x2 y2, …) ，支持的坐标系：球面（默认） - SPHERICAL for Geographic longitude and latitude coordinates 平面 - FLAT for Cartesian X Y coordinates

在SCHEMA中field支持的参数说明：

参数	说明
SORTABLE	NUMERIC、TAG、TEXT 或 GEO 属性可以有一个可选的 SORTABLE 参数。当用户按此属性的值排序结果时，结果可用的延迟非常低。请注意，这会增加内存开销，因此请考虑不要在大型文本属性上声明它。可以在没有 SORTABLE 选项的情况下对属性进行排序，但延迟不如使用 SORTABLE 时好。
UNF	默认情况下，对于哈希（不适用于 JSON），SORTABLE 会对索引值进行`规范化（字符设置为小写，去除变音符号）`。使用未规范化形式（UNF）时，可以禁用规范化并保留值的原始形式。对于 JSON，UNF 在 SORTABLE 时是隐式的（禁用规范化）。
NOSTEM	索引值时禁用`词干提取（stemming）`。这对于诸如专有名称之类的内容可能是理想的。
NOINDEX	设置属性不被索引，修改NOINDEX属性不会导致文档的完全重新索引。有NOINDEX 且没有 SORTABLE，则属性将被索引忽略。
PHONETIC {matcher}	将文本属性声明为 PHONETIC 将在搜索中默认执行语音匹配。强制性的 {matcher} 参数指定使用的语音算法和语言。支持以下匹配器： dm:en - 英语的双重音码 dm:fr - 法语的双重音码 dm:pt - 葡萄牙语的双重音码 dm:es - 西班牙语的双重音码有关更多信息，请参见：Phonetic matching
WEIGHT {weight}	适用于 TEXT 属性，声明在计算结果准确性时此属性的重要性。这是一个乘数因子，如果未指定，则默认为 1。
SEPARATOR {sep}	适用于 TAG 属性，指示属性中包含的文本如何拆分为单个标签。默认值为`,`且参数值必须是单个字符。
CASESENSITIVE	适用于TAG 属性，保留标签的原始字母大小写。如果未指定，则字符将转换为小写。
WITHSUFFIXTRIE	对于 TEXT 和 TAG 属性，保留一个包含所有匹配后缀的术语的后缀字典树。它用于优化包含（foo）和后缀（*foo）查询。否则，将对字典树进行暴力搜索。如果某些字段存在后缀字典树，则检索时会忽略其他字段
INDEXEMPTY	对于 TEXT 和 TAG 属性，在 v2.10 中引入，允许您索引和搜索`空字符串`。默认情况下，空字符串不会被索引，更多使用说明参见：Index missing or empty values
INDEXMISSING	对于所有字段类型，在 v2.10 中引入，允许您搜索`缺失值`，即不包含特定字段的文档。注意：字段为空值与文档缺少值之间的区别。默认情况下，缺失值不会被索，更多使用说明参见：Index missing or empty values

FT.CREATE命令示例：

# 创建JSON索引
FT.CREATE itemIdx ON JSON PREFIX 1 item: 
SCHEMA $.name AS name TEXT $.description as description TEXT $.price AS price NUMERIC $.colors.* AS colors TAG $.location AS loc GEO

Redis Search系列 - 第一讲创建索引

目录一、引言二、全文检索基本概念三、创建索引一、引言 Redis Search 是 Redis 的一个模块，用于提供全文搜索和二级索引功能。它允许在 Redis 数据库中执行复杂的搜索查询，并支持多种数据类型和查询操作。以下是 Redis Search 的一些关键特性&#x…...

编程日记 2024/10/25 21:08:39

bat 脚本文件 echo off set dnInfo set dn2ShellFolder set rpHKEY_CURRENT_USER\Software\Classes\CLSID :: reg delete HKEY_CURRENT_USER\Software\PremiumSoft\NavicatPremium\Registration14XCS /f %针对<strong><font color"#FF0000">navicat<…...

编程日记 2024/10/25 21:07:38

【真题笔记】09-12年系统架构设计师要点总结

【真题笔记】09-12年系统架构设计师要点总结 41 视图DSSA（特定领域架构）集成系统数据库管理设计模式操作符运算符综合布线备份数据库集成工作流技术软件质量保证需求管理需求开发结构化方法企业战略数据模型事务数据库主题数据库系统设计原型开发静态分析…...

编程日记 2024/10/25 21:03:34

Node + HTML搭建自己的ChatGPT [基础版]

文章目录明明外面的ChatGPT产品那么多了，为什么要在本地搭建自己的ChatGPT呢？整体架构流程1. 获取APIKey1.1 常见的AI模型1.2 为什么选DeepSeek1.3 怎么获取DeepSeek的APIKey1.3.1 注册并登录DeepSeek开放平台1.3.2 选择API keys1.3.3 创建API key1.3.4…...

编程日记 2024/10/25 20:59:30

关于小程序审核需要提交订单列表页面path的修改办法

小程序又又又又又搞事情啦～～～ 从12月31号起，所有有订单生成逻辑的小程序在审核过程中，必须要填写订单列表页面的path才可以进行审核在代码层面上会有一些小的改动，下面就告诉大家怎么去修改吧。第一步…...

编程日记 2024/10/25 20:57:28

使用 Nginx 在同一端口部署两个前端项目并配置子路径

在现代 Web 开发中，我们经常需要在同一台服务器上部署多个前端项目。这不仅可以节省资源，还可以简化管理。本文将指导你如何使用Nginx在同一端口上部署两个前端项目，并通过配置子路径来区分它们。环境准备首先，我们需要准备两…...

编程日记 2024/10/25 20:56:27

怎么选择独立站SEO效果好的wordpress模板

选择独立站SEO效果好的WordPress模板需要考虑多个因素，包括模板的代码质量、加载速度、SEO友好性以及与SEO插件的兼容性。以下是一些具体的建议： 1. 代码简洁：选择代码简洁的WordPress主题，因为干净的代码不仅使网站更加安全可靠…...

编程日记 2024/10/25 20:53:24

深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)

法律文件隐私过滤网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别 github仓…...

编程日记 2024/10/25 20:52:23

【数据结构与算法】之队列详解

队列（Queue）是一种重要的线性数据结构，遵循先进先出、后进后出的原则。本文将更详细地介绍队列的概念、特点、Java 实现以及应用场景。模运算小复习： a % b 的值总是小于b 5 % 4 1 5 % 2 1 1 % 5 1 4 % 5 4 1. 队列…...

编程日记 2024/10/25 20:51:22

python最新h5st4.9.1调用源码(2025-10-25)

废话不多说，直接上源码，需要技术支持的私。一、调用js方法： # -*- coding: utf-8 -*- """ -------------------------------------------------Author: byc6352File: jdh5st.pyTime: 2024/10/25 08:03Technical Support:by…...

编程日记 2024/10/25 20:49:20

微软投资比特币：将总资产1%投资于BTC？股东投票决定最终结果！

随着比特币及其他加密货币在全球金融市场中的影响力不断增加，科技巨头微软（Microsoft）也开始考虑是否在其资产负债表上纳入比特币。根据近期提交给美国证券交易委员会（SEC）的文件，微软将在2024年12月10日举…...

编程日记 2024/10/25 20:47:18

vue中标签的ref和id的用法和区别优缺点

Vue 3 中 ref 和 id 的用法详解：区别、优缺点及使用场景在 Vue 3 开发中，我们经常需要获取 DOM 元素或组件实例来进行交互。Vue 提供了 ref 和原生 HTML 属性 id 来实现这种操作。虽然 ref 和 id 都能标识并操作元素，但它们的使用方式、优缺…...

编程日记 2024/10/25 20:46:17

Python基础知识-文件篇

Python 的文件操作是指与文件进行交互的各种技术和方法，包括读取、写入、关闭文件等。以下是对 Python 文件操作的详细介绍： 打开文件要进行文件操作，首先需要打开文件。Python 提供了内置的 open() 函数。 file open(example.txt, r) …...

编程日记 2024/10/25 20:45:16

MacOS 环境下 VSCode 的 C++ 环境搭建

MacOS 环境下 VSCode 的 C 环境搭建编译器安装编译器可以选择 Clang 或者 GCC，在 MacOS 上 Clang 的安装更为简单一些。 Clang(推荐) 打开终端输入命令， clang -v 查看是否已经安装。如果已经安装，会输出类似于如下的信息&#xff1…...

编程日记 2024/10/25 20:44:15

WPF样式

WPF（Windows Presentation Foundation）是微软推出的一种用于构建Windows应用程序的UI框架。它提供了一套丰富的控件、图形和动画功能，允许开发者创建具有丰富视觉效果的现代用户界面。WPF中的样式（Styles）是一种强大的…...

编程日记 2024/10/25 20:39:05

Vue Router 如何配置 404 页面？

在 Vue 项目中，如果你想配置一个 404 页面（即找不到页面提示），你需要通过 Vue Router 来设置。这通常通过将路由配置中的 *（通配符）指向一个 404 组件来实现。 // 定义路由部分 const routes [{path: /,c…...

编程日记 2024/10/25 20:36:01

【C++:智能指针】

什么是内存泄漏内存泄漏是指因为疏忽或者错误造成程序对一部分不再使用的内存没有进行释放的情况，内存释放不是指内存在物理上的消失，而是应用程序分配某段内存时，因设计错误，失去了对该内存的控制，从而造成内存浪费 …...

编程日记 2024/10/25 20:33:59

onlyoffice docker启用jwt并生成jwt

一、说明本文是docker教程，linux/win的安装版本也类似，只需要修改配置文件中的secrt就可以了【Configuring JWT for ONLYOFFICE Docs - ONLYOFFICE】二、正文开始 docker启动时候如果不想使用jwt，加上参数-e JWT_ENABLEDfalse就可以了&…...

编程日记 2024/10/25 20:31:57

希尔贝壳受邀参加首届“数据标注产业大会暨供需对接会”

为推动数据标注产业高质量发展，促进数据标注基地快速形成面向产业的规模化服务能力。10月22日，由国家数据局数字科技和基础设施建设司指导的首届“数据标注产业大会暨供需对接会”在北京召开，希尔贝壳受邀参加。大会旨在进一步推动数据标注…...

编程日记 2024/10/25 20:30:56

35.第二阶段x86游戏实战2-C++遍历技能

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 本次游戏没法给内容参考于：微尘网络安全本人写的内容纯属胡编乱造，全都是合成造假，仅仅只是为了娱乐，请不要…...

编程日记 2024/10/25 20:28:54

保姆级教程：JCG Q30 Pro免拆刷OpenWrt 24.10（附常见问题排查）

JCG Q30 Pro免拆刷OpenWrt 24.10全流程指南与深度优化为什么选择OpenWrt与JCG Q30 Pro的完美组合在智能家居和网络设备高度发达的今天，路由器早已不再是简单的网络连接设备。对于技术爱好者而言，一台能够自由定制、性能强劲的路由器，就像…...

编程新知 2026/3/23 15:18:23

PHP-Resque部署指南：生产环境配置与监控方案

PHP-Resque部署指南：生产环境配置与监控方案【免费下载链接】php-resque PHP port of resque (Workers and Queueing) 项目地址: https://gitcode.com/gh_mirrors/ph/php-resque PHP-Resque是一个功能强大的PHP任务队列系统，允许开发者将耗时任务…...

编程新知 2026/3/23 15:14:21

Fluent Bit协程模型深度解析：轻量级线程如何实现10倍并发性能提升

Fluent Bit协程模型深度解析：轻量级线程如何实现10倍并发性能提升【免费下载链接】fluent-bit Fast and Lightweight Logs and Metrics processor for Linux, BSD, OSX and Windows 项目地址: https://gitcode.com/GitHub_Trending/fl/fluent-bit Fluent Bi…...

编程新知 2026/3/23 14:32:14

Foliate无障碍功能终极指南：让每个人都能享受阅读的乐趣

Foliate无障碍功能终极指南：让每个人都能享受阅读的乐趣【免费下载链接】foliate Read e-books in style 项目地址: https://gitcode.com/gh_mirrors/fo/foliate Foliate是一款专为Linux系统设计的现代化电子书阅读器，它通过强大的无障碍功能让视…...

编程新知 2026/3/23 14:24:13

v8go调试与内存管理终极指南：解决常见问题与内存泄漏检测

v8go调试与内存管理终极指南：解决常见问题与内存泄漏检测【免费下载链接】v8go Execute JavaScript from Go 项目地址: https://gitcode.com/gh_mirrors/v8g/v8go v8go是一个强大的Go语言绑定库，允许开发者在Go应用程序中执行JavaScript代码。作…...

编程新知 2026/3/23 14:14:05