Elasticsearch 全文查询详解
全文查询(Full-Text Query)是 Elasticsearch 中的核心功能之一,用于对非结构化文本数据进行高效检索。与结构化查询不同,全文查询不仅仅是简单的精确匹配,还包括对文本进行分析和处理,从而实现更复杂的搜索功能。本文将介绍三种常用的全文查询:Match Query、Match Phrase Query 和 Query String Query,并讨论它们的应用场景及用法。
一、Match Query:标准的全文查询
Match Query 是 Elasticsearch 中最常用的全文查询之一。它的作用是对指定字段中的文本进行分词和分析,然后根据分析结果进行搜索。Match Query 支持模糊搜索、多字段搜索和布尔逻辑等功能,非常适合搜索非结构化文本数据。
使用场景
- 搜索博客文章、新闻、产品描述等长文本内容。
- 需要对搜索词进行分词处理,并匹配不同形式的相关内容。
工作原理
当你使用 Match Query 进行搜索时,Elasticsearch 会首先将查询词和文档中的文本内容都进行分词和归一化处理(例如转换为小写、去掉停用词等)。然后,它会在分析后的词汇中进行匹配,并根据匹配度返回结果。
示例
假设我们有一个包含博客文章的索引,现在我们想搜索包含 “Elasticsearch tutorial” 的文章:
{"query": {"match": {"content": "Elasticsearch tutorial"}}
}
在这个查询中,Elasticsearch 会将 “Elasticsearch tutorial” 分解为 “Elasticsearch” 和 “tutorial”,然后查找这些词在 content
字段中的出现情况,并按相关性返回匹配的文档。
二、Match Phrase Query:精确短语查询
Match Phrase Query 是 Elasticsearch 中用于搜索精确短语的查询方式。与 Match Query 不同,Match Phrase Query 不仅要求所有词都匹配,还要求它们以指定的顺序和间隔出现在文档中。它适用于需要查找特定词组或句子时的场景。
使用场景
- 查找特定短语或句子,例如法律文本中的固定表达、产品名称或技术术语。
- 搜索需要精确匹配词序和词间关系的内容。
工作原理
Match Phrase Query 首先对查询文本进行分词,然后检查分词后的词是否以指定的顺序和位置出现在文档的字段中。如果所有词都按指定顺序出现在文档中,则认为该文档匹配。
示例
假设我们需要搜索一个包含短语 “quick brown fox” 的文档,要求这些词必须按顺序紧密相连:
{"query": {"match_phrase": {"content": "quick brown fox"}}
}
在这个查询中,Elasticsearch 会查找 content
字段中是否存在按顺序出现的 “quick brown fox” 短语。如果这些词是以其他顺序或中间有其他词隔开,则不会匹配。
近似短语查询
Match Phrase Query 还支持设置词之间的距离,以允许某些灵活性。例如,我们可以允许两个词之间最多有一个其他词:
{"query": {"match_phrase": {"content": {"query": "quick brown fox","slop": 1}}}
}
slop
参数表示允许的词之间的最大距离,值越大,匹配的范围越宽松。
三、Query String Query:使用搜索语法的查询
Query String Query 提供了一个更加灵活和强大的查询方式。它允许用户直接使用 Lucene 查询语法在字符串中指定复杂的查询条件,包括布尔逻辑、通配符、范围查询等。Query String Query 非常适合对搜索语法熟悉的用户,或者需要构建复杂查询的场景。
使用场景
- 需要在同一字段或多个字段中进行复杂的条件查询。
- 允许用户输入包含逻辑运算符、通配符等的查询表达式。
工作原理
Query String Query 直接将用户输入的查询字符串解析为 Lucene 查询表达式,然后在索引中执行该查询。它支持多种高级功能,如布尔操作符(AND、OR、NOT)、通配符(* 和 ?)、范围查询([ TO ])、以及字段的权重控制等。
示例
假设我们想查找同时包含 “Elasticsearch” 和 “tutorial” 的文档,并且这些词必须出现在 title
字段中,而不是 content
字段中:
{"query": {"query_string": {"query": "title:(Elasticsearch AND tutorial)"}}
}
在这个例子中,title:(Elasticsearch AND tutorial)
表示只在 title
字段中搜索,同时包含 “Elasticsearch” 和 “tutorial” 的文档。
更复杂的查询
Query String Query 可以结合多个条件,构建更复杂的查询表达式。例如,查找包含 “Elasticsearch” 或 “tutorial” 的文档,并且排除包含 “basic” 的文档:
{"query": {"query_string": {"query": "(Elasticsearch OR tutorial) AND NOT basic"}}
}
这种查询表达式使得 Query String Query 在复杂检索需求中表现出色。
四、综合实例:全文搜索的实际应用
在实际应用中,全文查询通常与布尔查询、过滤条件等结合使用,以构建复杂的搜索功能。下面是一个实际的使用案例,展示如何结合 Match Query 和 Match Phrase Query 构建一个强大的搜索功能。
示例
假设我们有一个电商网站,用户可以通过搜索框输入商品描述来查找产品。我们希望搜索结果能够:
- 首先匹配用户输入的精确短语。
- 然后匹配所有包含用户输入的产品。
{"query": {"bool": {"should": [{"match_phrase": {"description": "wireless headphones"}},{"match": {"description": "wireless headphones"}}]}}
}
在这个查询中,bool
查询中的 should
子句允许匹配多个条件。首先,系统会优先返回包含精确短语 “wireless headphones” 的产品,然后返回包含这两个词的所有产品。
五、总结
Elasticsearch 的全文查询功能非常强大,提供了多种方式来处理和分析文本数据。Match Query 适合大多数非结构化文本搜索,Match Phrase Query 则用于需要精确短语匹配的场景,而 Query String Query 则为高级用户提供了灵活的查询语法,能够应对复杂的检索需求。
通过深入了解和掌握这些查询方式,你可以更高效地利用 Elasticsearch 的搜索能力,构建更加智能和精准的全文搜索功能,从而提升应用的用户体验和数据处理效率。
相关文章:
Elasticsearch 全文查询详解
全文查询(Full-Text Query)是 Elasticsearch 中的核心功能之一,用于对非结构化文本数据进行高效检索。与结构化查询不同,全文查询不仅仅是简单的精确匹配,还包括对文本进行分析和处理,从而实现更复杂的搜索…...
20240810在荣品RK3588S-AHD开发板的预置Android13下挂载exFAT的256GB的TF卡
df -h mount fdisk无效 20240810在荣品RK3588S-AHD开发板的预置Android13下挂载exFAT的256GB的TF卡 2024/8/10 21:19 缘起:当时比较便宜96.9¥/想看看256GB的TF卡的高速卡的效果,就在京东入手了3张三星的高速TF卡。最近在弄RK3588S,…...
java基础进阶——log日志、类加载器、XML、单元测试、注解、枚举类
前言 这篇内容主要掌握的就是logback使用、理解类加载器、XML文件的编写,XML文档约束schema,用Dom4j解析XML文档,Xpath检索XML文档,完整使用Junit单元测试框架常用部分,注解的定义和使用,枚举类的定义和开发…...
《向量数据库指南》——控制Chatbot对话内容:Dopple AI的创新实践与用户体验优化
控制Chatbot对话内容:Dopple AI的创新实践与用户体验优化 在Chatbot技术日益成熟的今天,如何有效地控制对话内容,以满足用户多样化的需求,成为了开发者们关注的焦点。Dopple AI,作为一款先进的聊天机器人平台,通过其独特的交互设计和后端技术支持,为用户提供了前所未有…...
构建实时数据仓库:流式处理与实时计算技术解析
目录 一、流式处理 请求与响应 批处理 二、实时计算 三、Lambda架构 Lambda架构的缺点 四、Kappa架构 五、实时数据仓库解决方案 近年来随着业务领域的不断拓展,尤其像互联网、无线终端APP等行业应用的激增,产生的数据量呈指数级增长,对海量数…...
python算术表达式遗传算法
import random import operator import math# 定义可能的运算符和操作 ops {: ,-: -,*: *,/: /,sin: math.sin,cos: math.cos }# 随机生成一个表达式(个体) def generate_expression(depth0):if depth > 2: # 限制表达式的最大深度return str(rando…...
net.sf.jsqlparser.statement.select.SelectItem
今天一启动项目,出现了这个错误,仔细想了想,应该是昨天合并代码,导致的mybatis-plus版本冲突,以及分页PageHelper版本不兼容 可以看见这个我是最下边的 Caused by 报错信息,这个地方提示我 net .s…...
lua匹配MAC地址 正则表达式
LUA的正则表达式匹配很弱智,能不用lua就不要用lua。 %x表示十六进制数值 (%x%x):(%x%x):(%x%x):(%x%x):(%x%x):(%x%x)它不允许这样用: ((%x%x):){5}(%x%x)mac这还算好办,ipv4就难了,ipv6不可能,这样写下来那一串表达…...
Chainlit快速实现AI对话应用并将聊天数据的AWS S3 和 Azure Blob云服务中
自定义数据层 Literal AI 提供了最简单的方法来保存、分析和监控您的数据。 如果您正在考虑实现自定义数据层,请查看此处的示例以获取一些启发。 此外,我们非常希望看到社区主导的开源数据层实现并将其列在这里。如果您有兴趣做出贡献,请通过 Discord 与我们联系。 您需…...
浅谈性能优化(基于C++)
本文主要针对C的性能优化方法展开讨论。虽然这些方法也适用于一些其他语言,但由于C经常用于底层操作,提供了更多的优化空间;相比之下,诸如Python、Kotlin等高级语言由于其抽象程度更高,优化空间较少。 性能优化原理 …...
Python 报错:ModuleNotFoundError: No module named ‘Crypto‘
Crypto报错解决方案 Python 报错:ModuleNotFoundError: No module named Crypto前言问题解决方案 Python 报错:ModuleNotFoundError: No module named ‘Crypto’ 前言 Crypto是一个加密模块,它包含了多种加密算法,如 AES、DES、…...
UE(User Equipment) 和 UA(User Agent)
UE(User Equipment) UE 是 用户设备,这是一个泛指的术语,涵盖了所有类型的终端设备,例如手机、电脑、平板、智能手表等。这些设备可以连接到网络并进行通信。UE可以包含多种功能,包括对话(语音…...
视觉SLAM ch3补充——在Linux中配置VScode以及CMakeLists如何添加Eigen库
ch3中的所有代码,除了在kdevelop中运行,还可以在VScode中运行。下面将简要演示配置过程,代码不再做解答,详细内容在下面的文章中。(这一节中的pangolin由于安装过程中会出现很多问题,且后续内容用不到该平台…...
开关电源:优化电子产品中的能源使用
电压转换器是许多技术系统的支柱。根据应用的不同,所需的电源单元由变压器、整流器 AC/DC 转换器实现。当高性能开关电源尚未上市时,几乎只使用 50 Hz 变压器解决方案。 电源注意事项 电能几乎完全以三相电流的形式提供,系统电压为 10 ...3…...
Java语言程序设计——篇十三(2)
🌿🌿🌿跟随博主脚步,从这里开始→博主主页🌿🌿🌿 欢迎大家:这里是我的学习笔记、总结知识的地方,喜欢的话请三连,有问题可以私信🌳🌳&…...
python结合csv和正则实现条件筛选数据统计分数
前景提要: 有一个项目的数值和员工统计的对不上,如果一页一页翻找自己手动算,一个就有16、7页, 功能实现 1、创建csv文件 需要将每一个模块的所有数据头提取出来,这个可以直接用爬虫或者手工复制出来,因…...
Ubuntu系统的基础操作和使用|Linux|安装|网络连接|更新与升级系统|系统维护|故障排除|监控|桌面环境|虚拟机|快捷键
目录 1. Ubuntu系统的安装与初步设置 1.1 下载与安装Ubuntu 1.2 创建用户和设置密码 1.3 配置网络连接 1.4 更新与升级系统 2. Ubuntu的基本操作 2.1 文件与目录管理 2.2 系统进程管理 2.3 软件安装与管理 2.4 权限与用户管理 3. 系统维护与故障排除 3.1 系统日志查…...
day 38
2824.统计和小于目标的下标对数目 int countPairs(int* nums, int numsSize, int target){int x0;for(int i0;i<numsSize;i){for(int ji1;j<numsSize;j){if(nums[i]nums[j]<target){x;}}}return x; }2951.找出峰值 int* findPeaks(int* mountain, int mountainSize,…...
352532
c语言中的小小白-CSDN博客c语言中的小小白关注算法,c,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 给大家分享一句我很喜欢我话: 知不足而奋进,望远山而前行&am…...
Day.38 | 1143.最长公共子序列 1035.不相交的线 53.最大子序和 392.判断子序列
1143.最长公共子序列 要点:dp[i][j] dp[i - 1][j - 1] 1; dp[i][j] max(dp[i - 1][j], dp[i][j - 1]); class Solution { public:int longestCommonSubsequence(string text1, string text2) {vector<vector<int>> dp(text1.size() 1, vector<…...
pytorch 3 计算图
计算图结构 分析: 起始节点 ab 5 - 3ac 2b 3d 5b 6e 7c d^2f 2e最终输出 g 3f - o(其中 o 是另一个输入) 前向传播 前向传播按照上述顺序计算每个节点的值。 反向传播过程 反向传播的目标是计算损失函数(这里假设为…...
一文吃透:暗水印是什么?企业防泄密可以加暗水印吗?
设计部主管:昨天下班的时候我在办公室捡到一张文件,上面可是我们最新产品的设计草稿,严禁打印的,到底是谁干的? 员工:办公室没有监控,似乎很难查到哦。 网络部经理:不用担心&#…...
Ajax-02.Axios
Axios入门 1.引入Axios的js文件 <script src"js/axios-0.18.0.js"></script> Axios 请求方式别名: axios.get(url[,config]) axios.delete(url[,config]) axios.post(url[,data[,config]]) axios.put(url[,data[,config]]) 发送GET/POST请求 axios.get…...
NodeJS的核心配置文件package.json和package.lock.json详解
package.json 文件 package.json 文件是 Node.js 项目的核心配置文件,它包含了项目的基本信息、依赖关系以及一些脚本命令等。以下是 package.json 文件的主要字段说明: name:项目的名称,必须是小写,可以包含字母、数…...
开源数据采集和跟踪系统:助力营销决策的关键工具
开源数据采集和跟踪系统:助力营销决策的关键工具 在现代营销中,数据是最重要的资产之一。了解用户行为、优化广告效果、提升转化率,这一切都离不开精准的数据分析。为了帮助商家更好地掌握这些数据,市场上出现了许多开源的数据采…...
Luminar Neo for Mac/Win:创新AI图像编辑软件的强大功能
Luminar Neo,这款由Skylum公司倾力打造的图像编辑软件,为Mac和Windows用户带来了前所未有的创作体验与编辑便利。作为一款融合了先进AI技术的图像处理工具,Luminar Neo以其独特的功能和高效的操作流程,成为了摄影师、设计师及摄影…...
Mac平台M1PRO芯片MiniCPM-V-2.6网页部署跑通
Mac平台M1PRO芯片MiniCPM-V-2.6网页部署跑通 契机 ⚙ 2.6的小钢炮可以输入视频了,我必须拉到本地跑跑。主要解决2.6版本默认绑定flash_atten问题,pip install flash_attn也无法安装,因为强制依赖cuda。主要解决的就是这个问题,还…...
MyBatis:Maven,Git,TortoiseGit,Gradle
1,Maven Maven是一个非常优秀的项目管理工具,采用一种“约定优于配置(CoC)”的策略来管理项目。使用Maven不仅可以把源代码构建成可发布的项目(包括编译、打包、测试和分发),还可以生成报告、生…...
获取链表中间位置的两种方法方法
方法一: 我们可以计算链表节点的数量,然后遍历链表找到前半部分的尾节点。 方法二: 我们也可以使用快慢指针在一次遍历中找到:慢指针一次走一步,快指针一次走两步,快慢指针同时出发。当快指针移动到链表的末尾时&am…...
第二十天的学习(2024.8.8)Vue拓展
昨天的笔记中,我们进行的项目已经可以在网页上显示查询到数据库中的数据,今天的笔记中将会完成在网页上进行增删改查的操作 1.删除表中数据 现在网页上只能呈现出数据库中的数据,我们首先添加一个删除按钮,使其可以对数据库数据…...
安县网站制作/佛山今日头条
2010年11月20日这一天,在广州,一个六七人的产品小组正式组建。2011年10月1日,这个产品小组的一款产品登上了中国移动互联网即时通讯工具软件第一的位置。 这款产品叫“微信”,主导了这款产品的人是张小龙,时任腾讯广州…...
北京网站开发教师招聘/seo是什么意思?
测试覆盖率是每个软件测试人员都关心的问题,它一方面可以衡量测试工作本身的有效性,也可以辅助增强管理者对于软件产品质量的信心水平。如果面试官问:你项目中的测试用例覆盖率是怎样的?如何回答?1)回答覆盖率100% 可能…...
设计类专业网站/搜索数据
静态方法装饰器 完全面向对象的程序中,如果存在某个函数既和对象无关也和类无关,就用staticmethod方法, 在调用此方法的时候只需要加上类名即可,说白了就是强行面向对象....把不是对象的方法也强行塞进对象里面 1 class Login:2 de…...
图片站wordpress模板下载/免费网页在线客服系统代码
20172303 2018-2019-1 《程序设计与数据结构》第1周学习总结 教材学习内容总结 第1章 概述 1.软件工程 定义:一门关于高质量软件开发的技术和理论的学科。目标:软件工程的目标与其他工程学科类似 解决正确性问题————客户所需实现的需求按时且在预算之…...
asp.net做动态网站/成都seo优化
进来看了看keras, 比tf友好的多啊,总结下: Keras有两种类型的模型,顺序模型(Sequential)和泛型模型(Model) 首先比较简单的顺序型 Sequential模型接口 代码示例 model Sequential() model.a…...
360百度网站怎么做/seo网络推广技术
大数据Spark运行模式: Yarn模式与配置详解在强大的Yarn环境下Spark是如何工作的?(在国内公司中,Yarn使用的非常多)。1 解压缩文件将spark-3.0.0-bin-hadoop3.2.tgz文件上传到linux并解压缩,放置在指定位置。tar -zxvf spark-3.0.0…...