当前位置: 首页 > news >正文

SpringBoot+ElasticSearch实现文档内容抽取、高亮分词、全文检索

需求
产品希望我们这边能够实现用户上传PDF、WORD、TXT之内得文本内容,然后用户可以根据附件名称或文件内容模糊查询文件信息,并可以在线查看文件内容。

一、环境
项目开发环境:

后台管理系统springboot+mybatis_plus+mysql+es
搜索引擎:elasticsearch7.9.3 +kibana图形化界面

二、功能实现
1.搭建环境
es+kibana的搭建这里就不介绍了,网上多的是

后台程序搭建也不介绍,这里有一点很重要,Java使用的连接es的包的版本一定要和es的版本对应上,不然你会有各种问题

2.文件内容识别
第一步: 要用es实现文本附件内容的识别,需要先给es安装一个插件:Ingest Attachment Processor Plugin

这知识一个内容识别的插件,还有其它的例如OCR之类的其它插件,有兴趣的可以去搜一下了解一下

Ingest Attachment Processor Plugin是一个文本抽取插件,本质上是利用了Elasticsearch的ingest node功能,提供了关键的预处理器attachment。在安装目录下运行以下命令即可安装。

到es的安装文件bin目录下执行

elasticsearch-plugin install ingest-attachment

因为我们这里es是使用docker安装的,所以需要进入到es的docker镜像里面的bin目录下安装插件

[root@iZuf63d0pqnjrga4pi18udZ plugins]# docker exec -it es bash
[root@elasticsearch elasticsearch]# ls
LICENSE.txt  NOTICE.txt  README.asciidoc  bin  config  data  jdk  lib  logs  modules  plugins
[root@elasticsearch elasticsearch]# cd bin/
[root@elasticsearch bin]# ls
elasticsearch          elasticsearch-certutil  elasticsearch-croneval  elasticsearch-env-from-file  elasticsearch-migrate  elasticsearch-plugin         elasticsearch-setup-passwords  elasticsearch-sql-cli            elasticsearch-syskeygen  x-pack-env           x-pack-watcher-env
elasticsearch-certgen  elasticsearch-cli       elasticsearch-env       elasticsearch-keystore       elasticsearch-node     elasticsearch-saml-metadata  elasticsearch-shard            elasticsearch-sql-cli-7.9.3.jar  elasticsearch-users      x-pack-security-env
[root@elasticsearch bin]# elasticsearch-plugin install ingest-attachment
-> Installing ingest-attachment
-> Downloading ingest-attachment from elastic
[=================================================] 100%?? 
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@     WARNING: plugin requires additional permissions     @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
* java.lang.RuntimePermission accessClassInPackage.sun.java2d.cmm.kcms
* java.lang.RuntimePermission accessDeclaredMembers
* java.lang.RuntimePermission getClassLoader
* java.lang.reflect.ReflectPermission suppressAccessChecks
* java.security.SecurityPermission createAccessControlContext
* java.security.SecurityPermission insertProvider
* java.security.SecurityPermission putProviderProperty.BC
See http://docs.oracle.com/javase/8/docs/technotes/guides/security/permissions.html
for descriptions of what these permissions allow and the associated risks.Continue with installation? [y/N]y
-> Installed ingest-attachment

显示installed 就表示安装完成了,然后重启es,不然第二步要报错

第二步:创建一个文本抽取的管道

主要是用于将上传的附件转换成文本内容,支持(word,PDF,txt,excel没试,应该也支持)
在这里插入图片描述

{"description": "Extract attachment information","processors": [{"attachment": {"field": "content","ignore_missing": true}},{"remove": {"field": "content"}}]
}

第三步:定义我们内容存储的索引
在这里插入图片描述

{"mappings": {"properties": {"id":{"type": "keyword"},"fileName":{"type": "text","analyzer": "my_ana"},"contentType":{"type": "text","analyzer": "my_ana"},"fileUrl":{"type": "text"},"attachment": {"properties": {"content":{"type": "text","analyzer": "my_ana"}}}}},"settings": {"analysis": {"filter": {"jieba_stop": {"type":        "stop","stopwords_path": "stopword/stopwords.txt"},"jieba_synonym": {"type":        "synonym","synonyms_path": "synonym/synonyms.txt"}},"analyzer": {"my_ana": {"tokenizer": "jieba_index","filter": ["lowercase","jieba_stop","jieba_synonym"]}}}}
}

mapping:定义的是存储的字段格式
setting:索引的配置信息,这边定义了一个分词(使用的是jieba的分词)

注意:内容检索的是attachment.content字段,一定要使用分词,不使用分词的话,检索会检索不出来内容

第四步:测试

在这里插入图片描述

{"id":"1","name":"进口红酒","filetype":"pdf","contenttype":"文章","content":"文章内容"
}

测试内容需要将附件转换成base64格式

在线转换文件的地址:https://www.zhangxinxu.com/sp/base64.html

查询刚刚上传的文件:
在这里插入图片描述

{"took": 861,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": {"value": 5,"relation": "eq"},"max_score": 1.0,"hits": [{"_index": "fileinfo","_type": "_doc","_id": "lkPEgYIBz3NlBKQzXYX9","_score": 1.0,"_source": {"fileName": "测试_20220809164145A002.docx","updateTime": 1660034506000,"attachment": {"date": "2022-08-09T01:38:00Z","content_type": "application/vnd.openxmlformats-officedocument.wordprocessingml.document","author": "DELL","language": "lt","content": "内容","content_length": 2572},"createTime": 1660034506000,"fileUrl": "http://localhost:8092/fileInfo/profile/upload/fileInfo/2022/08/09/测试_20220809164145A002.docx","id": 1306333192,"contentType": "文章","fileType": "docx"}},{"_index": "fileinfo","_type": "_doc","_id": "mUPHgYIBz3NlBKQzwIVW","_score": 1.0,"_source": {"fileName": "测试_20220809164527A001.docx","updateTime": 1660034728000,"attachment": {"date": "2022-08-09T01:38:00Z","content_type": "application/vnd.openxmlformats-officedocument.wordprocessingml.document","author": "DELL","language": "lt","content": "内容","content_length": 2572},"createTime": 1660034728000,"fileUrl": "http://localhost:8092/fileInfo/profile/upload/fileInfo/2022/08/09/测试_20220809164527A001.docx","id": 1306333193,"contentType": "文章","fileType": "docx"}},{"_index": "fileinfo","_type": "_doc","_id": "JDqshoIBbkTNu1UgkzFK","_score": 1.0,"_source": {"fileName": "txt测试_20220810153351A001.txt","updateTime": 1660116831000,"attachment": {"content_type": "text/plain; charset=UTF-8","language": "lt","content": "内容","content_length": 804},"createTime": 1660116831000,"fileUrl": "http://localhost:8092/fileInfo/profile/upload/fileInfo/2022/08/10/txt测试_20220810153351A001.txt","id": 1306333194,"contentType": "告示","fileType": "txt"}}]}
}

我们调用上传的接口,可以看到文本内容已经抽取到es里面了,后面就可以直接分词检索内容,高亮显示了

三.代码
介绍下代码实现逻辑:文件上传,数据库存储附件信息和附件上传地址;调用es实现文本内容抽取,将抽取的内容放到对应索引下;提供小程序全文检索的api实现根据文件名称关键词联想,文件名称内容全文检索模糊匹配,并高亮显示分词匹配字段;直接贴代码

yml配置文件:

# 数据源配置
spring:# 服务模块devtools:restart:# 热部署开关enabled: true# 搜索引擎elasticsearch:rest:url: 127.0.0.1uris: 127.0.0.1:9200connection-timeout: 1000read-timeout: 3000username: elasticpassword: 123456

elsticsearchConfig(连接配置)

package com.yj.rselasticsearch.domain.config;import org.apache.http.HttpHost;
import org.apache.http.auth.AuthScope;
import org.apache.http.auth.UsernamePasswordCredentials;
import org.apache.http.impl.client.BasicCredentialsProvider;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;import java.time.Duration;@Configuration
public class ElasticsearchConfig {@Value("${spring.elasticsearch.rest.url}")private String edUrl;@Value("${spring.elasticsearch.rest.username}")private String userName;@Value("${spring.elasticsearch.rest.password}")private String password;@Beanpublic RestHighLevelClient restHighLevelClient() {//设置连接的用户名密码final BasicCredentialsProvider credentialsProvider = new BasicCredentialsProvider();credentialsProvider.setCredentials(AuthScope.ANY, new UsernamePasswordCredentials(userName, password));RestHighLevelClient client =  new RestHighLevelClient(RestClient.builder(new HttpHost(edUrl, 9200,"http")).setHttpClientConfigCallback(httpClientBuilder -> {httpClientBuilder.disableAuthCaching();//保持连接池处于链接状态,该bug曾导致es一段时间没使用,第一次连接访问超时httpClientBuilder.setKeepAliveStrategy(((response, context) -> Duration.ofMinutes(5).toMillis()));return httpClientBuilder.setDefaultCredentialsProvider(credentialsProvider);}));return client;}
}

文件上传保存文件信息并抽取内容到es

实体对象FileInfo

package com.yj.common.core.domain.entity;import com.baomidou.mybatisplus.annotation.TableField;
import com.yj.common.core.domain.BaseEntity;
import lombok.Data;
import lombok.EqualsAndHashCode;
import lombok.Getter;
import lombok.Setter;
import org.springframework.data.elasticsearch.annotations.Document;
import org.springframework.data.elasticsearch.annotations.Field;
import org.springframework.data.elasticsearch.annotations.FieldType;import java.util.Date;@Setter
@Getter
@Document(indexName = "fileinfo",createIndex = false)
public class FileInfo {/*** 主键*/@Field(name = "id", type = FieldType.Integer)private Integer id;/*** 文件名称*/@Field(name = "fileName", type = FieldType.Text,analyzer = "jieba_index",searchAnalyzer = "jieba_index")private String fileName;/*** 文件类型*/@Field(name = "fileType",  type = FieldType.Keyword)private String fileType;/*** 内容类型*/@Field(name = "contentType", type = FieldType.Text)private String contentType;/*** 附件内容*/@Field(name = "attachment.content", type = FieldType.Text,analyzer = "jieba_index",searchAnalyzer = "jieba_index")@TableField(exist = false)private String content;/*** 文件地址*/@Field(name = "fileUrl", type = FieldType.Text)private String fileUrl;/*** 创建时间*/private Date createTime;/*** 更新时间*/private Date updateTime;
}

controller类

package com.yj.rselasticsearch.controller;import com.yj.common.core.controller.BaseController;
import com.yj.common.core.domain.AjaxResult;
import com.yj.common.core.domain.entity.FileInfo;
import com.yj.rselasticsearch.service.FileInfoService;
import org.springframework.web.bind.annotation.*;
import org.springframework.web.multipart.MultipartFile;import javax.annotation.Resource;/*** (file_info)表控制层** @author xxxxx*/
@RestController
@RequestMapping("/fileInfo")
public class FileInfoController extends BaseController {/*** 服务对象*/@Resourceprivate FileInfoService fileInfoService;@PutMapping("uploadFile")public AjaxResult uploadFile(String contentType, MultipartFile file) {return fileInfoService.uploadFileInfo(contentType,file);}
}

serviceImpl实现类

package com.yj.rselasticsearch.service.impl;import com.alibaba.fastjson.JSON;
import com.baomidou.mybatisplus.core.conditions.query.LambdaQueryWrapper;
import com.yj.common.config.RuoYiConfig;
import com.yj.common.core.domain.AjaxResult;
import com.yj.common.utils.FastUtils;
import com.yj.common.utils.StringUtils;
import com.yj.common.utils.file.FileUploadUtils;
import com.yj.common.utils.file.FileUtils;
import com.yj.framework.config.ServerConfig;
import lombok.extern.slf4j.Slf4j;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.action.index.IndexResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.xcontent.XContentType;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.data.elasticsearch.core.ElasticsearchRestTemplate;
import org.springframework.stereotype.Service;
import javax.annotation.Resource;
import com.yj.common.core.domain.entity.FileInfo;
import com.yj.rselasticsearch.mapper.FileInfoMapper;
import com.yj.rselasticsearch.service.FileInfoService;
import org.springframework.web.multipart.MultipartFile;import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Base64;@Service
@Slf4j
public class FileInfoServiceImpl implements FileInfoService{@Resourceprivate ServerConfig serverConfig;@Autowired@Qualifier("restHighLevelClient")private RestHighLevelClient client;@Resourceprivate FileInfoMapper fileInfoMapper;/*** 上传文件并进行文件内容识别上传到es* @param contentType* @param file* @return*/@Overridepublic AjaxResult uploadFileInfo(String contentType, MultipartFile file) {if (FastUtils.checkNullOrEmpty(contentType,file)){return AjaxResult.error("请求参数不能为空");}try {// 上传文件路径String filePath = RuoYiConfig.getUploadPath() + "/fileInfo";FileInfo fileInfo = new FileInfo();// 上传并返回新文件名称String fileName = FileUploadUtils.upload(filePath, file);String prefix = fileName.substring(fileName.lastIndexOf(".")+1);File files = File.createTempFile(fileName, prefix);file.transferTo(files);String url = serverConfig.getUrl() + "/fileInfo" + fileName;fileInfo.setFileName(FileUtils.getName(fileName));fileInfo.setFileType(prefix);fileInfo.setFileUrl(url);fileInfo.setContentType(contentType);int result = fileInfoMapper.insertSelective(fileInfo);if (result > 0) {fileInfo = fileInfoMapper.selectOne(new LambdaQueryWrapper<FileInfo>().eq(FileInfo::getFileUrl,fileInfo.getFileUrl()));byte[] bytes = getContent(files);String base64 = Base64.getEncoder().encodeToString(bytes);fileInfo.setContent(base64);IndexRequest indexRequest = new IndexRequest("fileinfo");//上传同时,使用attachment pipline进行提取文件indexRequest.source(JSON.toJSONString(fileInfo), XContentType.JSON);indexRequest.setPipeline("attachment");IndexResponse indexResponse = client.index(indexRequest, RequestOptions.DEFAULT);log.info("indexResponse:" + indexResponse);}AjaxResult ajax = AjaxResult.success(fileInfo);return ajax;} catch (Exception e) {return AjaxResult.error(e.getMessage());}}/*** 文件转base64** @param file* @return* @throws IOException*/private byte[] getContent(File file) throws IOException {long fileSize = file.length();if (fileSize > Integer.MAX_VALUE) {log.info("file too big...");return null;}FileInputStream fi = new FileInputStream(file);byte[] buffer = new byte[(int) fileSize];int offset = 0;int numRead = 0;while (offset < buffer.length&& (numRead = fi.read(buffer, offset, buffer.length - offset)) >= 0) {offset += numRead;}// 确保所有数据均被读取if (offset != buffer.length) {throw new ServiceException("Could not completely read file "+ file.getName());}fi.close();return buffer;}
}

高亮分词检索

参数请求WarningInfoDto

package com.yj.rselasticsearch.domain.dto;import com.yj.common.core.domain.entity.WarningInfo;
import io.swagger.annotations.ApiModel;
import io.swagger.annotations.ApiModelProperty;
import lombok.Data;import java.util.List;/*** 前端请求数据传输* WarningInfo* @author luoY*/
@Data
@ApiModel(value ="WarningInfoDto",description = "告警信息")
public class WarningInfoDto{/*** 页数*/@ApiModelProperty("页数")private Integer pageIndex;/*** 每页数量*/@ApiModelProperty("每页数量")private Integer pageSize;/*** 查询关键词*/@ApiModelProperty("查询关键词")private String keyword;/*** 内容类型*/private List<String> contentType;/*** 用户手机号*/private String phone;
}

controller类

package com.yj.rselasticsearch.controller;import com.baomidou.mybatisplus.core.metadata.IPage;
import com.yj.common.core.controller.BaseController;
import com.yj.common.core.domain.AjaxResult;
import com.yj.common.core.domain.entity.FileInfo;
import com.yj.common.core.domain.entity.WarningInfo;
import com.yj.rselasticsearch.service.ElasticsearchService;
import com.yj.rselasticsearch.service.WarningInfoService;
import io.swagger.annotations.Api;
import io.swagger.annotations.ApiImplicitParam;
import io.swagger.annotations.ApiImplicitParams;
import io.swagger.annotations.ApiOperation;
import org.springframework.web.bind.annotation.*;
import com.yj.rselasticsearch.domain.dto.WarningInfoDto;import javax.annotation.Resource;
import javax.servlet.http.HttpServletRequest;
import java.util.List;/*** es搜索引擎** @author luoy*/
@Api("搜索引擎")
@RestController
@RequestMapping("es")
public class ElasticsearchController extends BaseController {@Resourceprivate ElasticsearchService elasticsearchService;/*** 告警信息关键词联想** @param warningInfoDto* @return*/@ApiOperation("关键词联想")@ApiImplicitParams({@ApiImplicitParam(name = "contenttype", value = "文档类型", required = true, dataType = "String", dataTypeClass = String.class),@ApiImplicitParam(name = "keyword", value = "关键词", required = true, dataType = "String", dataTypeClass = String.class)})@PostMapping("getAssociationalWordDoc")public AjaxResult getAssociationalWordDoc(@RequestBody WarningInfoDto warningInfoDto, HttpServletRequest request) {List<String> words = elasticsearchService.getAssociationalWordOther(warningInfoDto,request);return AjaxResult.success(words);}/*** 告警信息高亮分词分页查询** @param warningInfoDto* @return*/@ApiOperation("高亮分词分页查询")@ApiImplicitParams({@ApiImplicitParam(name = "keyword", value = "关键词", required = true, dataType = "String", dataTypeClass = String.class),@ApiImplicitParam(name = "pageIndex", value = "页码", required = true, dataType = "Integer", dataTypeClass = Integer.class),@ApiImplicitParam(name = "pageSize", value = "页数", required = true, dataType = "Integer", dataTypeClass = Integer.class),@ApiImplicitParam(name = "contenttype", value = "文档类型", required = true, dataType = "String", dataTypeClass = String.class)})@PostMapping("queryHighLightWordDoc")public AjaxResult queryHighLightWordDoc(@RequestBody WarningInfoDto warningInfoDto,HttpServletRequest request) {IPage<FileInfo> warningInfoListPage = elasticsearchService.queryHighLightWordOther(warningInfoDto,request);return AjaxResult.success(warningInfoListPage);}
}

serviceImpl实现类

package com.yj.rselasticsearch.service.impl;import com.alibaba.fastjson.JSON;
import com.baomidou.mybatisplus.core.conditions.query.LambdaQueryWrapper;
import com.baomidou.mybatisplus.core.metadata.IPage;
import com.baomidou.mybatisplus.extension.plugins.pagination.Page;
import com.yj.common.constant.DataConstants;
import com.yj.common.constant.HttpStatus;
import com.yj.common.core.domain.entity.FileInfo;
import com.yj.common.core.domain.entity.WarningInfo;
import com.yj.common.core.domain.entity.WhiteList;
import com.yj.common.core.redis.RedisCache;
import com.yj.common.exception.ServiceException;
import com.yj.common.utils.FastUtils;
import com.yj.rselasticsearch.domain.dto.RetrievalRecordDto;
import com.yj.rselasticsearch.domain.dto.WarningInfoDto;
import com.yj.rselasticsearch.domain.vo.MemberVo;
import com.yj.rselasticsearch.service.*;
import lombok.extern.slf4j.Slf4j;
import org.elasticsearch.action.bulk.BulkRequest;
import org.elasticsearch.action.bulk.BulkResponse;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.xcontent.XContentType;
import org.elasticsearch.index.query.BoolQueryBuilder;
import org.elasticsearch.index.query.Operator;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.fetch.subphase.highlight.HighlightBuilder;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.data.domain.PageRequest;
import org.springframework.data.domain.Pageable;
import org.springframework.data.elasticsearch.core.ElasticsearchRestTemplate;
import org.springframework.data.elasticsearch.core.SearchHits;
import org.springframework.data.elasticsearch.core.query.*;
import org.springframework.stereotype.Service;import javax.annotation.Resource;
import javax.servlet.http.HttpServletRequest;
import java.util.*;
import java.util.stream.Collectors;@Service
@Slf4j
public class ElasticsearchServiceImpl implements ElasticsearchService {@Resourceprivate WhiteListService whiteListService;@Autowired@Qualifier("restHighLevelClient")private RestHighLevelClient client;@Autowiredprivate RedisCache redisCache;@Resourceprivate TokenService tokenService;/*** 文档信息关键词联想(根据输入框的词语联想文件名称)** @param warningInfoDto* @return*/@Overridepublic List<String> getAssociationalWordOther(WarningInfoDto warningInfoDto, HttpServletRequest request) {//需要查询的字段BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery().should(QueryBuilders.matchBoolPrefixQuery("fileName", warningInfoDto.getKeyword()));//contentType标签内容过滤boolQueryBuilder.must(QueryBuilders.termsQuery("contentType", warningInfoDto.getContentType()));//构建高亮查询NativeSearchQuery searchQuery = new NativeSearchQueryBuilder().withQuery(boolQueryBuilder).withHighlightFields(new HighlightBuilder.Field("fileName")).withHighlightBuilder(new HighlightBuilder().preTags("<span style='color:red'>").postTags("</span>")).build();//查询SearchHits<FileInfo> search = null;try {search = elasticsearchRestTemplate.search(searchQuery, FileInfo.class);} catch (Exception ex) {ex.printStackTrace();throw new ServiceException(String.format("操作错误,请联系管理员!%s", ex.getMessage()));}//设置一个最后需要返回的实体类集合List<String> resultList = new LinkedList<>();//遍历返回的内容进行处理for (org.springframework.data.elasticsearch.core.SearchHit<FileInfo> searchHit : search.getSearchHits()) {//高亮的内容Map<String, List<String>> highlightFields = searchHit.getHighlightFields();//将高亮的内容填充到content中searchHit.getContent().setFileName(highlightFields.get("fileName") == null ? searchHit.getContent().getFileName() : highlightFields.get("fileName").get(0));if (highlightFields.get("fileName") != null) {resultList.add(searchHit.getContent().getFileName());}}//list去重List<String> newResult = null;if (!FastUtils.checkNullOrEmpty(resultList)) {if (resultList.size() > 9) {newResult = resultList.stream().distinct().collect(Collectors.toList()).subList(0, 9);} else {newResult = resultList.stream().distinct().collect(Collectors.toList());}}return newResult;}/*** 高亮分词搜索其它类型文档** @param warningInfoDto* @param request* @return*/@Overridepublic IPage<FileInfo> queryHighLightWordOther(WarningInfoDto warningInfoDto, HttpServletRequest request) {//分页Pageable pageable = PageRequest.of(warningInfoDto.getPageIndex() - 1, warningInfoDto.getPageSize());//需要查询的字段,根据输入的内容分词全文检索fileName和content字段BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery().should(QueryBuilders.matchBoolPrefixQuery("fileName", warningInfoDto.getKeyword())).should(QueryBuilders.matchBoolPrefixQuery("attachment.content", warningInfoDto.getKeyword()));//contentType标签内容过滤boolQueryBuilder.must(QueryBuilders.termsQuery("contentType", warningInfoDto.getContentType()));//构建高亮查询NativeSearchQuery searchQuery = new NativeSearchQueryBuilder().withQuery(boolQueryBuilder).withHighlightFields(new HighlightBuilder.Field("fileName"), new HighlightBuilder.Field("attachment.content")).withHighlightBuilder(new HighlightBuilder().preTags("<span style='color:red'>").postTags("</span>")).build();//查询SearchHits<FileInfo> search = null;try {search = elasticsearchRestTemplate.search(searchQuery, FileInfo.class);} catch (Exception ex) {ex.printStackTrace();throw new ServiceException(String.format("操作错误,请联系管理员!%s", ex.getMessage()));}//设置一个最后需要返回的实体类集合List<FileInfo> resultList = new LinkedList<>();//遍历返回的内容进行处理for (org.springframework.data.elasticsearch.core.SearchHit<FileInfo> searchHit : search.getSearchHits()) {//高亮的内容Map<String, List<String>> highlightFields = searchHit.getHighlightFields();//将高亮的内容填充到content中searchHit.getContent().setFileName(highlightFields.get("fileName") == null ? searchHit.getContent().getFileName() : highlightFields.get("fileName").get(0));searchHit.getContent().setContent(highlightFields.get("content") == null ? searchHit.getContent().getContent() : highlightFields.get("content").get(0));resultList.add(searchHit.getContent());}//手动分页返回信息IPage<FileInfo> warningInfoIPage = new Page<>();warningInfoIPage.setTotal(search.getTotalHits());warningInfoIPage.setRecords(resultList);warningInfoIPage.setCurrent(warningInfoDto.getPageIndex());warningInfoIPage.setSize(warningInfoDto.getPageSize());warningInfoIPage.setPages(warningInfoIPage.getTotal() % warningInfoDto.getPageSize());return warningInfoIPage;}
}

代码测试:
在这里插入图片描述

--请求jason
{"keyword":"全库备份","contentType":["告示"],"pageIndex":1,"pageSize":10
}--响应
{"msg": "操作成功","code": 200,"data": {"records": [{"id": 1306333194,"fileName": "txt测试_20220810153351A001.txt","fileType": "txt","contentType": "告示","content": "•\t秒级快速<span style='color:red'>备份</span>\r\n不论多大的数据量,<span style='color:red'>全库</span><span style='color:red'>备份</span>只需30秒,而且<span style='color:red'>备份过程</span>不会对数据库加锁,对应用程序几乎无影响,全天24小时均可进行<span style='color:red'>备份</span>。","fileUrl": "http://localhost:8092/fileInfo/profile/upload/fileInfo/2022/08/10/txt测试_20220810153351A001.txt","createTime": "2022-08-10T15:33:51.000+08:00","updateTime": "2022-08-10T15:33:51.000+08:00"}],"total": 1,"size": 10,"current": 1,"orders": [],"optimizeCountSql": true,"searchCount": true,"countId": null,"maxLimit": null,"pages": 1}
}

返回的内容将分词检索到匹配的内容,并将匹配的词高亮显示。

相关文章:

SpringBoot+ElasticSearch实现文档内容抽取、高亮分词、全文检索

需求 产品希望我们这边能够实现用户上传PDF、WORD、TXT之内得文本内容&#xff0c;然后用户可以根据附件名称或文件内容模糊查询文件信息&#xff0c;并可以在线查看文件内容。 一、环境 项目开发环境&#xff1a; 后台管理系统springbootmybatis_plusmysqles 搜索引擎&#…...

利用Redis实现简单的短信登录

在现代应用中&#xff0c;短信登录是一种常见的用户认证方式。它提供了一种便捷的登录方式&#xff0c;同时也增加了账户的安全性。在本文中&#xff0c;我们将介绍如何使用 Redis 实现短信登录的功能&#xff0c;并提供相应的 Java 实现层代码。 1、短信验证码的生成与存储当用…...

在 Linux 中通过 SSH 执行远程命令时,无法自动加载环境变量(已解决)

问题场景 目前我的环境变量都存储在 /etc/profile 文件中&#xff0c;当我通过远程 SSH 执行一些命令时&#xff0c;提示命令找不到&#xff0c;如下所示&#xff1a; 问题出现原因 这里找到了一张出自尚硅谷的图片&#xff0c;很好的解释了该问题&#xff1a; 这是由于 Linu…...

c++使用类的一些注意事项

前言&#xff1a; 本篇内容为前面的补充&#xff0c;介绍了我们使用类时需要注意些什么以及一些编译器的优化&#xff0c;可能有些理解不到位或者错误&#xff0c;请斧正。 目录 前言&#xff1a; 1.再谈构造函数 2.&#xff08;c98&#xff09;隐式类型转换中的编译器的优…...

C++蓝桥考级一级到十八级的考点内容整理

以下是C蓝桥考级一级到十八级的考点内容整理&#xff1a; C一级考点内容 C程序基本结构 初步了解C编程了解C程序基本结构&#xff1a;头文件、命名空间、主函数、基本输入输出 cin、cout C二级考点内容 数据类型与变量 掌握编程中数学表达式的计算方式基础数据类型、变量的…...

C++智能指针简单剖析

导读 最近在补看《C Primer Plus》第六版&#xff0c;这的确是本好书&#xff0c;其中关于智能指针的章节解析的非常清晰&#xff0c;一解我以前的多处困惑。C面试过程中&#xff0c;很多面试官都喜欢问智能指针相关的问题&#xff0c;比如你知道哪些智能指针&#xff1f;shar…...

mysql笔记:25. docker环境中mysql主从复制、主主复制实操

文章目录 一、准备工作1. 安装配置Docker2. 准备MySQL相关的配置和数据目录 二、基于日志点的主从复制1. 配置Master服务器1.1 修改配置文件1.2. 在docker中启动Master节点1.3. 创建用户并授权 2. 配置Slave1服务器2.1. 修改配置2.2. 启动服务2.3. 指定Master2.4. 开始复制 3. …...

大数据面试专题 -- kafka

1、什么是消息队列&#xff1f; 是一个用于存放数据的组件&#xff0c;用于系统之间或者是模块之间的消息传递。 2、消息队列的应用场景&#xff1f; 主要是用于模块之间的解耦合、异步处理、日志处理、流量削峰 3、什么是kafka&#xff1f; kafka是一种基于订阅发布模式的…...

深度学习入门简单实现一个神经网络

实现一个三层神经网络 引言测试数据 代码 引言 今天我们实现一个简单的神经网络 俩个输入神经元 隐藏层两个神经元 一个输出神经元 激活函数我们使用sigmoid 优化方法使用梯度下降 我们前期准备是需要把这些神经元的关系理清楚 x1&#xff1a;第一个输入 x2&#xff1a;第二个…...

win11 环境配置 之 Jmeter(JDK17版本)

一、安装 JDK 1. 安装 jdk 截至当前最新时间&#xff1a; 2024.3.27 jdk最新的版本 是 官网下载地址&#xff1a; https://www.oracle.com/java/technologies/downloads/ 建议下载 jdk17 另存为到该电脑的 D 盘下&#xff0c;新建jdk文件夹 开始安装到 jdk 文件夹下 2. 配…...

Windows下载使用nc(netcat)命令

‘nc’ 不是内部或外部命令&#xff0c;也不是可运行的程序&#xff1f; 点击链接地址&#xff0c;下载压缩包。 完成后解压 使用方式&#xff08;三种&#xff09;&#xff1a; 1、直接双击exe使用 2、把这个exe放到cmd启动的默认路径下 放到默认路径下&#xff0c;使用nc&a…...

istio 设置 istio-proxy sidecar 的 resource 的 limit 和 request

方式一 修改 configmap 查看当前 sidecar 的 cpu 和 memory 的配额 在 istio-sidecar-injector 中查找&#xff0c;修改后重启 pod 可以生效&#xff08;下面那个 proxy_init 配置不管&#xff0c;不知道是干嘛的&#xff09; 方式二 如果是通过 iop 安装的 istio&#xf…...

flutter弹框

alertDialog:弹框 simpleDialog:选择弹框 showModalBottomSheet:底部弹出弹框 showtoast:三方插件弹框 Navigator.of(context).pop(点击取消) 关闭弹框,传递参数 import package:flutter/material.dart; // import package:flutter/cupertino.dart; import package:flut…...

2013年认证杯SPSSPRO杯数学建模B题(第一阶段)流行音乐发展简史全过程文档及程序

2013年认证杯SPSSPRO杯数学建模 B题 流行音乐发展简史 原题再现&#xff1a; 随着互联网的发展&#xff0c;流行音乐的主要传播媒介从传统的电台和唱片逐渐过渡到网络下载和网络电台等。网络电台需要根据收听者的已知喜好&#xff0c;自动推荐并播放其它音乐。由于每个人喜好…...

代码随想录算法训练营第39天 | 62.不同路径, 63不同路径II

Leetcode - 62&#xff1a;不同路径 题目&#xff1a; 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中标记为 “Finish” &#…...

Redis 的慢日志

Redis 的慢日志 Redis 的慢日志&#xff08;Slow Log&#xff09;是用于记录执行时间超过预设阈值的命令请求的系统。慢日志可以帮助运维人员和开发人员识别潜在的性能瓶颈&#xff0c;定位那些可能导致 Redis 性能下降或响应延迟的慢查询。以下是 Redis 慢日志的相关细节&…...

第十四届蓝桥杯第十题:蜗牛分享

问题描述 输入格式 输出格式 输出共一行&#xff0c;一个浮点数表示答案&#xff08;四舍五入保留两位小数&#xff09;。 样例输入 3 1 10 11 1 1 2 1样例输出 4.20样例说明 蜗牛路线&#xff1a;(0,0)→(1,0)→(1,1)→(10,1)→(10,0)→(11,0)(0,0)→(1,0)→(1,1)→(10,1…...

不懂技术的老板,如何避免过度依赖核心技术人员

在这个日新月异、技术驱动的时代&#xff0c;即使作为非技术背景的老板&#xff0c;也深知核心技术人员的价值。然而&#xff0c;过度依赖某几位核心技术人员&#xff0c;不仅可能带来经营风险&#xff0c;还可能限制企业的创新与发展。那么&#xff0c;不懂技术的老板&#xf…...

Vue系列-el挂载

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>el:挂载点</title> </head> <body&g…...

python--os和os.path模块

>>> import os >>> #curdir #获取当前脚本的绝对路径 >>> os.curdir . >>> import os.path >>> #获取绝对路径 >>> os.path.abspath(os.curdir) C:\\Users\\GUOGUO>>> #chdir #修改当前目录 >&g…...

前端通用命名规范和Vue项目命名规范

​​​​​​通用命名规范 变量和常量命名&#xff1a;变量和常量的命名应具有描述性&#xff0c;清晰明了&#xff0c;使用驼峰命名法或下划线命名法&#xff0c;例如&#xff1a;firstName、MAX_VALUE。 函数和方法命名&#xff1a;函数和方法的命名应该能够准确描述其功能&…...

NTP服务搭建

一、ntpd和ntpdate区别 1.ntpd是自动执行的远程更新本地系统时钟的服务&#xff0c;是平滑同步&#xff1b; 2.ntpdate是手工执行的服务&#xff0c;也就是一般用它执行一次本地时间更新&#xff0c;如果做成半自动&#xff0c;可以写入到crontab自动任务&#xff0c;从而变成…...

Linux离线安装mysql,node,forever

PS:本文是基于centos7实现的,要求系统能够查看ifconfig和unzip解压命令, 实现无网络可安装运行 首先现在百度网盘的离线文件包****安装Xftp 和 Xshell 把机房压缩包传到 home目录下****解压unzip 包名.zip 获取IP先获取到 linux 主机的ip ifconfig Xftp 连接输入IP,然后按照…...

WPF中获取TreeView以及ListView获取其本身滚动条进行滚动

实现自行调节scoll滚动的位置(可相应获取任何控件中的内部滚动条) TreeView:TreeViewAutomationPeer lvap new TreeViewAutomationPeer(treeView); var svap lvap.GetPattern(PatternInterface.Scroll) as ScrollViewerAutomationPeer; var scroll svap.Owner as ScrollVie…...

C语言: 指针讲解

为什么需要指针? &#xff08;1&#xff09;指针的使用使得不同区域的代码可以轻易的共享内存数据。当然你也可以通过数据的复制达到相同的效果&#xff0c;但是这样往往效率不太好&#xff0c;因为诸如结构体等大型数据&#xff0c;占用的字节数多&#xff0c;复制很消耗性能…...

C#使用Stopwatch类来实现计时功能

前言 在 C# 中&#xff0c;Stopwatch 类是用于测量经过的时间的工具类&#xff0c;提供了高精度的计时功能。Stopwatch 类位于 System.Diagnostics 命名空间中。通常情况下&#xff0c;使用 Stopwatch 的流程是创建一个 Stopwatch 对象&#xff0c;然后调用 Start 方法开始计时…...

ubuntu18.04安装qt

ubuntu18.04安装qt 1、下载文件 比如我下载的是5.13.0版本 下载链接 2、安装 wget https://download.qt.io/archive/qt/5.13/5.13.0/qt-opensource-linux-x64-5.13.0.runsudo chmod x qt-opensource-linux-x64-5.13.0.runsudo ./qt-opensource-linux-x64-5.13.0.run参考文…...

ElasticSearch、java的四大内置函数式接口、Stream流、parallelStream背后的技术、Optional类

第四周笔记 一、ElasticSearch 1.安装 apt-get install lrzsz adduser -m es 创建用户组&#xff1a; useradd *-m* xiaoming(用户名) *PS&#xff1a;追加参数-m* passwd xiaoming(用户名) passwd xiaoming 输入新的 UNIX 密码&#xff1a; 重新输入新的 UNIX 密码&…...

深入MNN:开源深度学习框架的介绍、安装与编译指南

引言 在人工智能的世界里&#xff0c;深度学习框架的选择对于研究和应用的进展至关重要。MNN&#xff0c;作为一个轻量级、高效率的深度学习框架&#xff0c;近年来受到了众多开发者和研究人员的青睐。它由阿里巴巴集团开源&#xff0c;专为移动端设备设计&#xff0c;支持跨平…...

[LeetCode][400]第 N 位数字

题目 400. 第 N 位数字 给你一个整数 n &#xff0c;请你在无限的整数序列 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, …] 中找出并返回第 n 位上的数字。 示例 1&#xff1a; 输入&#xff1a;n 3 输出&#xff1a;3 示例 2&#xff1a; 输入&#xff1a;n 11 输出&#xff1a;…...

万能网盘搜索引擎入口/seo专员是什么意思

最近想往数据库里导一些数据&#xff0c;同事推荐了mock&#xff0c;了解一下觉得不错&#xff0c;现将在vue用的mock贴上来 写在前默认看此文的盆友都是有vue基础的哟~~ 一、导读 将mockjs的数据直接展示在vue页面上 mockjs官网链接 二、安装mockJS //安装mockJS npm in…...

企业网站客户案例/怎么去做推广

最近在看路由器和交换机的基本知识&#xff0c;发现有连个概念必须弄清楚&#xff0c;否则很容易迷失在错综复杂的网络之中。那就是网络接口和网络交换接口。 网络接口&#xff0c;指的是路由器或PC网卡的外联接口&#xff0c;该接口对内连接着一个具有MAC地址的网络芯片。这种…...

商城类网站价格/百度搜索引擎竞价排名

Azure是微软的云平台&#xff0c;不仅支持Windows服务器&#xff0c;也深爱着开源世界。通过与开源社区之间的合作&#xff0c; Azure支持了大量的开源软件和框架&#xff0c;涵盖了包括Linux 服务器&#xff0c;Docker, chef, MySQL, WordPress, redis等大部分主流互联网开源软…...

三亚疫情最新政策/关键词优化是怎么弄的

const iterator表示iterator是const的&#xff0c;即iterator本身不能改变或者说iterator指针不能改变&#xff0c;但是iterator所指向的内容可以改变。比如&#xff0c; const std::vector<int>::iterator iter vec.begin(); *iter 10;是对的&#xff0c;改变iter指…...

个人网站建设多少钱/找客户的十大方法

文件和正则表达式 摘要: 在本篇中&#xff0c;你将学习如何执行常用的文件处理任务&#xff0c;比如从文件中读取所有行或单词&#xff0c;或者读取包含数字的文件等。本篇的要点包括&#xff1a; 1. Source.fromFile(...).getLines.toArray输出文件的所有行 2. Source.fromFil…...

微信公众号网站建设/2345纯净版推广包

原文出处&#xff1a;https://wiki.ubuntu.com/IptablesHowTo 原文作者&#xff1a;UbuntuWiki 授权许可&#xff1a;创作共享协议 GNU FDL 翻译人员&#xff1a;denven 校对人员&#xff1a;5451vs5451 贡献者&#xff1a; 适用版本&#xff1a; 文章状态&#xff1a;翻译完成…...