使用 Java 实现基于 DFA 算法的敏感词检测
使用 Java 实现基于 DFA 算法的敏感词检测
1. 引言
敏感词检测在内容审核、信息过滤等领域有着广泛的应用。本文将介绍如何使用 DFA(Deterministic Finite Automaton,确定有限状态自动机) 算法,在 Java 中实现高效的敏感词检测。
2. DFA 算法简介
DFA(确定有限状态自动机)是一种用于字符串匹配的高效算法。它的核心思想是将多个敏感词组织成一棵状态机,在匹配过程中避免重复扫描,提升检测速度。
DFA 的构建分为两个阶段:
- 构建状态机(即DFA树):将敏感词列表逐字构建成一个树形结构,每个字符对应一个节点,单词的结束位置标记为终止状态。
- 文本匹配:使用状态机遍历输入文本,遇到匹配字符时进入下一个状态,直到匹配完整的敏感词。
DFA 的优点在于匹配时的时间复杂度是 O(n),即文本长度的线性时间,适用于高性能需求的敏感词检测。
3. Java 实现 DFA 敏感词检测
3.1 定义 DFA 结构
import java.util.HashMap;
import java.util.Map;
import java.util.Set;public class SensitiveWordNode {private boolean isEnd;private Map<Character, SensitiveWordNode> children;public SensitiveWordNode() {this.isEnd = false;this.children = new HashMap<>();}public void addChild(Character c) {children.putIfAbsent(c, new SensitiveWordNode());}public SensitiveWordNode getChild(Character c) {return children.get(c);}public boolean isEnd() {return isEnd;}public void setEnd(boolean end) {isEnd = end;}
}
3.2 构建 DFA 敏感词树
public class SensitiveWordDFA {private SensitiveWordNode root;public SensitiveWordDFA(Set<String> sensitiveWords) {root = new SensitiveWordNode();for (String word : sensitiveWords) {insertWord(word);}}private void insertWord(String word) {SensitiveWordNode node = root;for (char c : word.toCharArray()) {node.addChild(c);node = node.getChild(c);}node.setEnd(true);}// 最小检测模式(检测到一个敏感词就返回)public boolean containsSensitiveWord(String text) {for (int i = 0; i < text.length(); i++) {SensitiveWordNode node = root;for (int j = i; j < text.length(); j++) {node = node.getChild(text.charAt(j));if (node == null) {break;}if (node.isEnd()) {return true;}}}return false;}// 最大检测模式(返回所有匹配的敏感词)public Set<String> findAllSensitiveWords(String text) {Set<String> result = new HashSet<>();for (int i = 0; i < text.length(); i++) {SensitiveWordNode node = root;StringBuilder wordBuffer = new StringBuilder();for (int j = i; j < text.length(); j++) {node = node.getChild(text.charAt(j));if (node == null) {break;}wordBuffer.append(text.charAt(j));if (node.isEnd()) {result.add(wordBuffer.toString());}}}return result;}
}
3.3 测试 DFA
import java.util.HashSet;
import java.util.Set;public class SensitiveWordTest {public static void main(String[] args) {Set<String> sensitiveWords = new HashSet<>();sensitiveWords.add("敏感");sensitiveWords.add("违规");SensitiveWordDFA dfa = new SensitiveWordDFA(sensitiveWords);String text1 = "这是一条包含敏感内容的文本";String text2 = "这是一条正常文本";System.out.println("文本1是否包含敏感词: " + dfa.containsSensitiveWord(text1));System.out.println("文本2是否包含敏感词: " + dfa.containsSensitiveWord(text2));String text3 = "这条信息涉及违规行为和敏感内容";System.out.println("文本3包含的敏感词: " + dfa.findAllSensitiveWords(text3));}
}
4. 优化方向
- 支持动态添加敏感词,避免重新构建 DFA。
- 增加敏感词替换功能,将匹配到的敏感词替换为
*
或其他符号。 - 使用 AC 自动机,进一步提高匹配效率。
5. 结论
本文介绍了 DFA(确定有限状态自动机) 的基本原理,并使用 Java 进行了敏感词检测的实现。DFA 具备 高效、可扩展 的特点,适用于大规模敏感词匹配场景。希望对你有所帮助!
阅读原文
原文连接
相关文章:
![](https://i-blog.csdnimg.cn/img_convert/bfe56d39342795e258bf381ba3480442.png)
使用 Java 实现基于 DFA 算法的敏感词检测
使用 Java 实现基于 DFA 算法的敏感词检测 1. 引言 敏感词检测在内容审核、信息过滤等领域有着广泛的应用。本文将介绍如何使用 DFA(Deterministic Finite Automaton,确定有限状态自动机) 算法,在 Java 中实现高效的敏感词检测。…...
![](https://i-blog.csdnimg.cn/direct/d30e35efb98348ff98fc34cbe219f6ad.png)
Jenkins-Pipeline简述
一. 什么是Jenkins pipeline: pipeline在jenkins中是一套插件,主要功能在于,将原本独立运行于单个或者多个节点的任务连接起来,实现单个任务难以完成的复杂发布流程。Pipeline的实现方式是一套Groovy DSL,任何发布流程…...
![](https://i-blog.csdnimg.cn/direct/80528b7265154d778f5f69280287c35c.png)
Linux操作命令之云计算基础命令
一、图形化界面/文本模式 ctrlaltF2-6 图形切换到文本 ctrlalt 鼠标跳出虚拟机 ctrlaltF1 文本切换到图形 shift ctrl "" 扩大 ctrl "-" 缩小 shift ctrl "n" 新终端 shift ctrl "t" 新标签 alt 1,…...
![](https://www.ngui.cc/images/no-images.jpg)
【postgres】sqlite格式如何导入postgres数据库
step1 在ubuntu系统安装pgloader(centos系统难以直接通过yum安装,如果源码安装的话,会比较费劲) step2,执行如下python脚本 from pathlib import Path import subprocess dataset_dir Path(/app/sqlite_to_pg/chas…...
![](https://i-blog.csdnimg.cn/direct/f3ed4679796642f3ab3111874b567d63.jpeg)
阀井可燃气体监测仪,开启地下管网安全新篇章-旭华智能
在城市的脉络中,地下管网犹如隐秘的动脉,支撑着现代生活的运转。而在这庞大网络的关键节点上,阀井扮演着不可或缺的角色。然而,由于其密闭性和复杂性,阀井内部一旦发生可燃气体泄漏,将对公共安全构成严重威…...
![](https://i-blog.csdnimg.cn/img_convert/32a11288726027fba7cf78cb6f9777ae.png)
《offer 来了:Java 面试核心知识点精讲 -- 原理篇》
在 Java 面试的战场上,只知皮毛可不行,面试官们越来越看重对原理的理解。今天就给大家分享一本能让你在面试中脱颖而出的 “武林秘籍”——《offer 来了:Java 面试核心知识点精讲 -- 原理篇》。 本书详细介绍了Java架构师在BAT和移动互联网公…...
![](https://i-blog.csdnimg.cn/direct/e25a3bc8579847409d0a1b4c923799ff.png)
搭建一个基于Spring Boot的数码分享网站
搭建一个基于Spring Boot的数码分享网站可以涵盖多个功能模块,例如用户管理、数码产品分享、评论、点赞、收藏、搜索等。以下是一个简化的步骤指南,帮助你快速搭建一个基础的数码分享平台。 — 1. 项目初始化 使用 Spring Initializr 生成一个Spring …...
![](https://i-blog.csdnimg.cn/direct/dbb1a1d951724f91b345a6d4c2f1716f.png)
K210视觉识别模块
K210视觉识别模块是一款功能强大的AI视觉模块,以下是对其的详细介绍: 一、核心特性 强大的视觉识别功能:K210视觉识别模块支持多种视觉功能,包括但不限于人脸识别、口罩识别、条形码和二维码识别、特征检测、数字识别、颜色识别…...
![](https://i-blog.csdnimg.cn/direct/c65cc762dd7247d787bc74bb0c38b2f2.png)
JAVA:在IDEA引入本地jar包的方法(不读取maven目录jar包)
问题: 有时maven使用的jar包版本是最新版,但项目需要的是旧版本,每次重新install会自动将mavan的jar包覆盖到项目的lib目录中,导致项目报错。 解决: 在IDEA中手动配置该jar包对应的目录。 点击菜单File->Projec…...
![](https://www.ngui.cc/images/no-images.jpg)
存在重复元素(217)
217. 存在重复元素 - 力扣(LeetCode) class Solution { public:bool containsDuplicate(vector<int>& nums) {//stl sortsort(nums.begin(), nums.end());for (int i 0; i < nums.size() - 1; i) {if (nums[i] nums[i1]) {return true;}…...
![](https://i-blog.csdnimg.cn/direct/dc172e76f1754a56b36c82ba295bfa48.png)
聊聊如何实现Android 放大镜效果
一、前言 很久没有更新Android 原生技术内容了,前些年一直在做跨端方向开发,最近换工作用重新回到原生技术,又回到了熟悉但有些生疏的环境,真是感慨万分。 近期也是因为准备做地图交互相关的需求,功能非常复杂&#x…...
![](https://www.ngui.cc/images/no-images.jpg)
linux 安装mysql5.6
下载mysql安装包 https://dev.mysql.com/downloads/mysql/5.6.html卸载系统自带的mariadb [rootgpap-prod-3 ~]# rpm -qa| grep mariadb mariadb-libs-5.5.68-1.el7.x86_64 [rootgpap-prod-3 ~]# rpm -e --nodeps mariadb-libs-5.5.68-1.el7.x86_64 warning: /etc/my.cnf sav…...
![](https://i-blog.csdnimg.cn/direct/bd862f8a909d4417a4a56fbe6b68bc28.png)
【Vue3 入门到实战】3. ref 和 reactive区别和适用场景
目录 编辑 1. ref 部分 1.1 ref定义基本数据类型 1.2 ref 定义引用数据类型 2. reactive 函数 3. ref 和 reactive 对比 3.1 原理 3.2 区别 3.3 使用原则 在 Vue 3 中 ref 和 reactive 是用于创建响应式数据的两个核心函数。它们都属于 Composition API 的一部分&…...
![](https://i-blog.csdnimg.cn/direct/36cc0f3eb97746c28999732dbbeb33d4.png)
edge浏览器恢复旧版滚动条
1、地址栏输入edge://flags 2、搜索Fluent scrollbars.,选择disabled,重启即可...
![](https://i-blog.csdnimg.cn/direct/f1a61a7ec8aa4418af62c4d6ddf25517.png)
Flink(十):DataStream API (七) 状态
1. 状态的定义 在 Apache Flink 中,状态(State) 是指在数据流处理过程中需要持久化和追踪的中间数据,它允许 Flink 在处理事件时保持上下文信息,从而支持复杂的流式计算任务,如聚合、窗口计算、联接等。状…...
![](https://www.ngui.cc/images/no-images.jpg)
AWTK fscript 中的 输入/出流 扩展函数
fscript 是 AWTK 内置的脚本引擎,开发者可以在 UI XML 文件中直接嵌入 fscript 脚本,提高开发效率。本文介绍一下 fscript 中的 iostream 扩展函数 1.iostream_get_istream 获取输入流对象。 原型 iostream_get_istream(iostream) > object示例 va…...
![](https://i-blog.csdnimg.cn/direct/5524447072d047d2bfacb7996512629c.png)
C# OpenCvSharp 部署3D人脸重建3DDFA-V3
目录 说明 效果 模型信息 landmark.onnx net_recon.onnx net_recon_mbnet.onnx retinaface_resnet50.onnx 项目 代码 下载 参考 C# OpenCvSharp 部署3D人脸重建3DDFA-V3 说明 地址:https://github.com/wang-zidu/3DDFA-V3 3DDFA_V3 uses the geometri…...
![](https://i-blog.csdnimg.cn/direct/f63cb309e0184e8fa67e76585026b987.png)
【人工智能】:搭建本地AI服务——Ollama、LobeChat和Go语言的全方位实践指南
前言 随着自然语言处理(NLP)技术的快速发展,越来越多的企业和个人开发者寻求在本地环境中运行大型语言模型(LLM),以确保数据隐私和提高响应速度。Ollama 作为一个强大的本地运行框架,支持多种先…...
![](https://i-blog.csdnimg.cn/img_convert/41735929955da19a19975fcea88a113d.png)
数据结构——堆(介绍,堆的基本操作、堆排序)
我是一个计算机专业研0的学生卡蒙Camel🐫🐫🐫(刚保研) 记录每天学习过程(主要学习Java、python、人工智能),总结知识点(内容来自:自我总结网上借鉴࿰…...
![](https://www.ngui.cc/images/no-images.jpg)
Excel中函数ABS( )的用法
Excel中函数ABS的用法 1. 函数详细讲解1.1 函数解释1.2 使用格式1.3 参数定义1.4 要点 2. 实用演示示例3. 注意事项4. 文档下载5. 其他文章6. 获取全部Excel练习素材快来试试吧🥰 函数练习素材👈点击即可进行下载操作操作注意只能下载不能在线操作 1. 函…...
![](https://i-blog.csdnimg.cn/direct/d6ab85a15c164b69a637f8ba4ac5bdac.png)
【数据分析】02- A/B 测试:玩转假设检验、t 检验与卡方检验
一、背景:当“审判”成为科学 1.1 虚拟场景——法庭审判 想象这样一个场景:有一天,你在王国里担任“首席审判官”。你面前站着一位嫌疑人,有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的,还是他是被冤枉的&…...
![](https://www.ngui.cc/images/no-images.jpg)
Windows下的C++内存泄漏检测工具Visual Leak Detector (VLD)介绍及使用
在软件开发过程中,内存管理是一个至关重要的环节。内存泄漏不仅会导致程序占用越来越多的内存资源,还可能引发系统性能下降甚至程序崩溃。对于Linux平台来说,内存检测工具非常丰富,GCC自带的AddressSanitizer (asan) 就是一个功能…...
![](https://i-blog.csdnimg.cn/direct/66fde09b413846e58cd5a3712aa914f7.png)
[苍穹外卖] 1-项目介绍及环境搭建
项目介绍 定位:专门为餐饮企业(餐厅、饭店)定制的一款软件产品 功能架构: 管理端 - 外卖商家使用 用户端 - 点餐用户使用 技术栈: 开发环境的搭建 整体结构: 前端环境 前端工程基于 nginx 运行 - Ngi…...
![](https://i-blog.csdnimg.cn/direct/0310758907dd493fa30f4df31a1ce179.png)
人物一致性训练测评数据集
1.Pulid 训练:由1.5M张从互联网收集的高质量人类图像组成,图像标题由blip2自动生成。 测试:从互联网上收集了一个多样化的肖像测试集,该数据集涵盖了多种肤色、年龄和性别,共计120张图像,我们称之为DivID-120,作为补充资源,还使用了最近开源的测试集Unsplash-50,包含…...
![](https://www.ngui.cc/images/no-images.jpg)
AI的出现,是否能替代IT从业者?
AI的出现,是否能替代IT从业者? AI在IT领域中的应用已成趋势,IT 从业者们站在这风暴之眼,面临着一个尖锐问题:AI 是否会成为 “职业终结者”?有人担忧 AI 将取代 IT 行业的大部分工作,也有人坚信…...
![](https://i-blog.csdnimg.cn/img_convert/018cdb0c95178327226cb1fb02dc031a.jpeg)
乘联会:1月汽车零售预计175万辆 环比暴跌33.6%
快科技1月18日消息,据乘联会的初步推算,2025年1月狭义乘用车零售总市场规模预计将达到约175万辆左右。与去年同期相比,这一数据呈现了-14.6%的同比下降态势;而相较于上个月,则出现了-33.6%的环比暴跌情况。 为了更清晰…...
![](https://i-blog.csdnimg.cn/direct/59da7f2e68d44dad9ca95f8daa7a7b82.png)
LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM) 教程(2)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145188660 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 Scalin…...
![](https://i-blog.csdnimg.cn/direct/c439a930598c49f294e1efa2c052ec98.png)
开发神器之cursor
文章目录 cursor简介主要特点 下载cursor页面的简单介绍切换大模型指定ai学习的文件指定特定的代码喂给ai创建项目框架文件 cursor简介 Cursor 是一款专为开发者设计的智能代码编辑器,集成了先进的 AI 技术,旨在提升编程效率。以下是其主要特点和功能&a…...
![](https://i-blog.csdnimg.cn/img_convert/f7fc865db51cc6983b1f5928dcef2132.png)
使用 Ansys Motor-CAD 的自适应模板加速创新
应对现代电机设计挑战 电机设计不断发展,Ansys 正在通过创新解决方案引领潮流,不断突破可能的界限。随着电动汽车、工业自动化和可再生能源系统的快速增长,对优化电机的需求从未如此之高。工程师面临着越来越大的压力,他们需要开发…...
![](https://i-blog.csdnimg.cn/img_convert/c91abab2131acce9d4faef540e29f671.png)
RabbitMQ前置概念
文章目录 1.AMQP协议是什么?2.rabbitmq端口介绍3.消息队列的作用和使用场景4.rabbitmq工作原理5.整体架构核心概念6.使用7.消费者消息推送限制(work模型)8.fanout交换机9.Direct交换机10.Topic交换机(推荐)11.声明队列…...
市场调研ppt/seo方案
图的遍历和树的遍历类似,我们希望从图中某一顶点出发访遍图中其余顶点,且使每一个顶点仅被访问一次,这一过程就叫做图的遍历(Traverse Graph)。 图的遍历方法一般有两种,第一种是深度优先遍历(Depth First …...
![](/images/no-images.jpg)
影视 网站建设 新媒体/网站优化检测
索引的使用,Insert into select语句引发的生产事故 转载:https://juejin.im/post/6844904086173646862 转载理由:实操性极强...
![](/images/no-images.jpg)
网站开发难吗2008/医院线上预约
找到了一个starteam的中文手册,不过不知道如何上传。 中文手册 转载于:https://www.cnblogs.com/huangkit/archive/2007/08/22/865084.html...
![](https://img-blog.csdnimg.cn/img_convert/3f2c6b67f5d53b2a59623b66b9856a8a.png)
福州网站制作培训/短视频搜索seo
华为作为国内目前最大的手机厂商,在今年的5G市场上,华为可以说是一马当先,不少的华为手机成为了手机用户的首选,不管是在高端旗舰,还是在中端机或者是千元机方面,华为都获得了不错的口碑,也收获…...
![](https://img-blog.csdnimg.cn/20210526154351106.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIxMjM3NTQ5,size_16,color_FFFFFF,t_70)
衡水做网站推广/商品标题优化
参考:https://www.jb51.net/article/165467.htm 新建一个PyQt demo,创建一个项目 如下图 如下图打开QtDesigner 打开Qt界面如下图 如图选择创建一个Main Window 如图可以根据需要添加自己的组件 如下图保存 如下图,使用PyUIC将hello.ui文件转换为…...
公司网站案例/营销策略ppt
本文参考:http://www.admin5.com/article/20171018/791822.shtml gif: 位图格式,支持透明背景图像。 适用场景:主要用来创造有趣的动画 jpeg: 位图格式,不支持透明背景图像。 适用场景:适合存储…...