当前位置: 首页 > news >正文

Apache Commons Text 指南:比 String 更强大的文本处理工具

Apache Commons Text 指南:比 String 更强大的文本处理工具

在 Java 开发中,String 类是处理文本的基础工具,但当面对复杂的文本处理需求时,其局限性就显而易见了。Apache Commons Text 提供了一个更加灵活强大的文本处理工具集,大幅简化了开发过程,减少了重复代码的编写。

什么是 Apache Commons Text?

Apache Commons Text 是 Apache Commons 项目的一部分,提供了多样化的字符串操作功能。这不仅包括简单的字符串替换和生成,还涵盖了更复杂的场景,如字符转义、字符串相似度计算等。在开发高效、健壮的 Java 应用时,这个库能大大减少你在文本处理方面的烦恼。

如何引入依赖

在你的 Maven 项目中加入 commons-text 依赖:

<dependency><groupId>org.apache.commons</groupId><artifactId>commons-text</artifactId><version>1.12.0</version>
</dependency>

然后运行 mvn clean install,确保项目正确加载依赖。

核心功能详解

Apache Commons Text 提供了很多 Java String 类没有的高级文本处理功能。接下来我们通过几个实际的开发场景来展示这些工具的强大。

1. 动态字符串替换

在某些场景下,需要根据上下文动态替换字符串中的占位符。StringSubstitutor 是处理这种需求的最佳工具:

import org.apache.commons.text.StringSubstitutor;import java.util.HashMap;
import java.util.Map;public class Example {public static void main(String[] args) {Map<String, String> valuesMap = new HashMap<>();valuesMap.put("name", "小明");valuesMap.put("date", "2024年10月");String templateString = "你好,${name}!您的账号将在${date}过期。";StringSubstitutor sub = new StringSubstitutor(valuesMap);String resolvedString = sub.replace(templateString);System.out.println(resolvedString);}
}

此工具允许你通过占位符的形式,将动态内容嵌入到固定文本中。

2. 字符转义与反转义

在处理 Web 应用时,经常会涉及到 HTML 和 XML 的字符转义。StringEscapeUtils 为此提供了一系列方法,避免手动处理繁琐的转义逻辑:

import org.apache.commons.text.StringEscapeUtils;public class EscapeExample {public static void main(String[] args) {String html = "<h1>欢迎来到我的网站</h1>";String escapedHtml = StringEscapeUtils.escapeHtml4(html);System.out.println("转义后的HTML: " + escapedHtml);}
}

在这个例子中,escapeHtml4() 自动将特殊字符转义为其对应的 HTML 实体。

3. 字符串相似度计算

在用户搜索、文本纠错等场景下,需要判断两个字符串的相似程度。LevenshteinDistance 是一个通过计算编辑距离(插入、删除、替换操作)来测量字符串差异的实用工具:

import org.apache.commons.text.similarity.LevenshteinDistance;public class SimilarityExample {public static void main(String[] args) {LevenshteinDistance distance = new LevenshteinDistance();String str1 = "kitten";String str2 = "sitting";int result = distance.apply(str1, str2);System.out.println("Levenshtein 距离: " + result);}
}

这种编辑距离计算在拼写检查或搜索优化中尤为常见。

4. 随机字符串生成

RandomStringGenerator 用于生成随机字符串,是创建密码、验证码等需求的理想选择:

import org.apache.commons.text.RandomStringGenerator;public class RandomStringExample {public static void main(String[] args) {RandomStringGenerator generator = new RandomStringGenerator.Builder().withinRange('a', 'z').build();String randomString = generator.generate(10);System.out.println("随机生成的字符串: " + randomString);}
}

你可以根据具体需求定制随机字符串的字符范围和长度。

5. Tokenizer:灵活的字符串拆分

虽然 Java 自带的 String.split() 已经能满足基本的字符串拆分需求,但 StringTokenizer 提供了更复杂的分割操作选项:

import org.apache.commons.text.StringTokenizer;public class TokenizerExample {public static void main(String[] args) {StringTokenizer tokenizer = new StringTokenizer("Java,Python,Go", ',');while (tokenizer.hasNext()) {System.out.println(tokenizer.next());}}
}

StringTokenizer 提供了分割操作中的更多灵活性,支持自定义分隔符和分割策略。

6. 处理大小写

在不同的项目中,处理字符串的大小写格式经常会成为常见需求。CaseUtils 通过简单的接口,允许你轻松转换字符串的命名风格:

import org.apache.commons.text.CaseUtils;public class CaseUtilsExample {public static void main(String[] args) {String input = "my_test_string";String camelCase = CaseUtils.toCamelCase(input, false, '_');System.out.println(camelCase);  // 输出 myTestString}
}

CaseUtils.toCamelCase() 能快速将下划线分隔的字符串转换为驼峰命名法。

7. TextStringBuilder:增强的 StringBuilder

TextStringBuilderStringBuilder 的增强版本,它提供了更强大的链式操作和格式化功能,尤其适合需要频繁修改、拼接的字符串场景:

import org.apache.commons.text.TextStringBuilder;public class TextStringBuilderExample {public static void main(String[] args) {TextStringBuilder builder = new TextStringBuilder();builder.append("Hello").appendNewLine().append("World");System.out.println(builder.toString());}
}

通过这种增强的 API,你可以轻松实现复杂的字符串操作。

8. 过滤字符

CharacterPredicates 结合 RandomStringGenerator,允许你根据字符类型过滤生成的随机字符串,确保字符串仅包含特定类型的字符:

import org.apache.commons.text.CharacterPredicates;
import org.apache.commons.text.RandomStringGenerator;public class PredicateExample {public static void main(String[] args) {RandomStringGenerator generator = new RandomStringGenerator.Builder().withinRange('0', 'z').filteredBy(CharacterPredicates.LETTERS, CharacterPredicates.DIGITS).build();String randomString = generator.generate(10);System.out.println(randomString);}
}

这个例子展示了如何生成仅包含字母和数字的随机字符串。

结论

Apache Commons Text 不仅弥补了 Java 原生 String 类的局限性,还提供了丰富的文本处理工具,从简单的字符串替换到复杂的相似度计算和字符过滤。这些功能可以大幅提高开发效率,使代码更简洁易读。

扩展阅读:

  • Apache Commons Text 官方文档
  • Levenshtein 距离计算原理

相关文章:

Apache Commons Text 指南:比 String 更强大的文本处理工具

Apache Commons Text 指南&#xff1a;比 String 更强大的文本处理工具 在 Java 开发中&#xff0c;String 类是处理文本的基础工具&#xff0c;但当面对复杂的文本处理需求时&#xff0c;其局限性就显而易见了。Apache Commons Text 提供了一个更加灵活强大的文本处理工具集&…...

C++面向对象编程学习

C面向对象编程学习 前言一、C面向对象编程二、知识点学习1. 定义一个类1.1 使用struct定义1.2 使用class定义1.3 struct和class的区别 2. 类的定义方式2.1 单文件定义&#xff08;Inline Definition&#xff09;2.2 分离定义&#xff08;Separate Definition&#xff09;2.3 头…...

云轴科技ZStack亮相迪拜GITEX大会,与阿里云再次携手深化海外合作

10月14至18日&#xff0c;全球顶尖科技盛会GITEX GLOBAL 2024在迪拜拉开帷幕&#xff0c;云轴科技ZStack携全系云计算解决方案与全新AIOS智塔平台参展&#xff0c;向全球观众展示智算时代下的新一代智算化算力平台。 GITEX GLOBAL 2024是当今世界上最具前瞻性兼包容性的大型科技…...

SQL Server 当前日期及其未来三天的日期

当前日期及其未来三天的日期&#xff0c;并分别以 YYYY-MM-DD 和 yyyyMMdd 的格式展示 1、当前日期及其未来三天的日期&#xff0c;以 YYYY-MM-DD的格式展示 WITH CurrentDate AS (SELECT GETDATE() AS 当前日期 ) -- 使用 CONVERT 函数 SELECTCONVERT(VARCHAR(10), 当前日期,…...

QUIC(Quick UDP Internet Connections)与 RTMP(Real Time Messaging Protocol)

QUIC&#xff08;Quick UDP Internet Connections&#xff09;和 RTMP&#xff08;Real Time Messaging Protocol&#xff09;是两种不同的网络传输协议&#xff0c;它们在一些方面有不同的特点和应用场景。 QUIC 协议 特点 基于 UDP&#xff1a;QUIC 建立在 UDP 之上&#xff…...

双十一送你一份购物攻略,绿联NAS DXP2800评测

一年一度双十一&#xff0c;今年双十一来得特别早&#xff0c;所以最近已经看到不少人在讨论双十一买了啥&#xff0c;NAS的讨论度也挺高的。正好&#xff0c;是我比较懂的领域。作为一位资深的数码爱好者&#xff0c;同时也是绿联DH2600DXP2800双持用户&#xff0c;可以说我是…...

基于vue框架的的高校设备信息管理系统的设计与实现tx6d7(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;设备管理员,设备维护员,设备类别,设备,设备入库,设备分发,设备调拨,定期维护,维护任务,设备运行记录 开题报告内容 基于Vue框架的高校设备信息管理系统的设计与实现开题报告 一、项目背景及意义 随着高校教育事业的蓬勃发展&#xff…...

springboot3.x使用@NacosValue无法获取配置信息问题解决

一、问题描述 springboot从2.x升级到3.x后&#xff0c;nacos的依赖包需要改成Spring Cloud的依赖包才能继续使用。升级好以后&#xff0c;首先&#xff0c;确定我的项目是能够连上nacos并且加载到配置信息的&#xff0c;因为数据库等信息都是从nacos加载过来&#xff0c;能够正…...

sql获取时间差

MySQL SELECT TIMESTAMPDIFF(HOUR, 2023-10-01 12:00:00, 2023-10-02 15:30:00) AS hours_difference; PostgreSQL //EXTRACT(EPOCH FROM (2023-10-02 15:30:00::timestamp - 2023-10-01 12:00:00::timestamp)) // 获取的是两个时间相差的秒数&#xff0c;在此基础上除3600获…...

【深入理解Python中的闭包】如何有效使用嵌套函数和状态捕获!

深入理解Python中的闭包&#xff1a;如何有效使用嵌套函数和状态捕获 Python 作为一种动态的编程语言&#xff0c;允许我们用多种方式来设计和构建功能&#xff0c;其中之一就是 闭包&#xff08;Closure&#xff09;。闭包是一种强大的特性&#xff0c;可以帮助我们捕获和保持…...

npm配置阿里镜像库教程

为了配置npm使用阿里镜像库&#xff0c;可以按照以下步骤进行操作。这些步骤将帮助你加快包的下载速度&#xff0c;特别是在中国地区&#xff0c;因为阿里镜像库通常比官方npm仓库响应更快。 1. 配置全局镜像 可以通过运行以下命令来将npm的全局镜像配置为阿里镜像&#xff1…...

Apache JMeter压力测试工具使用

JMeter是Apache组织开发的基于Java的压力测试工具&#xff0c;用于对软件做压力测试。 01 软件下载 下载地址: https://jmeter.apache.org/download_jmeter.cgi 最新版本5.6.2 用浏览器下载发现慢得很&#xff0c;用迅雷下载非常快哟。 02 测试使用 在使用前需要先安装jd…...

前端零基础入门到上班:【Day4】HTML 多媒体与表单深度教程

HTML 多媒体与表单深度教程 **1. HTML 多媒体基础&#xff1a;深入理解 <video> 和 <audio> 标签****1.1 <video> 标签&#xff1a;详细剖析与用法****1.1.1 基础结构与属性详解****1.1.2 视频格式的兼容性与示例****1.1.3 视频控制的实际应用** **1.2 <a…...

原创作品——银行软件产品界面设计

蓝蓝设计团队服务金融类应用界面设计&#xff0c;以沉稳的色调和简洁的线条营造出专业可靠的氛围。特点在于融入了创新的元素增添界面的活力与现代感。细节处理上&#xff0c;注意数据的视觉呈现效果&#xff0c;采用定制化的图表和清晰的排版&#xff0c;确保用户能够快速理解…...

若依RuoYi-Vue 定时任务 速学

1.若依定时任务模块&#xff08;ruoyi-quartz&#xff09; 那么从一个简单的入门示例开始&#xff0c;掌握定时任务的使用吧&#xff01; 2. 入门示例&#xff08;学会制作一个简单定时任务&#xff09; 首先打开定时任务模块中的task包&#xff0c;这里已经有一个已经写好的R…...

【pytest学习】pytest.main()

基本用法## pytest.main()函数是用于启动测试运行的入口点。它可以在命令行中直接使用&#xff0c;也可以在脚本中以编程方式调用。 以下是一个简单的示例&#xff1a; import pytest if __name__"__main__":pytest.main()执行当前目录下的所有测试文件 使用pytes…...

设计模式: Pimpl(Pointer to Implementation)

这种设计模式通常被称为 Pimpl&#xff08;Pointer to Implementation&#xff09;惯用法&#xff0c;有时也被称为 Cheshire Cat 惯用法。它主要用于隐藏实现细节和减少编译依赖。 例子&#xff1a; DatabaseConnection.h #ifndef DATABASE_CONNECTION_H #define DATABASE_…...

android开发中文网站 android developer

Android 平台 | Platform | Android Developers 在此做个记录...

实习冲刺Day1

算法题 20. 有效的括号 - 力扣&#xff08;LeetCode&#xff09; 这个题我们采用stack栈的方式来进行相应的括号匹配 情况有以下几种 当字符串s中只有一个字符的时候&#xff0c;那这个时候字符串一定是不匹配的所以直接返回false当字符串为发生标准匹配的时候&#xff0c;…...

安全见闻(5)——开阔眼界,不做井底之蛙

安全见闻五&#xff1a;人工智能 内容预览 ≧∀≦ゞ 安全见闻五&#xff1a;人工智能声明导语一、人工智能基础机器学习基础机器学习的典型工作流程1. 数据收集2. 数据预处理3. 模型选择与训练4. 模型评估与优化5. 模型应用 深度学习基础深度学习基本原理1. 神经网络基础2. 多层…...

Navicat 安装

Navicat 安装步骤...

解读 Java 经典巨著《Effective Java》90条编程法则,第2条:遇到多个构造器参数时要考虑使用构建器

《Effective Java》是由 Joshua Bloch 撰写的经典书籍&#xff0c;提供了 Java 编程中的最佳实践和建议。在书中的第2条建议“遇到多个构造器参数时要考虑使用构建器”&#xff0c;主要是为了处理构造器参数过多时的设计问题。这条建议的主要目的是简化构造器的使用&#xff0c…...

拉丁美洲有望成为全球电商的新蓝海!

拉美市场&#xff0c;被行业普遍认为“可能是中国跨境电商的最后一个蓝海市场”。越来越多的中国跨境电商卖家开始关注拉美市场&#xff0c;并且持续为拉美消费者提供更为优质的“中国制造”。 为什么大家会这么认为呢&#xff1f;原因可能有以下几个方面&#xff1a; 第一、拉…...

VScode远程开发之remote 远程开发(二)

VScode远程开发之remote 远程开发&#xff08;二&#xff09; 使用vscode进行远程开发很简单&#xff0c;在拓展里搜索 Remote Development&#xff0c;就可以搜索到微软提供的远程开发大礼包&#xff0c;里面包含了 通过 SSH 远程服务器 远程容器 远程 WSL&#xff08;Win…...

基于Python+SQL Server2008实现(GUI)快递管理系统

快递业务管理系统的设计与实现 摘要: 着网络新零售的到来&#xff0c;传统物流在网购的洗礼下迅速蜕变&#xff0c;在这场以互联网为基础的时代变革中&#xff0c;哪家企业能率先转变其工作模式就能最先分得一杯羹&#xff0c;物流管理也不例外。传统的物流管理模式效率低下&a…...

png格式图片怎么改成jpg?超好用的8种转换方法介绍!

png格式图片怎么改成jpg&#xff1f;PNG作为一种普遍存在的图片格式&#xff0c;在我们的日常生活中无处不在&#xff0c;从社交媒体分享到工作文档插图&#xff0c;都少不了它的身影&#xff0c;PNG格式的确拥有诸多优点&#xff0c;如无损压缩保留图像的所有细节与高质量&…...

Idea基于JRbel实现项目热部署修改Java、Xml文件无需重启项目

Idea基于JRbel实现项目热部署修改Java、Xml文件无需重启项目 1.JRbel服务安装2.JRbel插件安装3.JRbel配置 1.JRbel服务安装 直接装插件的话&#xff0c;需要用到一个服务地址&#xff0c;服务下载链接&#xff1a;&#xff08;现在没时间搞&#xff0c;会尽快加上&#xff09;…...

【如何获取股票数据17】Python、Java等多种主流语言实例演示获取股票行情api接口之沪深A股近年增发数据获取实例演示及接口API说明文档

最近一两年内&#xff0c;股票量化分析逐渐成为热门话题。而从事这一领域工作的第一步&#xff0c;就是获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息&#xff0c;这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的主要任…...

导出BERT句子模型为ONNX并推理

在深度学习中&#xff0c;将模型导出为ONNX&#xff08;Open Neural Network Exchange&#xff09;格式并利用ONNX进行推理是提高推理速度和模型兼容性的一种常见做法。本文将介绍如何将BERT句子模型导出为ONNX格式&#xff0c;并使用ONNX Runtime进行推理&#xff0c;具体以中…...

Unity Apple Vision Pro 自定义手势识别交互

Vision Pro 是可以使用Unity 提供的XR Hand SDK,可通过XR Hand制作自定义手势识别&#xff0c;通过识别出不同的手势做自定义交互 效果预览 在VisionPro中看VisionPro|手势交互|自定义手势识别 Unity Vision Pro 中文课堂教程地址&#xff1a; Unity3D Vision Pro 开发教程【…...

快云助手网站建设视频/有别人的交易链接怎么交易

看了一些所谓大公司的JAVA面试问题&#xff0c;发现对于JAVA集合类的使用都比较看重似的&#xff0c;而自己在这方面还真的是所真甚少&#xff0c;抽空也学习学习吧。 java.util包中包含了一系列重要的集合类&#xff0c;而对于集合类&#xff0c;主要需要掌握的就是它的内部结…...

深圳求做网站/品牌运营

1. 使用原生input的标签,type为file <template><form><inputrefupload_sheetplaceholder"请输入内容"type"file"accept"*"id"sheet_form"click"resetValue"change"temUpload($event)"/></f…...

网站禁止访问/怎么关键词优化网站

环境准备&#xff1a; 云主机&#xff08;香港节点&#xff09;&#xff08;CentOS7.4&#xff09;系统&#xff1a;CentOS7网卡名:eth0客户端&#xff08;win7&#xff09;&#xff08;红米安卓手机&#xff09;#由于pptpd需要iptables的支持&#xff0c;而centos7以后不再内置…...

web前端开发培训学校/seo专员是什么职位

Resbird不仅可进行API接口设计开发、测试&#xff0c;还可以执行API的录制和回放、服务器模拟等。整个过程无需一行代码&#xff0c;当然你可以通过RestbBird提供的编程能力&#xff0c;处理各种高级复杂的任务。本文以录制和回放百度搜索API为例&#xff0c;介绍Resbird API接…...

wordpress注册用户邮件验证/关键词搜索量怎么查

...

wordpress页面/营销管理培训课程培训班

1.在item级加触发器&#xff1a;key-listval&#xff1a;calendar.show; 2.修改该item属性&#xff1a; list of values &#xff1a;选择&#xff1a;enable_list_lamp&#xff1b; list y position: 设置为2.&#xff08;随意&#xff09; 是否从list验证&#xff1a;设置为n…...