Python中的正则表达式
大家好,今天我们将通过详细的解释和代码示例,探讨如何在Python中使用正则表达式。
介绍
正则表达式(regex)是一种用于操作文本和数据的强大工具,它们提供了一种简洁灵活的方式来“匹配”(指定和识别)文本字符串,例如特定的字符、单词或字符模式。正则表达式在各种编程语言中都有使用,但本文将重点介绍在Python中使用正则表达式。
Python具有清晰易读的语法,是学习和应用正则表达式的绝佳语言。Python的re模块提供了对正则表达式操作的支持,该模块包含了根据指定模式搜索、替换和拆分文本的函数。通过掌握Python中的正则表达式,可以高效地操作和分析文本数据。本文将从简单的字符匹配开始,然后探索更复杂的模式匹配、分组和前后查找断言。
基本正则表达式模式
正则表达式的核心原理是在字符串中进行模式匹配,这些模式的最简单形式是字面匹配,其中所寻找的模式是一个直接的字符序列,但是正则表达式的模式可以比简单的字面匹配更细致、更有能力。
在Python中,re模块提供了一套函数来处理正则表达式。例如,re.search()函数会扫描给定的字符串,寻找任何与正则表达式模式匹配的位置。下面通过一个例子来说明:
import re# 定义模式
pattern = "Python"# 定义文本
text = "I love Python!"# 搜索模式
match = re.search(pattern, text)print(match)
这段Python代码在变量text中搜索与变量pattern中定义的模式匹配的字符串。如果在文本中找到了匹配的模式,re.search()函数将返回一个Match对象,否则返回None。
Match对象包含有关匹配的信息,包括原始输入字符串、使用的正则表达式以及匹配的位置。例如,使用match.start()和match.end()将提供匹配在字符串中的起始和结束位置。
然而,通常不仅仅需要寻找精确的单词,还想要匹配模式,这就是特殊字符发挥作用的地方。例如,点(.)可以匹配除换行符之外的任何字符。实际效果如下所示:
# 定义模式
pattern = "P.th.n"# 定义文本
text = "I love Python and Pithon!"# 搜索模式
matches = re.findall(pattern, text)print(matches)
这段代码在字符串中搜索任何以“P”开头,以“n”结尾,并且中间包含“th”的五个字母单词。点代表任何字符,因此它匹配了"Python"和"Pithon"。正如上述所看到的,即使只使用字面字符和点,正则表达式也提供了强大的模式匹配工具。
接下来,本文将深入探讨更复杂的模式和正则表达式的强大功能。通过理解这些构建块,可以构建更复杂的模式,以匹配几乎任何文本处理和操作任务。
元字符
虽然字面字符构成了正则表达式的基础,但元字符通过提供灵活的模式定义来增强了它们的功能。元字符是具有独特含义的特殊符号,塑造了正则表达式引擎匹配模式的方式。以下是一些常用的元字符及其含义和用法:
-
. (点):点是通配符,可以匹配除换行符以外的任何字符。例如,模式“a.b”可以匹配“acb”、“a+b”、“a2b”等。
-
^ (脱字符):脱字符表示字符串的开始。“^a”可以匹配任何以“a”开头的字符串。
-
$ (美元符号):相反,美元符号对应字符串的结尾。“a$”可以匹配任何以“a”结尾的字符串。
-
*(星号):星号表示前面元素的零个或多个出现。例如,“a*”匹配“”、“a”、“aa”、“aaa”等。
-
+ (加号):类似于星号,加号表示前面元素的一个或多个出现。“a+”匹配“a”、“aa”、“aaa”等,但不匹配空字符串。
-
? (问号):问号表示前面元素的零个或一个出现。它使前面的元素变为可选元素。例如,“a?”匹配“”或“a”。
-
{}(大括号):大括号用于指定出现的次数。“{n}”代表恰好出现n次,“{n,}”表示n次或更多次,“{n,m}”表示出现次数在n和m之间。
-
[](方括号):方括号指定一个字符集,括号中的任何单个字符都可以匹配。例如,“[abc]”匹配“a”、“b”或“c”。
-
\(反斜杠):反斜杠用于转义特殊字符,有效地将特殊字符视为字面意义。“$”将匹配字符串中的美元符号,而不表示字符串的结尾。
-
|(竖线):竖线作为逻辑或操作符。匹配竖线前面的模式或后面的模式。例如,“a|b”匹配“a”或“b”。
-
()(括号):括号用于分组和捕获匹配结果。正则表达式引擎会将括号内的内容视为单个元素。
掌握了这些元字符,就能将文本处理任务的控制提升到一个更高的水平,从而可以创建更精确和灵活的模式。当学会将这些元素结合成复杂的表达式时,正则表达式的真正能力将变得明显,而后将探索其中的一些组合,以展示正则表达式的多功能性。
字符集
正则表达式中的字符集是一种功能强大的工具,允许指定要匹配的一组字符。通过将字符放在方括号“[]”中,可以创建一个字符集。例如,“[abc]”匹配“a”、“b”或“c”。
但是,字符集不仅仅用于指定单个字符,它们还提供了定义字符范围和特殊组的灵活性。下面来看一下:
字符范围:可以使用破折号(“-”)指定一系列字符。例如,“[a-z]”匹配任何小写字母字符。甚至可以在单个集合中定义多个范围,比如“[a-zA-Z0-9]”,它可以匹配任何字母数字字符。
特殊组:一些预定义的字符集表示常用的字符组。它们都是方便的简写形式:
-
\d:匹配任何十进制数字;相当于[0-9]
-
\D:匹配任何非数字字符;相当于[^0-9]
-
\w:匹配任何字母数字字符(字母、数字、下划线);相当于[a-zA-Z0-9_]
-
\W:匹配任何非单词字符;相当于[^a-zA-Z0-9_]
-
\s:匹配任何空白字符(空格、制表符、换行符)
-
\S:匹配任何非空白字符
否定字符集:通过在方括号内的第一个字符位置放置插入符号“^”,可以创建一个否定字符集,它可以匹配不在集合中的任何字符。例如,“[^abc]”匹配除了“a”、“b”或“c”之外的任何字符。
查看如下一些实例的操作:
import re# 创建电话号码模式
pattern = "\d{3}-\d{3}-\d{4}"# 定义文本
text = "My phone number is 123-456-7890."# 搜索模式
match = re.search(pattern, text)print(match)
这段代码在文本中搜索美国电话号码的模式,模式“\d{3}-\d{3}-\d{4}”匹配任意三个数字,然后跟一个连字符,再后跟任意三个数字,再后跟一个连字符,最后是任意四个数字,它成功地在文本中匹配到了 "123-456-7890"。
字符集和相关的特殊序列显著提高了模式匹配的能力,为指定要匹配的字符提供了一种灵活高效的方式。通过掌握这些元素,将能够充分发挥正则表达式的潜力。
一些常见模式
虽然正则表达式可能看起来较为复杂,但你会发现许多任务只需要简单的模式。以下是五个常见的模式:
- 电子邮件
使用正则表达式提取电子邮件是一项常见任务,以下模式可匹配大多数常见的电子邮件格式:
# 定义模式
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,7}\b'# 搜索模式
match = re.findall(pattern, text)print(match)
- 电话号码
电话号码的格式可能有所不同,但以下模式可以匹配北美电话号码:
# 定义模式
pattern = r'\b\d{3}[-.\s]?\d{3}[-.\s]?\d{4}\b'# 搜索模式
...
- IP地址
要匹配IP地址,需要使用四个由句号分隔的数字(0-255):
# 定义模式
pattern = r'\b(?:\d{1,3}\.){3}\d{1,3}\b'# 搜索模式
...
- 网页URL
网页URL采用一致的格式,可使用此模式匹配:
# 定义模式
pattern = r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'# 搜索模式
...
- HTML标签
可以使用以下模式匹配HTML标签。请注意,这不会捕获标签内的属性:
# 定义模式
pattern = r'<[^>]+>'# 搜索模式
...
提示与建议
以下是一些实用的提示和最佳实践,帮助有效地使用正则表达式。
-
从简单起步:从简单的模式开始,逐渐增加复杂性。试图一次尝试解决复杂问题可能会失败。
-
逐步测试:每次更改后,都要对正则表达式进行测试。这样可以更容易地定位和解决问题。
-
使用原始字符串:在Python中,使用原始字符串表示正则表达式模式(即
r"text")。这可以确保Python字面上解释字符串,避免与Python的转义序列冲突。 -
具体明确:正则表达式越具体,意外匹配到不需要的文本的可能性就越小。例如,使用
.+?而不是.*来匹配文本。 -
使用在线工具:在线正则表达式测试工具可以帮助构建和测试正则表达式。这些工具可以实时显示匹配结果、分组,并提供正则表达式的解释。一些常用的工具包括regex101和regextester。
-
可读性优于简洁性:尽管正则表达式可以编写非常紧凑的代码,但很快就会难以阅读。优先考虑可读性而不是简洁性。必要时使用空格和注释。
掌握正则表达式是一个过程,很大程度上是一种类似组装积木的练习,通过实践和坚持不懈,将能够处理任何文本操作任务。
总结
正则表达式(regex)确实是Python工具中的一项强大工具。乍一看,它的复杂性可能令人望而却步,但一旦深入了解其内部机制,用户将开始意识到其真正的潜力。它为处理、解析和操作文本数据提供了无与伦比的强大和多样性,成为数据科学、自然语言处理、网络抓取等众多领域中不可或缺的工具。
正则表达式的主要优势之一在于能够使用最少的代码在大量文本上执行复杂的模式匹配和提取操作。可以将其视为一种复杂的搜索引擎,它不仅可以定位精确的文本字符串,还可以匹配模式、范围和特定序列。这使得它能够从原始的非结构化文本数据中识别和提取关键信息,而这在信息检索、数据清洗和情感分析等任务中是常见的需求。
此外,正则表达式有其独特的语法和特殊字符,初始阶段可能看起来晦涩难懂,然而通过专注的学习和练习,很快就会欣赏到其逻辑结构和优雅之处。使用正则表达式处理文本数据所节省的效率和时间远远超过了最初的学习投入,因此,掌握正则表达式虽然具有挑战性,但它为任何数据科学家、程序员或者在工作中处理文本数据的人提供了无价的回报,是一项至关重要的技能。
相关文章:
Python中的正则表达式
大家好,今天我们将通过详细的解释和代码示例,探讨如何在Python中使用正则表达式。 介绍 正则表达式(regex)是一种用于操作文本和数据的强大工具,它们提供了一种简洁灵活的方式来“匹配”(指定和识别&…...
第六章,创作文章
6.1添加创作页面 <template><div class="blog-container"><div class="blog-pages"><div class="col-md-12 panel"><div class="panel-body"><h2 class="text-center">创作文章&l…...
Win10c盘满了怎么清理?快速清理,5个方法!
“快救救孩子吧!我的电脑是win10系统的,现在c盘满了,根本没法继续使用电脑了。怎么才能快速的释放内存呢?非常着急!感谢大家!” C盘是Windows系统中重要的分区,当其存储空间满了,可能…...
回归预测 | MATLAB实现GWO-BP灰狼算法优化BP神经网络多输入单输出回归预测(多指标,多图)
回归预测 | MATLAB实现GWO-BP灰狼算法优化BP神经网络多输入单输出回归预测(多指标,多图) 目录 回归预测 | MATLAB实现GWO-BP灰狼算法优化BP神经网络多输入单输出回归预测(多指标,多图)效果一览基本介绍程序…...
docker 06(docker compose)
一、服务编排 二、docker compose...
非阻塞重试与 Spring Kafka 的集成测试
如何为启用重试和死信发布的消费者的 Spring Kafka 实现编写集成测试。 Kafka 非阻塞重试 Kafka 中的非阻塞重试是通过为主主题配置重试主题来完成的。如果需要,还可以配置其他死信主题。如果所有重试均已用尽,事件将转发至 DLT。公共领域提供了大量资…...
基于 Debian 12 的MX Linux 23 正式发布!
导读MX Linux 是基于 Debian 稳定分支的面向桌面的 Linux 发行,它是 antiX 及早先的 MEPIS Linux 社区合作的产物。它采用 Xfce 作为默认桌面环境,是一份中量级操作系统,并被设计为优雅而高效的桌面与如下特性的结合:配置简单、高…...
Nginx代理功能与负载均衡详解
序言 Nginx的代理功能与负载均衡功能是最常被用到的,关于nginx的基本语法常识与配置已在上篇文章中有说明,这篇就开门见山,先描述一些关于代理功能的配置,再说明负载均衡详细。 Nginx代理服务的配置说明 1、上一篇中我们在http…...
部署问题集合(特辑)虚拟机常用命令
基础 查看ip:ip addr或ipconfig压缩:tar -zcvf redis-3.2.8.tar.gz redis-3.2.8/ 注意:-zcvf对应gz,-vcf对应tar 解压:tar -zxvf redis-3.2.8.tar.gz压缩zip:zip nginx.zip nginx.txt nginx2.txt解压zip&a…...
【Git】如何将本地文件进行Git仓库归档
Git 全局设置 git config --global user.name "mcihael" git config --global user.email "michael520.com"创建新版本库 git clone gitcode.xxxxxx.git cd branch-name touch README.md git add README.md git commit -m "add README" git pu…...
uniapp 使用腾讯视频 的 坑
1. 版本号的问题 注意 1.X.X不维护了 , 需要升级要 2.X.X 2. 官网的 组件事件 调用需要去掉bind 才能调用 官网地址:腾讯视频 | 小程序插件 | 微信公众平台...
LinkedList
LinkedList的模拟实现(底层是一个双向链表)LinkedList使用 LinkedList的模拟实现(底层是一个双向链表) 无头双向链表:有两个指针;一个指向前一个节点的地址;一个指向后一个节点的地址。 节点定…...
创作新纪元:知乎、阅文加码AI大模型,撬动创作者经济
输入几个关键词就能生成一篇文章、一篇新闻、一篇小说,ChatGPT自诞生以来文本生成能力一直备受赞誉,ChatGPT要替代记者、编辑、作家的言论愈演愈烈,甚至有一些互联网企业宣布砍掉记者、编辑、文案等岗位全面拥抱AIGC。 目前ChatGPT是否会全面…...
PAT(Advanced Level) Practice(with python)——1067 Sort with Swap(0, i)
Code # 输入有毒,需避坑 # N int(input()) L list(map(int,input().split())) N L[0] L L[1:] res 0 for i in range(1,N):while L[0]!0:# 把所有不在正常位置下的数换到正常t L[0]L[0],L[t] L[t],L[0]res1if L[i]!i:# 换完全后如果对应位置下的数不是目标…...
Python爬取斗罗大陆全集
打开网址http://www.luoxu.cc/dmplay/C888H-1-265.html F12打开Fetch/XHR,看到m3u8,ts,一眼顶真,打开index.m3u8 由第一个包含第二个index.m3u8的地址,ctrlf在源代码中一查index,果然有,不过/…...
前馈神经网络解密:深入理解人工智能的基石
目录 一、前馈神经网络概述什么是前馈神经网络前馈神经网络的工作原理应用场景及优缺点 二、前馈神经网络的基本结构输入层、隐藏层和输出层激活函数的选择与作用网络权重和偏置 三、前馈神经网络的训练方法损失函数与优化算法反向传播算法详解避免过拟合的策略 四、使用Python…...
顺序栈Sequential-stack
0、节点结构体定义 typedef struct SqStack{int *base;int *top; } SqStack; 1、初始化 bool InitStack(SqStack &S) {S.base new int[Maxsize]; //eg. #define Maxsize 100if(!S.base){return false;}S.top S.base;return true; } 2、入栈 bool Push(SqStack &…...
关于工牌(必须5-10个字)
今天蹲坑,低头看了下工牌觉得挺有意思:我从啥时候起也不排斥将工牌挂在脖子上了? 工牌,一个标识。不仅标识了你,也标识了你所在的群体。如果你认可这个群体,佩戴它那是一种荣誉、荣耀;如果你不…...
PHP混淆加密以及常用的一些加密工具
PHP混淆加密是一种将源代码转换为难以理解和阅读的方式,以保护代码的安全性。以下是一些常见的PHP混淆加密方法: 代码压缩:使用代码压缩工具(如UglifyJS)将PHP代码压缩为一行,去除空格、换行符等可读性的字…...
无涯教程-PHP - ereg()函数
ereg() - 语法 int ereg(string pattern, string originalstring, [array regs]); ereg()函数在string指定的字符串中搜索pattern指定的字符串,如果找到pattern,则返回true,否则返回false。搜索对于字母字符区分大小写。 可选的输入参数re…...
7.4.分块查找
一.分块查找的算法思想: 1.实例: 以上述图片的顺序表为例, 该顺序表的数据元素从整体来看是乱序的,但如果把这些数据元素分成一块一块的小区间, 第一个区间[0,1]索引上的数据元素都是小于等于10的, 第二…...
Java 语言特性(面试系列1)
一、面向对象编程 1. 封装(Encapsulation) 定义:将数据(属性)和操作数据的方法绑定在一起,通过访问控制符(private、protected、public)隐藏内部实现细节。示例: public …...
MongoDB学习和应用(高效的非关系型数据库)
一丶 MongoDB简介 对于社交类软件的功能,我们需要对它的功能特点进行分析: 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具: mysql:关系型数据库&am…...
多场景 OkHttpClient 管理器 - Android 网络通信解决方案
下面是一个完整的 Android 实现,展示如何创建和管理多个 OkHttpClient 实例,分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...
【网络安全产品大调研系列】2. 体验漏洞扫描
前言 2023 年漏洞扫描服务市场规模预计为 3.06(十亿美元)。漏洞扫描服务市场行业预计将从 2024 年的 3.48(十亿美元)增长到 2032 年的 9.54(十亿美元)。预测期内漏洞扫描服务市场 CAGR(增长率&…...
Java - Mysql数据类型对应
Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...
论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)
笔记整理:刘治强,浙江大学硕士生,研究方向为知识图谱表示学习,大语言模型 论文链接:http://arxiv.org/abs/2407.16127 发表会议:ISWC 2024 1. 动机 传统的知识图谱补全(KGC)模型通过…...
IP如何挑?2025年海外专线IP如何购买?
你花了时间和预算买了IP,结果IP质量不佳,项目效率低下不说,还可能带来莫名的网络问题,是不是太闹心了?尤其是在面对海外专线IP时,到底怎么才能买到适合自己的呢?所以,挑IP绝对是个技…...
C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...
NPOI Excel用OLE对象的形式插入文件附件以及插入图片
static void Main(string[] args) {XlsWithObjData();Console.WriteLine("输出完成"); }static void XlsWithObjData() {// 创建工作簿和单元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…...
