Python中的正则表达式
大家好,今天我们将通过详细的解释和代码示例,探讨如何在Python中使用正则表达式。
介绍
正则表达式(regex)是一种用于操作文本和数据的强大工具,它们提供了一种简洁灵活的方式来“匹配”(指定和识别)文本字符串,例如特定的字符、单词或字符模式。正则表达式在各种编程语言中都有使用,但本文将重点介绍在Python中使用正则表达式。
Python具有清晰易读的语法,是学习和应用正则表达式的绝佳语言。Python的re
模块提供了对正则表达式操作的支持,该模块包含了根据指定模式搜索、替换和拆分文本的函数。通过掌握Python中的正则表达式,可以高效地操作和分析文本数据。本文将从简单的字符匹配开始,然后探索更复杂的模式匹配、分组和前后查找断言。
基本正则表达式模式
正则表达式的核心原理是在字符串中进行模式匹配,这些模式的最简单形式是字面匹配,其中所寻找的模式是一个直接的字符序列,但是正则表达式的模式可以比简单的字面匹配更细致、更有能力。
在Python中,re
模块提供了一套函数来处理正则表达式。例如,re.search()
函数会扫描给定的字符串,寻找任何与正则表达式模式匹配的位置。下面通过一个例子来说明:
import re# 定义模式
pattern = "Python"# 定义文本
text = "I love Python!"# 搜索模式
match = re.search(pattern, text)print(match)
这段Python代码在变量text
中搜索与变量pattern
中定义的模式匹配的字符串。如果在文本中找到了匹配的模式,re.search()
函数将返回一个Match
对象,否则返回None
。
Match
对象包含有关匹配的信息,包括原始输入字符串、使用的正则表达式以及匹配的位置。例如,使用match.start()
和match.end()
将提供匹配在字符串中的起始和结束位置。
然而,通常不仅仅需要寻找精确的单词,还想要匹配模式,这就是特殊字符发挥作用的地方。例如,点(.)
可以匹配除换行符之外的任何字符。实际效果如下所示:
# 定义模式
pattern = "P.th.n"# 定义文本
text = "I love Python and Pithon!"# 搜索模式
matches = re.findall(pattern, text)print(matches)
这段代码在字符串中搜索任何以“P
”开头,以“n
”结尾,并且中间包含“th
”的五个字母单词。点代表任何字符,因此它匹配了"Python"和"Pithon"。正如上述所看到的,即使只使用字面字符和点,正则表达式也提供了强大的模式匹配工具。
接下来,本文将深入探讨更复杂的模式和正则表达式的强大功能。通过理解这些构建块,可以构建更复杂的模式,以匹配几乎任何文本处理和操作任务。
元字符
虽然字面字符构成了正则表达式的基础,但元字符通过提供灵活的模式定义来增强了它们的功能。元字符是具有独特含义的特殊符号,塑造了正则表达式引擎匹配模式的方式。以下是一些常用的元字符及其含义和用法:
-
. (点):点是通配符,可以匹配除换行符以外的任何字符。例如,模式“a.b”可以匹配“acb”、“a+b”、“a2b”等。
-
^ (脱字符):脱字符表示字符串的开始。“^a”可以匹配任何以“a”开头的字符串。
-
$ (美元符号):相反,美元符号对应字符串的结尾。“a$”可以匹配任何以“a”结尾的字符串。
-
*(星号):星号表示前面元素的零个或多个出现。例如,“a*”匹配“”、“a”、“aa”、“aaa”等。
-
+ (加号):类似于星号,加号表示前面元素的一个或多个出现。“a+”匹配“a”、“aa”、“aaa”等,但不匹配空字符串。
-
? (问号):问号表示前面元素的零个或一个出现。它使前面的元素变为可选元素。例如,“a?”匹配“”或“a”。
-
{}(大括号):大括号用于指定出现的次数。“{n}”代表恰好出现n次,“{n,}”表示n次或更多次,“{n,m}”表示出现次数在n和m之间。
-
[](方括号):方括号指定一个字符集,括号中的任何单个字符都可以匹配。例如,“[abc]”匹配“a”、“b”或“c”。
-
\(反斜杠):反斜杠用于转义特殊字符,有效地将特殊字符视为字面意义。“$”将匹配字符串中的美元符号,而不表示字符串的结尾。
-
|(竖线):竖线作为逻辑或操作符。匹配竖线前面的模式或后面的模式。例如,“a|b”匹配“a”或“b”。
-
()(括号):括号用于分组和捕获匹配结果。正则表达式引擎会将括号内的内容视为单个元素。
掌握了这些元字符,就能将文本处理任务的控制提升到一个更高的水平,从而可以创建更精确和灵活的模式。当学会将这些元素结合成复杂的表达式时,正则表达式的真正能力将变得明显,而后将探索其中的一些组合,以展示正则表达式的多功能性。
字符集
正则表达式中的字符集是一种功能强大的工具,允许指定要匹配的一组字符。通过将字符放在方括号“[]”中,可以创建一个字符集。例如,“[abc]”匹配“a”、“b”或“c”。
但是,字符集不仅仅用于指定单个字符,它们还提供了定义字符范围和特殊组的灵活性。下面来看一下:
字符范围:可以使用破折号(“-”)指定一系列字符。例如,“[a-z]”匹配任何小写字母字符。甚至可以在单个集合中定义多个范围,比如“[a-zA-Z0-9]”,它可以匹配任何字母数字字符。
特殊组:一些预定义的字符集表示常用的字符组。它们都是方便的简写形式:
-
\d:匹配任何十进制数字;相当于[0-9]
-
\D:匹配任何非数字字符;相当于[^0-9]
-
\w:匹配任何字母数字字符(字母、数字、下划线);相当于[a-zA-Z0-9_]
-
\W:匹配任何非单词字符;相当于[^a-zA-Z0-9_]
-
\s:匹配任何空白字符(空格、制表符、换行符)
-
\S:匹配任何非空白字符
否定字符集:通过在方括号内的第一个字符位置放置插入符号“^”,可以创建一个否定字符集,它可以匹配不在集合中的任何字符。例如,“[^abc]”匹配除了“a”、“b”或“c”之外的任何字符。
查看如下一些实例的操作:
import re# 创建电话号码模式
pattern = "\d{3}-\d{3}-\d{4}"# 定义文本
text = "My phone number is 123-456-7890."# 搜索模式
match = re.search(pattern, text)print(match)
这段代码在文本中搜索美国电话号码的模式,模式“\d{3}-\d{3}-\d{4}”匹配任意三个数字,然后跟一个连字符,再后跟任意三个数字,再后跟一个连字符,最后是任意四个数字,它成功地在文本中匹配到了 "123-456-7890"。
字符集和相关的特殊序列显著提高了模式匹配的能力,为指定要匹配的字符提供了一种灵活高效的方式。通过掌握这些元素,将能够充分发挥正则表达式的潜力。
一些常见模式
虽然正则表达式可能看起来较为复杂,但你会发现许多任务只需要简单的模式。以下是五个常见的模式:
- 电子邮件
使用正则表达式提取电子邮件是一项常见任务,以下模式可匹配大多数常见的电子邮件格式:
# 定义模式
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,7}\b'# 搜索模式
match = re.findall(pattern, text)print(match)
- 电话号码
电话号码的格式可能有所不同,但以下模式可以匹配北美电话号码:
# 定义模式
pattern = r'\b\d{3}[-.\s]?\d{3}[-.\s]?\d{4}\b'# 搜索模式
...
- IP地址
要匹配IP地址,需要使用四个由句号分隔的数字(0-255):
# 定义模式
pattern = r'\b(?:\d{1,3}\.){3}\d{1,3}\b'# 搜索模式
...
- 网页URL
网页URL采用一致的格式,可使用此模式匹配:
# 定义模式
pattern = r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'# 搜索模式
...
- HTML标签
可以使用以下模式匹配HTML标签。请注意,这不会捕获标签内的属性:
# 定义模式
pattern = r'<[^>]+>'# 搜索模式
...
提示与建议
以下是一些实用的提示和最佳实践,帮助有效地使用正则表达式。
-
从简单起步:从简单的模式开始,逐渐增加复杂性。试图一次尝试解决复杂问题可能会失败。
-
逐步测试:每次更改后,都要对正则表达式进行测试。这样可以更容易地定位和解决问题。
-
使用原始字符串:在Python中,使用原始字符串表示正则表达式模式(即
r"text"
)。这可以确保Python字面上解释字符串,避免与Python的转义序列冲突。 -
具体明确:正则表达式越具体,意外匹配到不需要的文本的可能性就越小。例如,使用
.+?
而不是.*
来匹配文本。 -
使用在线工具:在线正则表达式测试工具可以帮助构建和测试正则表达式。这些工具可以实时显示匹配结果、分组,并提供正则表达式的解释。一些常用的工具包括regex101和regextester。
-
可读性优于简洁性:尽管正则表达式可以编写非常紧凑的代码,但很快就会难以阅读。优先考虑可读性而不是简洁性。必要时使用空格和注释。
掌握正则表达式是一个过程,很大程度上是一种类似组装积木的练习,通过实践和坚持不懈,将能够处理任何文本操作任务。
总结
正则表达式(regex)确实是Python工具中的一项强大工具。乍一看,它的复杂性可能令人望而却步,但一旦深入了解其内部机制,用户将开始意识到其真正的潜力。它为处理、解析和操作文本数据提供了无与伦比的强大和多样性,成为数据科学、自然语言处理、网络抓取等众多领域中不可或缺的工具。
正则表达式的主要优势之一在于能够使用最少的代码在大量文本上执行复杂的模式匹配和提取操作。可以将其视为一种复杂的搜索引擎,它不仅可以定位精确的文本字符串,还可以匹配模式、范围和特定序列。这使得它能够从原始的非结构化文本数据中识别和提取关键信息,而这在信息检索、数据清洗和情感分析等任务中是常见的需求。
此外,正则表达式有其独特的语法和特殊字符,初始阶段可能看起来晦涩难懂,然而通过专注的学习和练习,很快就会欣赏到其逻辑结构和优雅之处。使用正则表达式处理文本数据所节省的效率和时间远远超过了最初的学习投入,因此,掌握正则表达式虽然具有挑战性,但它为任何数据科学家、程序员或者在工作中处理文本数据的人提供了无价的回报,是一项至关重要的技能。
相关文章:
Python中的正则表达式
大家好,今天我们将通过详细的解释和代码示例,探讨如何在Python中使用正则表达式。 介绍 正则表达式(regex)是一种用于操作文本和数据的强大工具,它们提供了一种简洁灵活的方式来“匹配”(指定和识别&…...
第六章,创作文章
6.1添加创作页面 <template><div class="blog-container"><div class="blog-pages"><div class="col-md-12 panel"><div class="panel-body"><h2 class="text-center">创作文章&l…...
Win10c盘满了怎么清理?快速清理,5个方法!
“快救救孩子吧!我的电脑是win10系统的,现在c盘满了,根本没法继续使用电脑了。怎么才能快速的释放内存呢?非常着急!感谢大家!” C盘是Windows系统中重要的分区,当其存储空间满了,可能…...
回归预测 | MATLAB实现GWO-BP灰狼算法优化BP神经网络多输入单输出回归预测(多指标,多图)
回归预测 | MATLAB实现GWO-BP灰狼算法优化BP神经网络多输入单输出回归预测(多指标,多图) 目录 回归预测 | MATLAB实现GWO-BP灰狼算法优化BP神经网络多输入单输出回归预测(多指标,多图)效果一览基本介绍程序…...
docker 06(docker compose)
一、服务编排 二、docker compose...
非阻塞重试与 Spring Kafka 的集成测试
如何为启用重试和死信发布的消费者的 Spring Kafka 实现编写集成测试。 Kafka 非阻塞重试 Kafka 中的非阻塞重试是通过为主主题配置重试主题来完成的。如果需要,还可以配置其他死信主题。如果所有重试均已用尽,事件将转发至 DLT。公共领域提供了大量资…...
基于 Debian 12 的MX Linux 23 正式发布!
导读MX Linux 是基于 Debian 稳定分支的面向桌面的 Linux 发行,它是 antiX 及早先的 MEPIS Linux 社区合作的产物。它采用 Xfce 作为默认桌面环境,是一份中量级操作系统,并被设计为优雅而高效的桌面与如下特性的结合:配置简单、高…...
Nginx代理功能与负载均衡详解
序言 Nginx的代理功能与负载均衡功能是最常被用到的,关于nginx的基本语法常识与配置已在上篇文章中有说明,这篇就开门见山,先描述一些关于代理功能的配置,再说明负载均衡详细。 Nginx代理服务的配置说明 1、上一篇中我们在http…...
部署问题集合(特辑)虚拟机常用命令
基础 查看ip:ip addr或ipconfig压缩:tar -zcvf redis-3.2.8.tar.gz redis-3.2.8/ 注意:-zcvf对应gz,-vcf对应tar 解压:tar -zxvf redis-3.2.8.tar.gz压缩zip:zip nginx.zip nginx.txt nginx2.txt解压zip&a…...
【Git】如何将本地文件进行Git仓库归档
Git 全局设置 git config --global user.name "mcihael" git config --global user.email "michael520.com"创建新版本库 git clone gitcode.xxxxxx.git cd branch-name touch README.md git add README.md git commit -m "add README" git pu…...
uniapp 使用腾讯视频 的 坑
1. 版本号的问题 注意 1.X.X不维护了 , 需要升级要 2.X.X 2. 官网的 组件事件 调用需要去掉bind 才能调用 官网地址:腾讯视频 | 小程序插件 | 微信公众平台...
LinkedList
LinkedList的模拟实现(底层是一个双向链表)LinkedList使用 LinkedList的模拟实现(底层是一个双向链表) 无头双向链表:有两个指针;一个指向前一个节点的地址;一个指向后一个节点的地址。 节点定…...
创作新纪元:知乎、阅文加码AI大模型,撬动创作者经济
输入几个关键词就能生成一篇文章、一篇新闻、一篇小说,ChatGPT自诞生以来文本生成能力一直备受赞誉,ChatGPT要替代记者、编辑、作家的言论愈演愈烈,甚至有一些互联网企业宣布砍掉记者、编辑、文案等岗位全面拥抱AIGC。 目前ChatGPT是否会全面…...
PAT(Advanced Level) Practice(with python)——1067 Sort with Swap(0, i)
Code # 输入有毒,需避坑 # N int(input()) L list(map(int,input().split())) N L[0] L L[1:] res 0 for i in range(1,N):while L[0]!0:# 把所有不在正常位置下的数换到正常t L[0]L[0],L[t] L[t],L[0]res1if L[i]!i:# 换完全后如果对应位置下的数不是目标…...
Python爬取斗罗大陆全集
打开网址http://www.luoxu.cc/dmplay/C888H-1-265.html F12打开Fetch/XHR,看到m3u8,ts,一眼顶真,打开index.m3u8 由第一个包含第二个index.m3u8的地址,ctrlf在源代码中一查index,果然有,不过/…...
前馈神经网络解密:深入理解人工智能的基石
目录 一、前馈神经网络概述什么是前馈神经网络前馈神经网络的工作原理应用场景及优缺点 二、前馈神经网络的基本结构输入层、隐藏层和输出层激活函数的选择与作用网络权重和偏置 三、前馈神经网络的训练方法损失函数与优化算法反向传播算法详解避免过拟合的策略 四、使用Python…...
顺序栈Sequential-stack
0、节点结构体定义 typedef struct SqStack{int *base;int *top; } SqStack; 1、初始化 bool InitStack(SqStack &S) {S.base new int[Maxsize]; //eg. #define Maxsize 100if(!S.base){return false;}S.top S.base;return true; } 2、入栈 bool Push(SqStack &…...
关于工牌(必须5-10个字)
今天蹲坑,低头看了下工牌觉得挺有意思:我从啥时候起也不排斥将工牌挂在脖子上了? 工牌,一个标识。不仅标识了你,也标识了你所在的群体。如果你认可这个群体,佩戴它那是一种荣誉、荣耀;如果你不…...
PHP混淆加密以及常用的一些加密工具
PHP混淆加密是一种将源代码转换为难以理解和阅读的方式,以保护代码的安全性。以下是一些常见的PHP混淆加密方法: 代码压缩:使用代码压缩工具(如UglifyJS)将PHP代码压缩为一行,去除空格、换行符等可读性的字…...
无涯教程-PHP - ereg()函数
ereg() - 语法 int ereg(string pattern, string originalstring, [array regs]); ereg()函数在string指定的字符串中搜索pattern指定的字符串,如果找到pattern,则返回true,否则返回false。搜索对于字母字符区分大小写。 可选的输入参数re…...
【Ubuntu】简洁高效企业级日志平台后起之秀Graylog
简介 Graylog 是一个用于集中式日志管理的开源平台。在现代数据驱动的环境中,我们需要处理来自各种设备、应用程序和操作系统的大量数据。Graylog提供了一种方法来聚合、组织和理解所有这些数据。它的核心功能包括流式标记、实时搜索、仪表板可视化、告警触发、内容…...
TCP特点UDP编程
目录 1、tcp协议和udp协议 2、多线程并发和多进程并发: (1)多进程并发服务端 (2)多进程并发客户端: 3、tcp: 4、粘包 5、UDP协议编程流程 (1)服务器端: (2)客户端: 6、tcp状…...
超级计算机
超级计算机是一种高性能计算机,它能够以极高的速度执行大规模的计算任务。超级计算机通常由数千个甚至数百万个处理器组成,这些处理器能够同时处理大量的数据,从而实现高效的计算。超级计算机广泛应用于科学、工程、金融、天气预报等领域&…...
LeetCode863. 二叉树中所有距离为 K 的结点(相关话题:深度遍历,广度遍历)
题目描述 给定一个二叉树(具有根结点 root), 一个目标结点 target ,和一个整数值 k 。 返回到目标结点 target 距离为 k 的所有结点的值的列表。 答案可以以 任何顺序 返回。 示例 1: 输入:root = [3,5,1,6,2,0,8,null,null,7,4], target = 5, k = 2 输出:[7,4,1] 解释…...
Kotlin 基础学习
NULL检查机制 Kotlin的空安全设计对于声明可为空的参数,在使用是进行空判断处理,有两种处理方式,字段后加 !! 像 java 一样抛出空异常,另外字段后面加 ? 可不做处理返回值为 null 或者配合 ?: 做空判断处理。 //类型后面加 ? 表…...
CW6B-90A-RCW6B-100A-RCW6B-110A-RCW6B-115A-R三相三线式滤波器
CW4B-10A-S CW4B-20A-S CW4B-30A-S三相三线式滤波器 CW6B-50A-S CW6B-60A-S CW6B-70A-S CW6B-80A-S CW6B-90A-S CW6B-100A-S CW6B-250A-S三相三线式滤波器 CW12B-3A-S(005) CW12B-6A-S(005) CW12B-10A-S(005) CW12B-20A-S(005 CW12B-30A-S(005) CW12B-40A-S(005)三…...
DP读书:鲲鹏处理器 架构与编程(九)鲲鹏920处理器片上系统
鲲鹏920片上系统 鲲鹏920处理器片上系统的组织与管理鲲鹏920片上系统的配置鲲鹏处理器多芯片系统鲲鹏2P多芯片系统鲲鹏4P多芯片系统鲲鹏920处理器片上系统和I/O桥组成的多芯片系统 鲲鹏920处理器的管理和安全架构鲲鹏920片上系统的PMU 鲲鹏920处理器片上系统的输入与输出鲲鹏92…...
【HBZ分享】java中的BitSet 与 Redis中的BitMap 与 布隆过滤器
BitMap的存储原理 bitMap他会标识出某个整数是否存在,存在即为1,不存在对应位即为0bitMap是存储int类型的,int 4byte, 1byte 8bit,因此bitMap数组中的每个下标可以标识出32个数字是否存在bitMap相当于一个个小格子&…...
《Linux从练气到飞升》No.16 Linux 进程地址空间
🕺作者: 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux菜鸟刷题集 😘欢迎关注:👍点赞🙌收藏✍️留言 🏇码字不易,你的👍点赞🙌收藏❤️关注对我真的…...
【算法题】7004. 判别首字母缩略词
题目: 给你一个字符串数组 words 和一个字符串 s ,请你判断 s 是不是 words 的 首字母缩略词 。 如果可以按顺序串联 words 中每个字符串的第一个字符形成字符串 s ,则认为 s 是 words 的首字母缩略词。例如,“ab” 可以由 [“a…...
网站建设在哪个会计科目核算/免费发布推广的网站
前面做好了浏览文章目录,现在开始做显示文章内容。 打开CommonModelController,添加一个Index(int id) action。action中先查找指定Id的内容是否存在。存在就返回视图;不存在返回错误页面。 /// <summary>/// 显示内容/// </summary…...
咋做黄页网站/精准推广
...
网站建设案例咨询/网站seo站外优化
创建服务器连接 exec sp_addlinkedserver 连接名(自定义), , SQLOLEDB , IP地址 exec sp_addlinkedsrvlogin 连接名(自定义), false ,null, 用户名, 密码 删除连接 exec sp_dropserver 连接名 , droplogins通过这种方式就可以查询其他服务器上sqlserver中的数据表,当然,…...
b2b电子商务网站建设公司/中国域名注册局官网
HTML5 在各个方面都让网页设计更加强大,快速,安全,自适应,互动和美丽,这些都是属于 HTML5。HTML5 有很多新的特性,使开发人员和设计人员能够快速创建功能,性能和体验优越的网站和桌面应用程序。…...
个人网站名字取名怎么做/建立网站的几个步骤
最开始使用spring框架的时候,对于其配置文件xml,只是网上得知其使用方法,而不明其意。最近想着寻根问底的探究一下。以下是本文主要内容: 1、配置文件示例。 [html] view plaincopy print?<?xml version"1.0" enco…...
相亲网站做期货现货贵金属的人/中山360推广
Linux Command losetup 设置循环设备 文章目录Linux Command losetup 设置循环设备1. 背景2. 简介3. 语法4. 参数5. 实例5.1 示例15.2 示例21. 背景 在类 UNIX 系统里,loop 设备是一种伪设备(pseudo-device),或者也可以说是仿真设备。它能使我们像块设备…...