当前位置：首页 > news >正文

Python的正则表达式使用

news 2026/2/8 17:42:30

Python的正则表达式使用

定义
使用场景
- 查
- 替换
- 分割
常用的正则表达符号
- 查原字符
- 英文状态的句号点 .
- 反斜杠 \
- 英文的[]
- 英文的()
- 英文的?
- 加号 +
- 星号 *
- 英文状态的大括号 {}
案例

定义

正则表达式是指专门用于描述或刻画字符串内在规律的表达式。

使用场景

无法通过切片，将字符串的子串返回。
借助于replace方法，无法完成非固定值或非固定位置值的替换。
借助于split方法，无法按照多种值实现字符串的分割。

查

findall(pattern, string, flags=0)

pattern：指定需要匹配的正则表达式。
string：指定待处理的字符串。
flags：指定匹配模式，常用的值可以是re.I、re.M、re.S和re.X。re.I的模式是让正则表达式对大小写不敏感；re.M的模式是让正则表达式可以多行匹配；re.S的模式指明正则符号，即可以匹配任意字符，包括换行符\n；re.X模式允许正则表达式可以写得更加详细，如多行表示、忽略空白字符、加入注释等。

替换

sub(pattern, repl, string, count=0, flags=0)

pattern：同findall函数中的pattern。
repl：指定替换成的新值。
string：同findall函数中的string。
count：用于指定最多替换的次数，默认为全部替换。
flags：同findall函数中的flags。

分割

split(pattern, string, maxsplit=0, flags=0)

pattern：同findall函数中的pattern。
maxsplit：用于指定最大分割次数，默认为全部分割。
string：同findall函数中的string。
flags：同findall函数中的flags。

常用的正则表达符号

使用这些函数，需要导入re功能包

查原字符

指代直接存在于字符串内部的子串。

# 导入第三方包
import re
# 提取出字符串中的Python子串
s1 = '看了博主的Python的文章，感觉Python很简单，学会了！'
out1 = re.findall('Python', s1)
print(out1)

输出：

[‘Python’, ‘Python’]

英文状态的句号点 .

英文的：‘.’ 指代任意字符（如数字、字母、标点符号、汉字等），但除了换行符\n。

# 导入第三方包
import re
# 提取出动力的值
s2 = '此次宝马主要搭载了1.5L和1.5T两种动力的发动机。凯迪拉克则搭载了1.0T和1.8T的动力。'
out2 = re.findall('1...',s2)
out3 = re.findall('1\...',s2) # \. 代表小数点（转义一下）
print(out2)
print(out3)

[‘1.5L’, ‘1.5T’, ‘1.0T’, ‘1.8T’]
[‘1.5L’, ‘1.5T’, ‘1.0T’, ‘1.8T’]

反斜杠 \

反斜杠 \ 表示转义符，用于转换含义的符号。
\n：指代换行；
\t：指代Tab制表符；
\d：指代0~9中的任一数字；
\s：指代任意一种空白（如空格、Tab、换行等）；
\w：指代字母、数字和下划线中的任意一种；（52：大小字 + 10：数字0-9 + 1下划线 = 63种）
. ：指代句号点本身；
若是想打 \ 则用\\

# 导入第三方包
import re
# 剔除字符串中的所有空白
s3 = ('距离2019北京马拉松开跑只有两周时间了，\n今年的北京马拉松预报名人数超过16万人，\t 媒体公布的中签率只有16%左右，再创历年来的新低。\n')
print(s3)
out4 = re.sub('\s','',s3)
print(out4)

输出：

距离2019北京马拉松开跑只有两周时间了，
今年的北京马拉松预报名人数超过16万人，（这有个tab长度）媒体公布的中签率只有16%左右，再创历年来的新低。
（这有个空白行）
距离2019北京马拉松开跑只有两周时间了，今年的北京马拉松预报名人数超过16万人，媒体公布的中签率只有16%左右，再创历年来的新低。

英文的[]

指代字符集合，当需要特定字符匹配时，可以选择中括号。

# 导入第三方包
import re
# 取出手机号信息
s4 = '用户联系方式：13612345566，用户编号为11011254321'
out5 = re.findall('1[356789]\d\d\d\d\d\d\d\d\d', s4) # 第二位为356789中的一个
print(out5)
# 提取出动力
s5 = '通过对比新朗逸1.5L和1.5T两种动力在1.5年行驶期后的数据。发现1.5T的口碑相对较好！'
out6 = re.findall('1.5[a-zA-Z]',s5) # 取出a-z或A-Z
print(out6)
# 或
out7 = re.findall('1.5[TL]',s5) # 取出a-z或A-Z
print(out7)

输出：

[‘13612345566’]
[‘1.5L’, ‘1.5T’, ‘1.5T’]
[‘1.5L’, ‘1.5T’, ‘1.5T’]

英文的()

指代特定内容的截取（抠）。

# 导入第三方包
import re
# 提取出用户的年龄
s6 = 'id:1, name:Tom, age:3, gender:1; id:2, name:Lily, age:5, gender:0'
print(re.findall('\d',s6))
print(re.findall('age:\d',s6))
print(re.findall('age:(\d)',s6))

输出：

[‘1’, ‘3’, ‘1’, ‘2’, ‘5’, ‘0’]
[‘age:3’, ‘age:5’]
[‘3’, ‘5’]

英文的?

表示匹配前一个字符匹配，0次或1次。

# 超链接的匹配
URL1 = 'https://www.baidu.com/'
URL2 = 'http://www.gov.cn/'
pattern = 'https?://www\..*?'

这样https和http都能匹配上了。

加号 +

表示匹配前一个字符匹配，1次及以上。

# 邮箱地址的匹配
email1 = 'Lsxxx2011@163.com'
email2 = '654088115@qq.com'
pattern = '[0-9a-zA-Z_\.\-]+@[a-zA-Z0-9_\-]+\.com'

星号 *

表示匹配前一个字符0次及以上。

# 提取出产品名称中含奶粉字样的产品
prod = ['婴儿袜', '亨氏奶粉', '奶粉勺', '多功能奶瓶', '幼儿奶粉量筒', '磨牙棒']
res = []
for i in prod:res.extend(re.findall('.*奶粉.*', i))
print(res)

输出：

[‘亨氏奶粉’, ‘奶粉勺’, ‘幼儿奶粉量筒’]

英文状态的大括号 {}

表示匹配前一个字符特定的次数或范围。
{m}：匹配前一个字符m次；
{m,}：匹配前一个字符至少m次；
{m,n}：匹配前一个字符m~n次；
{,n} ：匹配前一个字符之多n次；

# 手机号码的匹配
pattern = '1[356789]\d{9}'
# 至少6个长度的密码
pattern = '\w{6,}'
# 区号信息
pattern = '0\d{2,3}'

案例

# 导入用于正则表达式的re模块
import re
# 取出字符中所有的天气状态
string1 = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'轻度污染'},{ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},{ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},{ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'}"
print(re.findall("tianqi:'(.*?)'", string1)) # ?为了防止盲目匹配（非贪婪式）

输出：

[‘晴’, ‘阴~小雨’, ‘小雨~中雨’, ‘中雨~小雨’]

# 导入用于正则表达式的re模块
import re
# 取出所有含O字母的单词
string2 = 'Together, we discovered that a free market only thrives when there are rules to ensure competition and fair play, Our celebration of initiative and enterprise'
print(re.findall('\w*o\w*',string2, flags = re.I)) # re.I大小写不敏感
# 将标点符号、数字和字母删除
string3 = '据悉，这次发运的4台蒸汽冷凝罐属于国际热核聚变实验堆（ITER）项目的核二级压力设备，先后完成了压力试验、真空试验、氦气检漏试验、千斤顶试验、吊耳载荷试验、叠装试验等验收试验。'
print(re.sub('[，。、a-zA-Z0-9（）]','',string3))

输出：

[‘Together’, ‘discovered’, ‘only’, ‘to’, ‘competition’, ‘Our’, ‘celebration’, ‘of’]
据悉这次发运的台蒸汽冷凝罐属于国际热核聚变实验堆项目的核二级压力设备先后完成了压力试验真空试验氦气检漏试验千斤顶试验吊耳载荷试验叠装试验等验收试验

# 导入用于正则表达式的re模块
import re
# 将每一部分的内容分割开
string4 = '2室2厅 | 101.62平 | 低区/7层 | 朝南 \n 上海未来 - 浦东 - 金杨 - 2005年建'
split = re.split('[-\|\n]', string4) # \|转义下表示竖杠本身，split函数是用来分割的
print(split)
split_strip = [i.strip() for i in split] # 循环列表去除前后的空格
print(split_strip)

输出：

['2室2厅 ', ’ 101.62平 ', ’ 低区/7层 ', ’ 朝南 ', ’ 上海未来 ', ’ 浦东 ', ’ 金杨 ‘, ’ 2005年建’]
[‘2室2厅’, ‘101.62平’, ‘低区/7层’, ‘朝南’, ‘上海未来’, ‘浦东’, ‘金杨’, ‘2005年建’]

Python的正则表达式使用

Python的正则表达式使用定义使用场景查替换分割常用的正则表达符号查原字符英文状态的句号点 .反斜杠 \英文的[]英文的()英文的?加号星号 *英文状态的大括号 {} 案例定义正则表达式是指专门用于描述或刻画字符串内在规律的表达式。使用场景无法通过切片，…...

编程日记 2023/12/5 5:07:14

Elasticsearch：评估 RAG - 指标之旅

作者：Quentin Herreros，Thomas Veasey，Thanos Papaoikonomou 2020年，Meta发表了一篇题为 “知识密集型NLP任务的检索增强生成” 的论文。本文介绍了一种通过利用外部数据库将语言模型 (LLM) 知识扩展到初始训练数据之外的方法。 …...

编程日记 2023/12/5 5:05:13

【2023.12.4练习】数据库知识点复习测试

概论数据表：用于存储现实中数据的联系。储存信息联系。字段：又称列，如姓名、年龄、编号等。记录：又称元组，为数据表中的一行，代表了一个实体的信息。数据库（DB）&#xff1…...

编程日记 2023/12/5 5:04:11

【wvp】测试记录

ffmpeg 这是个莫名其妙的报错，通过排查，应该是zlm哪个进程引起的会议室的性能网络IO也就20M...

编程日记 2023/12/5 5:03:10

【若依框架实现上传文件组件】

若依框架中只有个人中心有上传图片组件，但是这个组件不适用于el-dialog中的el-form表单页面于是通过elementui重新写了一个上传组件，如图是实现效果 vue代码 <el-dialog :title"title" v-model"find" width"600px"…...

编程日记 2023/12/5 4:59:08

玩转大数据5:构建可扩展的大数据架构

1. 引言随着数字化时代的到来，大数据已经成为企业、组织和个人关注的焦点。大数据架构作为大数据应用的核心组成部分，对于企业的数字化转型和信息化建设至关重要。我们将探讨大数据架构的基本要素和原则，以及Java在大数据架构中的角色&…...

编程日记 2023/12/5 4:58:07

【华为数据之道学习笔记】非数字原生企业的特点

非数字原生企业的数字化转型挑战软件和数据平台为核心的数字世界入口，便捷地获取和存储了大量的数据，并开始尝试通过机器学习等人工智能技术分析这些数据，以便更好地理解用户需求，增强数字化创新能力。部分数字原生企业引领着云计…...

编程日记 2023/12/5 4:57:06

Kubernetes学习笔记-Part.01 Kubernets与docker

目录 Part.01 Kubernets与docker Part.02 Docker版本 Part.03 Kubernetes原理 Part.04 资源规划 Part.05 基础环境准备 Part.06 Docker安装 Part.07 Harbor搭建 Part.08 K8s环境安装 Part.09 K8s集群构建 Part.10 容器回退第一章 Kubernets与docker Docker是一种轻量级的容器…...

编程日记 2023/12/5 4:56:05

k8s学习

文章目录前言一、k8s部署方式二、学习k8s的方式今天主要配置k8s环境的方式今天遇到的是一个在k8s进行初始化的方式，但是发现k8s不能正常初始化总是出现错误，或者在错误中有问题的方式，在网上查询挺多资料需要重新启动kub文件，删除…...

编程日记 2023/12/5 4:55:04

测试：JMeter和LoadRunner比较

比较 JMeter和LoadRunner是两款常用的软件性能测试工具，它们在功能和性能上有一定的相似性和差异。下面从几个方面对它们进行比较： 1. 架构和原理： JMeter和LoadRunner的架构和原理基本相同，都是通过中间代理监控和收集并发客户…...

编程日记 2023/12/5 4:54:03

（C语言）通过循环按行顺序为一个矩阵赋予1,3,5,7,9,等奇数，然后输出矩阵左下角的值。

#include<stdio.h> int main() {int a[5][5];int n 1;for(int i 0;i < 5;i ){for(int j 0;j < 5;j ){a[i][j] n;n 2;}}for(int i 0;i < 5;i ){for(int j 0;j < i;j )printf("%-5d",a[i][j]);printf("\n");}return 0; } 运行截图…...

编程日记 2023/12/5 4:53:03

GitHub项目推荐-Deoldify

有小伙伴推荐了一个老照片上色的GitHub项目，看了简介，还不错，推荐给大家。项目地址 GitHub - SpenserCai/sd-webui-deoldify: DeOldify for Stable Diffusion WebUI：This is an extension for StableDiffusions AUTOMATIC1111 w…...

编程日记 2023/12/5 4:52:01

微前端qiankun示例 Umi3.5

主应用配置（基座） 安装包 npm i umijs/plugin-qiankun -D 配置 qiankun 开启 {"private": true,"scripts": {"start": "umi dev","build": "umi build","postinstall": "…...

编程日记 2023/12/5 4:51:00

熬夜会秃头——beta冲刺Day7

这个作业属于哪个课程2301-计算机学院-软件工程社区-CSDN社区云这个作业要求在哪里团队作业—beta冲刺事后诸葛亮-CSDN社区这个作业的目标记录beta冲刺Day7团队名称熬夜会秃头团队置顶集合随笔链接熬夜会秃头——Beta冲刺置顶随笔-CSDN社区一、团队成员会议总结 1、成员工作…...

编程日记 2023/12/5 4:46:57

IntelliJ IDEA设置中文界面

1.下载中文插件 2. 点击重启IDE 3.问题就解决啦！...

编程日记 2023/12/5 4:45:56

RTSP流媒体播放器

rtsp主要还是运用ffmpeg来搭建node后端转发到前端，前端再播放这样的思路。这里讲的到是用两种方式，一种是ffmpeg设置成全局来实现，一种是ffmpeg放在本地目录用相对路径来引用的方式。 ffmpeg下载地址：http://www.ffmpeg.org/do…...

编程日记 2023/12/5 4:44:54

使用正则表达式时-可能会导致性能下降的情况

目录前言正则表达式引擎 NFA自动机的回溯解决方案前言正则表达式是一个用正则符号写出的公式，程序对这个公式进行语法分析，建立一个语法分析树，再根据这个分析树结合正则表达式的引擎生成执行程序(这个执行程序我们把它称作状态机&a…...

编程日记 2023/12/5 4:43:53

Maven生命周期

Maven生命周期通过IDEA工具的辅助，能很轻易看见Maven的九种生命周期命令，如下： 双击其中任何一个，都会执行相应的Maven构建动作，为啥IDEA能实现这个功能呢？道理很简单，因为IDEA封装了Maven提供…...

编程日记 2023/12/5 4:41:52

深度学习（五）：pytorch迁移学习之resnet50

1.迁移学习迁移学习是一种机器学习方法，它通过将已经在一个任务上学习到的知识应用到另一个相关任务上，来改善模型的性能。迁移学习可以解决数据不足或标注困难的问题，同时可以加快模型的训练速度。迁移学习的核心思想是将源领域的知识迁…...

编程日记 2023/12/5 4:40:51

面试官：说说synchronized与ReentrantLock的区别

程序员的公众号：源1024，获取更多资料，无加密无套路！ 最近整理了一波电子书籍资料，包含《Effective Java中文版第2版》《深入JAVA虚拟机》，《重构改善既有代码设计》，《MySQL高性能-第3版》&…...

编程日记 2023/12/5 4:39:50

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2026/2/7 23:18:28

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

前言现在我们有个如下的需求，设计一个邮件发奖的小系统， 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件装饰器模式（Decorator Pattern）允许向一个现有的对象添加新的功能，同时又不改变其…...

编程新知 2026/2/8 4:37:00

HTML 列表、表格、表单

1 列表标签作用：布局内容排列整齐的区域列表分类：无序列表、有序列表、定义列表。例如： 1.1 无序列表标签：ul 嵌套 li，ul是无序列表，li是列表条目。注意事项： ul 标签里面只能包裹 li…...

编程新知 2026/1/24 22:33:33

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面（Target 选项卡）1. IROM1（用于配置 Flash）2. IRAM1（用于配置 RAM）二、链接器设置界面（Linker 选项卡）1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数（如果没有勾选上面…...

编程新知 2026/2/7 0:28:16

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

参考官方文档：https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java（供 Kotlin 使用） 1、不得使用硬关键字不要使用 Kotlin 的任何硬关键字作为方法的名称或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

编程新知 2026/2/8 0:33:04

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程四、Thread类的核心…...

编程新知 2025/8/28 21:52:02

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2026/1/27 4:58:14

laravel8+vue3.0+element-plus搭建方法

创建 laravel8 项目 composer create-project --prefer-dist laravel/laravel laravel8 8.* 安装 laravel/ui composer require laravel/ui 修改 package.json 文件 "devDependencies": {"vue/compiler-sfc": "^3.0.7","axios": …...

编程新知 2025/10/15 0:25:46

在Ubuntu24上采用Wine打开SourceInsight

1. 安装wine sudo apt install wine 2. 安装32位库支持，SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库（解决显示问题） sudo apt install fonts-wqy…...

编程新知 2025/10/14 0:47:25

JVM 内存结构详解

内存结构运行时数据区： Java虚拟机在运行Java程序过程中管理的内存区域。程序计数器： 线程私有，程序控制流的指示器，分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。每个线程都有一个程序计数…...

编程新知 2026/2/6 3:24:58

Python的正则表达式使用

定义

使用场景

查

替换

分割

常用的正则表达符号

查原字符

英文状态的句号点 .

反斜杠 \

英文的[]

英文的()

英文的?

加号 +

星号 *

英文状态的大括号 {}

案例

相关文章：