当前位置: 首页 > news >正文

Python 正则表达式:强大的文本处理工具

概念:

正则表达式是一种强大的文本匹配和处理工具,它可以用来在字符串中查找、替换和提取符合某种规则的内容。在Python中,使用re模块可以轻松地操作正则表达式,它提供了丰富的功能和灵活的语法。

场景:

正则表达式在许多场景中都非常有用。以下是一些常见的应用场景:

  1. 数据清洗:当处理大量文本数据时,我们经常需要过滤和清洗数据,提取出我们感兴趣的信息。使用正则表达式可以快速准确地匹配和提取特定模式的字符串。
  2. 表单验证:在开发Web应用程序时,我们通常需要验证用户输入的数据,比如邮箱、手机号等格式是否合法。通过使用正则表达式进行验证,可以确保输入的数据符合我们的要求。
  3. 日志分析:在处理日志文件时,我们可能需要从日志中提取出特定的信息,比如错误日志、访问日志等。通过使用正则表达式,我们可以轻松地提取出我们需要的信息,方便进行统计和分析。

语法:

在使用Python正则表达式时,我们需要熟悉一些基本的语法和规则。以下是一些常用的语法元素:

  1. 字符匹配:使用字符或字符集合来匹配文本中的字符。例如,正则表达式[abc]可以匹配字符串中的任何一个字母a、b或c。
  2. 元字符:具有特殊含义的字符,例如. (匹配任意字符)和* (匹配前一个字符的任意次数)。例如,正则表达式a.*可以匹配以字母a开头的任意字符串。
  3. 重复限定符:用于限定前一个字符的出现次数。常见的限定符包括* (零次或多次)和+ (一次或多次)。例如,正则表达式a+可以匹配一个或多个连续出现的字母a。
  4. 边界限定符:用于匹配单词边界。例如,正则表达式\bword\b可以确保只匹配整个单词"word",而不是匹配包含"word"的其他单词。
  5. 分组和引用:使用括号对多个字符进行分组,并且可以在后续的匹配中引用。例如,正则表达式(ab)+可以匹配连续出现的"ab"字符串。
  6. 修饰符:用于修改匹配规则。例如,re.I修饰符可以实现忽略大小写的匹配。re.M修饰符可以实现多行匹配。

代码讲解:

让我们来看一个简单的示例代码,展示如何使用正则表达式匹配和提取文本中的邮箱地址。

import retext = "My email is john@example.com. Please contact me at jane@example.com."pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'emails = re.findall(pattern, text)for email in emails:print(email)

在上述代码中,我们首先导入re模块,这是Python中用于操作正则表达式的标准库。然后,我们定义了一个字符串变量text,其中包含了两个邮箱地址。接下来,我们使用正则表达式r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'来匹配文本中的邮箱地址。这个正则表达式可以匹配符合邮箱格式的字符串。最后,我们使用re.findall()函数提取了所有匹配的邮箱地址,并通过for循环打印出来。

案例说明:

案例说明:

在我们的示例代码中,我们成功地提取了文本中的两个邮箱地址。让我们来详细讲解一下代码的实现过程。

import retext = "My email is john@example.com. Please contact me at jane@example.com."pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'emails = re.findall(pattern, text)for email in emails:print(email)
  1. 首先,我们导入了re模块,这是Python中用于操作正则表达式的标准库。

  2. 定义了一个字符串变量text,其中包含了两个邮箱地址。

  3. 我们使用正则表达式r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'来匹配文本中的邮箱地址。让我们来详细解析一下这个正则表达式的各个部分:

    • \b:匹配单词的边界。
    • [A-Za-z0-9._%+-]+:匹配一个或多个字母、数字、下划线、点、百分号、加号或减号。
    • @:匹配邮箱地址中的@符号。
    • [A-Za-z0-9.-]+:匹配一个或多个字母、数字、点或减号。
    • \.:匹配邮箱地址中的点。
    • [A-Z|a-z]{2,}:匹配两个或更多个字母,可以是大写字母或小写字母。
    • \b:匹配单词的边界。

    正则表达式中的各个部分共同组成了一个邮箱地址的模式。

  4. 使用re.findall()函数来找到所有匹配的邮箱地址。这个函数接受两个参数:正则表达式模式和要匹配的文本。它会返回一个包含所有匹配结果的列表。

  5. 使用for循环遍历邮箱地址列表,并通过print()函数打印出来。

我们成功地提取了文本中的两个邮箱地址。通过使用正则表达式,我们可以轻松地匹配和提取符合特定模式的文本内容。这使得文本处理更加高效和灵活。

练习题:

以下是一些练习题,用于巩固你对正则表达式的理解:

  1. 编写一个正则表达式,匹配所有以字母开头的单词。
  2. 编写一个正则表达式,匹配所有以数字结尾的字符串。
  3. 编写一个正则表达式,匹配所有包含连续三个以上数字的字符串。

参考答案:

  1. 正则表达式:r'\b[A-Za-z]\w+\b'。这个正则表达式匹配了以字母开头的单词。\b用于匹配单词的边界,[A-Za-z]匹配任意一个字母,\w+匹配一个或多个字母、数字或下划线。
  2. 正则表达式:r'\b\w+\d\b'。这个正则表达式匹配了以数字结尾的字符串。\b用于匹配单词的边界,\w+匹配一个或多个字母、数字或下划线,\d匹配一个数字。
  3. 正则表达式:r'\b\w*\d{3,}\w*\b'。这个正则表达式匹配了包含连续三个以上数字的字符串。\b用于匹配单词的边界,\w*匹配零个或多个字母、数字或下划线,\d{3,}匹配连续三个以上数字。

总结:

Python正则表达式是一种强大的文本处理工具,可以用于在字符串中查找、替换和提取符合某种规则的内容。通过掌握正则表达式的基本语法和规则,我们能够更高效地处理文本数据,满足各种需求。使用正则表达式,我们可以轻松地进行数据清洗、表单验证、日志分析等操作,提高工作效率。

相关文章:

Python 正则表达式:强大的文本处理工具

概念: 正则表达式是一种强大的文本匹配和处理工具,它可以用来在字符串中查找、替换和提取符合某种规则的内容。在Python中,使用re模块可以轻松地操作正则表达式,它提供了丰富的功能和灵活的语法。 场景: 正则表达式…...

Linux如何查看系统时间

文章目录 一、使用date命令查看系统时间二、通过/var/log/syslog文件查看系统时间三、通过/proc/uptime文件查看系统运行时间四、通过hwclock命令查看硬件时间五、通过timedatectl命令设置系统时区六、通过NTP协议同步网络时间七、通过ntpstat命令检查NTP同步状态八、使用cal命…...

46. 出勤率问题

文章目录 题目需求实现一题目来源 题目需求 现有用户出勤表(user_login)如下。 user_id (用户id)course_id (课程id)login_in (登录时间)login_out (登出时间)112022-06-02 09:08:242022-06-02 10:09:361…...

Xilinx IDDR与ODDR原语的使用

文章目录 ODDR原语1. OPPOSITE_EDGE 模式2. SAME_EDGE 模式 ODDR原语 例化模板: ODDR #(.DDR_CLK_EDGE("OPPOSITE_EDGE"), // "OPPOSITE_EDGE" or "SAME_EDGE" .INIT(1b0), // Initial value of Q: 1b0 or 1b1.SRTYPE("SYNC…...

面试系列 - 序列化和反序列化详解

Java 序列化是一种将对象转换为字节流的过程,可以将对象的状态保存到磁盘文件或通过网络传输。反序列化则是将字节流重新转换为对象的过程。Java 提供了一个强大的序列化框架,允许你在对象的持久化和网络通信中使用它。 一、Java 序列化的基本原理 Jav…...

基于Elasticsearch + Fluentd + Kibana(EFK)搭建日志收集管理系统

目录 1、EFK简介 2、EFK框架 2.1、Fluentd系统架构 2.2、Elasticsearch系统架构 2.3、Kibana系统架构 3、Elasticsearch接口 4、EFK在虚拟机中安装步骤 4.1、安装elasticsearch 4.2、安装kibana 4.3、安装fluentd 4.4、进入kibana创建索引 5、Fluentd配置介绍 VC常…...

【Python小项目之Tkinter应用】解决Python的Pyinstaller将.py文件打包成.exe可执行文件后文件过大的问题

文章目录 前言1. 创建新项目![请添加图片描述](https://img-blog.csdnimg.cn/36dcadc85d864a08b93af78b9e79ff6d.jpeg)2.删除原项目中的全部文件3.将要打包的文件放入该项目目录下4.创建虚拟环境5.设置解释器为虚拟环境中的python解释器6.查看是否成功使用虚拟环境中的python解…...

Ab3d.DXEngine 6.0 Crack 2023

Ab3d.DXEngine 不是另一个游戏引擎(如Unity),它强迫您使用其游戏编辑器、其架构,并且需要许多技巧和窍门才能在标准 .Net 应用程序中使用。Ab3d.DXEngine 是一个新的渲染引擎,它是从头开始构建的,旨在用于标…...

Wireshark抓包常用指令

1.常用过滤规则 指定源地址: ip.src 10.0.1.123ip.src 10.0.1.123 && udphttp数据链路层:筛选mac地址为04:f9:38:ad:13:26的数据包----eth.src 04:f9:38:ad:13:26筛选源mac地址为04:f9:38:ad:13:26的数据包----eth.src 04:f9:38:ad:13:26网…...

Docker Swarm

Docker Swarm提供 Docker 容器集群服务,是 Docker 官方对容器云生态进行支持的核心方案。将多个 Docker 主机封装为单个大型的虚拟 Docker 主机,快速打造一套容器云平台。 Swarm mode内置 kv 存储功能,提供了众多的新特性,比如&a…...

jupyter notebook安装和删除kernel的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…...

中级深入--day16

爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... Day 1 小黄想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进…...

【洛谷 P1031】[NOIP2002 提高组] 均分纸牌 题解(贪心)

[NOIP2002 提高组] 均分纸牌 题目描述 有 N N N 堆纸牌,编号分别为 1 , 2 , … , N 1,2,\ldots,N 1,2,…,N。每堆上有若干张,但纸牌总数必为 N N N 的倍数。可以在任一堆上取若干张纸牌,然后移动。 移牌规则为:在编号为 1 …...

E5071C是德科技网络分析仪

描述 E5071C网络分析仪提供同类产品中最高的RF性能和最快的速度,具有宽频率范围和多功能。E5071C是制造和R&D工程师评估频率范围高达20 GHz的RF元件和电路的理想解决方案。特点: 宽动态范围:测试端口的动态范围> 123 dB(典型值)快速测量速度:41毫秒全2端口…...

ViTPose+:迈向通用身体姿态估计的视觉Transformer基础模型 | 京东探索研究院

身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点,除了典型的身体骨骼关键点,还可以包括手、脚、脸部等关键点,是计算机视觉领域的基本任务之一。目前,视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来…...

Android 播放mp3文件

1,在res/raw中加入mp3文件 2,实现播放类 import android.content.Context; import android.media.AudioManager; import android.media.SoundPool; import android.util.Log;import java.util.HashMap; import java.util.Map;public class UtilSound {pu…...

在OpenStack私有云上安装配置虚拟机

文章目录 零、学习目标一、登录大数据实训云二、创建网络三、创建路由四、添加接口五、创建端口六、添加安全组规则七、创建实例(一)实例规划(二)创建实例 - ied(三)创建实例 - master、slave1与slave2&…...

pyCharm远程DEBUG

第一步,添加一个远程机器的解释器 ssh 远程机器解释器添加, 我本地ssh有配置目标机器。 如果没配置,那就选着new server configuration 新增一个。 interpreter 指定远程机器python, (机器上有多个版本python里尤其要…...

微服务框架Go-kit

微服务框架Go-kit go kit简介第一个go kit应用go kit基本概念go kit Endpointsgo kit Endpoint 定义go kit Endpoint 函数签名go kit Endpoint 链式操作go kit Endpoint 请求和响应转换go kit Endpoint 中间件go kit Endpoint 错误处理go kit 传输层go kit HTTP 传输层go kit …...

《王道24数据结构》课后应用题——第三章 栈和队列

第三章 【3.1】 03、 假设以I和O分别表示入栈和出操作。栈的初态和终态均为空,入栈和出栈的操作序列可表示为仅由I和O组成的序列,可以操作的序列称为合法序列,否则称为非法序列。 如IOIIOIOO 和IIIOOIOO是合法的,而IOOIOIIO和II…...

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage)&#xff1a…...

C++:std::is_convertible

C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...

理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端

&#x1f31f; 什么是 MCP&#xff1f; 模型控制协议 (MCP) 是一种创新的协议&#xff0c;旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议&#xff0c;它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)

🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

数据库分批入库

今天在工作中&#xff0c;遇到一个问题&#xff0c;就是分批查询的时候&#xff0c;由于批次过大导致出现了一些问题&#xff0c;一下是问题描述和解决方案&#xff1a; 示例&#xff1a; // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

Caliper 配置文件解析:config.yaml

Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件,主要包含以下几个部…...

使用Matplotlib创建炫酷的3D散点图:数据可视化的新维度

文章目录 基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例(带样式)应用场景在数据科学和可视化领域,三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...

NXP S32K146 T-Box 携手 SD NAND(贴片式TF卡):驱动汽车智能革新的黄金组合

在汽车智能化的汹涌浪潮中&#xff0c;车辆不再仅仅是传统的交通工具&#xff0c;而是逐步演变为高度智能的移动终端。这一转变的核心支撑&#xff0c;来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒&#xff08;T-Box&#xff09;方案&#xff1a;NXP S32K146 与…...

关于uniapp展示PDF的解决方案

在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项&#xff1a; 一、安装依赖 安装 pdf-vue3 和 PDF.js 核心库&#xff1a; npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...

JDK 17 序列化是怎么回事

如何序列化&#xff1f;其实很简单&#xff0c;就是根据每个类型&#xff0c;用工厂类调用。逐个完成。 没什么漂亮的代码&#xff0c;只有有效、稳定的代码。 代码中调用toJson toJson 代码 mapper.writeValueAsString ObjectMapper DefaultSerializerProvider 一堆实…...