17370845950

新闻动态

< 返回列表当前位置：首页 > 新闻动态 > 技术教程

Python查找所有匹配项_findall使用实例讲解【教程】

re.findall() 是 Python 中用于一次性提取字符串中所有符合正则模式子串的函数，返回列表；含捕获组时仅返回组内内容，多行或大小写匹配需添加对应标志位。

re.findall() 是 Python 中最常用、最直接的正则匹配提取工具，它能一次性找出字符串中所有符合模式的子串，并以列表形式返回，不重叠、不遗漏。

基础用法：匹配纯文本或简单模式

最常见场景是提取所有数字、邮箱、手机号等固定格式内容。例如：

提取所有连续数字：re.findall(r'\d+', '价格：299元，折扣后199.5元') → ['299', '1995']（注意小数点未被包含）
提取带小数的价格：re.findall(r'\d+\.\d+|\d+', '原价399.99，现价249') → ['399.99', '249']
匹配英文单词：re.findall(r'[a-zA-Z]+', 'Hello, 你好！Python3.11 is great.') → ['Hello', 'Python', 'is', 'great']

捕获组的特殊行为：只返回括号内的内容

如果正则表达式中包含一个或多个 捕获组（即圆括号 ()），findall 默认只返回组内匹配的内容，而不是整个匹配项：

re.findall(r'(\d{4})-(\d{2})-(\d{2})', '日期：2025-12-25 和 2025-01-01') → 返回列表套元组：[('2025', '12', '25'), ('2025', '01', '01')]
若只想取年份，可简化为：re.findall(r'(\d{4})-\d{2}-\d{2}', '2025-12-25') → ['2025']
想强制返回完整匹配，可用非捕获组 (?:...) 或去掉括号；或者改用 re.finditer() 配合 .group(0)

处理多行与特殊字符：记得加标志位

默认情况下 . 不匹配换行符，^/$ 只匹配字符串首尾。遇到跨行文本时需显式传入标志：

匹配多行中的邮箱：re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text, re.MULTILINE)
忽略大小写搜索关键词：re.findall(r'python', 'Python and python', re.IGNORECASE) → ['Python', 'python']
同时启用多行+忽略大小写：re.findall(pattern, text, re.M | re.I)

实用技巧：结合列表推导或预编译提升效率

对大量文本反复使用同一正则时，推荐先用 re.compile() 编译，避免重复解析：

phone_pattern = re.compile(r'1[3-9]\d{9}')，后续直接调用 phone_pattern.findall(text)
需要清洗结果（如去空格、转整型）可链式处理：[int(x) for x in re.findall(r'\d+', 'id: 101, score: 87') if x.isdigit()]
注意空列表是正常返回值，无需额外判空异常，直接用于 for 循环或 len() 即可

掌握 findall 的核心在于理解它的“贪婪全量提取”特性，以及括号对返回结构的影响。写正则时先在在线工具（如 regex101）验证模式，再封装进代码，准确率和可维护性都会明显提高。

赣ICP备2024031479号