17370845950

新闻动态

< 返回列表当前位置：首页 > 新闻动态 > 技术教程

Python分组与捕获如何使用_正则分组操作说明【教学】

Python正则分组用()捕获内容，支持序号group(1)、命名group('name')提取，(?:...)非捕获，\1反向引用，findall单分组返字符串列表、多分组返元组列表。

Python正则表达式中的分组与捕获，核心是用圆括号 () 定义子模式，让匹配结果可提取、可复用、可命名。掌握它，才能真正从“匹配到”进阶到“取出来”“用起来”。

基础分组：用 () 提取关键内容

把想单独获取的部分用括号包起来，re.match() 或 re.search() 返回的 Match 对象就能通过 .group(1)、.group(2) 等按序提取。

例如匹配电话号码：r'(\d{3})-(\d{4})-(\d{4})'，对字符串 "010-1234-5678" 匹配后，.group(1) 是 "010"，.group(2) 是 "1234"
.group(0) 表示整个匹配串（默认），.groups() 返回所有分组内容的元组，如 ('010', '1234', '5678')
非捕获分组 (?:...) 不产生 group 编号，适合逻辑分组但无需提取，比如 r'(?:https?://)(\w+\.\w+)' 只捕获域名部分

反向引用：在正则内部复用已捕获内容

用、等表示前面第几个分组匹配到的**确切文本**，常用于匹配重复结构。

匹配重复单词：r'\b(\w+)\s+\1\b' 中 \1 表示和第一个括号完全相同的词，能匹配 "hello hello"，但不匹配 "hello world"
注意编号只看左括号顺序，嵌套也按出现位置计数；命名分组可用 (?P=name) 引用，更清晰

命名分组：用名字代替数字，提升可读性与维护性

写成 (?P...)，后续可用 .group('name') 提取，比数字编号更直观、不易出错。

解析 URL：r'(?Phttps?)://(?P[^/]+)(?P/.*?)?$'，匹配后直接 m.group('host') 拿主机名
.groupdict() 返回字典，如 {'proto': 'https', 'host': 'example.com', 'path': '/page'}
命名分组同样支持反向引用：(?P\w+):\s+(?P=word) 匹配 "age: age" 这类键值相同的情况

findall 与 finditer 中的分组行为

它们对分组的返回方式不同，容易混淆，需特别注意：

如果正则中**只有一个分组**，findall 返回字符串列表，如 re.findall(r'(\d+)', 'a12b34c') → ['12', '34']
如果正则中有**多个分组**，findall 返回元组列表，每个元组对应一次匹配的所有分组，如 re.findall(r'(\d+)-(\w+)', '12-a 34-b') → [('12', 'a'), ('34', 'b')]
finditer 总是返回 Match 对象，可灵活调用 .group()、.groupdict() 等，推荐复杂场景使用

赣ICP备2024031479号