Python正则默认单行匹配,.不匹配\n、^/$仅锚定首尾;启用re.DOTALL使.匹配换行符,re.MULTILINE使^/$逐行锚定,二者可组合使用,还支持内联语法与re.compile预编译提升效率。
Python 中正则表达式默认是单行匹配,即 . 不匹配换行符 \n,且 ^ 和 $ 只匹配字符串开头和结尾。要实现多行匹配(比如跨行查找、逐行锚定、点号匹配换行等),关键在于合理使用 re 模块的 flags 参数。
默认情况下,. 表示“除换行符外的任意字符”。启用 re.DOTALL(或简写 re.S)后,. 会匹配包括 \n 在内的所有字符。
re.search(r'(.*?)', text, re.DOTALL) 可匹配含换行的 div 内容? 非贪婪修饰启用 re.MULTILINE(或 re.M)后,^ 不仅匹配整个字符串开头,还匹配每行开头;$ 不仅匹配整个字符串结尾,还匹配每行结尾(即换行符前)。
re.findall(r'^\s*#.*$', text, re.MULTILINE) 可提取所有以 # 开头的行\A 和 \Z 始终只匹配整个字符串首尾,不受此 flag 影响多个 flag 可用按位或 | 连接,例如同时支持跨行匹配和多行锚定:
re.DOTALL | re.MULTILINE:. 匹配 \n,且 ^/$ 作用于每行re.IGNORECASE | re.DOTALL:忽略大小写 + 跨行匹配re.VERBOSE 常搭配使用:允许在正则中加空格、注释,提升可读性(需手动换行书写)写法示例:
pattern = r''' # 结束标签'''re.search(pattern, html, re.DOTALL | re.VERBOSE)
flag 可通过三种方式传入:re.compile()、函数参数(如 re.search())、内联语法 (?i) 等。
r'(?s)(?m)^\d+.*?end$' 相当于带 re.DOTALL|re.MULTILINE
(?i)abc(?-i)DEF 中只有 abc 忽略大小写re.compile(..., flags=...) 提升性能re.compile() 指定了 flag,调用 .search() 时无需再传 flags