17370845950

如何使用c++的std::regex进行字符串匹配和替换【正则表达式】
c++kquote>std::regex是C++11引入的正则工具,支持匹配、搜索、替换和子匹配提取;推荐用regex_search查找子串,regex_match要求全串匹配;用smatch提取捕获组,原始字符串字面量可简化转义。

std::regex 是 C++11 引入的标准库正则表达式工具,支持基础的模式匹配、查找、替换和子匹配提取。它语法接近 Perl 风格(ECMAScript 默认),但功能比 Python 或 JavaScript 的正则略精简,且性能和错误提示较弱——使用时需注意编译选项(如 -std=c++11 或更高)、异常处理和 locale 兼容性。

基本匹配:判断字符串是否符合模式

std::regex_match 检查整个字符串是否完全匹配正则;用 std::regex_search 查找子串是否匹配(更常用)。

  • regex_match("123", std::regex(R"(\d+)")) → true(全串匹配数字)
  • regex_match("abc123", std::regex(R"(\d+)")) → false(不全匹配)
  • regex_search("abc123", std::regex(R"(\d+)")) → true(找到子串 "123")

建议优先用 regex_search,除非你明确要求“从头到尾严格匹配”。注意原始字符串字面量 R"(...)" 可避免反斜杠转义混乱,比如写 R"(\w+@\w+\.\w+)""\\w+@\\w+\\.\\w+" 更清晰。

提取匹配内容:获取捕获组或全部匹配结果

std::smatch 存储匹配详情,配合 regex_searchregex_iterator 遍历所有匹配。

  • 单次匹配:smatch m; if (regex_search(s, m, pattern)) { cout (m.str(0) 是整个匹配,m.str(1) 是第一个括号组)
  • 多次匹配:for (sregex_iterator it(s.begin(), s.end(), pattern); it != sregex_iterator(); ++it) { cout str(); }

例如匹配邮箱:regex pattern(R"((\w+)@(\w+\.\w+))");m.str(1) 得用户名,m.str(2) 得域名。

字符串替换:简单替换与格式化替换

std::regex_replace 返回新字符串,原字符串不变。支持字面替换和基于捕获组的格式化替换(类似 Python 的 \1)。

  • 字面替换:regex_replace("a1b2c3", regex(R"(\d)"), "X") → "aXbXcX"
  • 捕获组引用:regex_replace("2025-04-01", regex(R"((\d{4})-(\d{2})-(\d{2}))"), "$2/$3/$1") → "04/01/2025"
  • 注意:$1$2 是 ECMAScript 风格(C++ 默认),不是 \1;若想用 \1,需加 flag std::regex_constants::basic

实用提醒:常见坑与优化建议

std::regex 在部分标准库实现(如 libstdc++ 旧版本)中性能较差、不支持某些特性(如 lookahead),且编译失败时只抛 std::regex_error,错误信息有限。

  • 预编译正则对象(static const regex pat{R"(...)"}),避免重复构造
  • 简单场景(如固定分隔符拆分)优先用 find/substr,比正则快得多
  • 调试时可先用在线工具(如 regex101.com,选 ECMAScript 模式)验证模式
  • 中文或 Unicode 字符需确保字符串为 UTF-8 编码,并注意 std::regex 对 Unicode 支持有限(不支持 \p{L} 等)

不复杂但容易忽略。