std::regex 构造失败通常因正则语法错误或 locale 不兼容,应捕获 std::regex_error 并检查错误码;匹配需分清 match(全串匹配)与 search(子串匹配);避免循环中重复构造 regex,应复用 static const 对象。
用 std::regex 时程序直接 abort 或抛出 std::regex_error,大概率不是代码逻辑错,而是正则字符串本身非法,或当前 locale 不支持某些字符类。C++11 的 std::regex 默认使用 ECMAScript 语法,但不完全兼容 JavaScript —— 比如不支持 \d 在非 Unicode locale 下可能匹配失败。
try-catch 捕获 std::regex_error,并用 e.code() 查具体错误类型(如 std::regex_constants::error_brack 表示括号不匹配)std::regex_constants::ECMAScript(默认)或 std::regex_constants::basic,避免隐式行为差异std::regex 时传入带 UTF-8 支持的 locale,例如:std::regex re(pattern, std::regex_constants::ECMAScript | std::regex_constants::icase) 配合 std::locale("en_US.UTF-8")(Linux/macOS)或 std::locale("")(Windows)std::regex_match 要求整个输入字符串**完全匹配**正则模式;std::regex_search 只要子串匹配就返回 true。新手常误用 match 去找邮箱、手机号这类“嵌在文本中”的内容,结果永远失败。
std::regex_match
std::regex_search
std::sregex_iterator,它底层调用的就是 search
std::string text = "Contact: alice@example.com or bob@test.org"; std::regex email_re(R"(\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b)"); for (std::sregex_iterator it(text.begin(), text.end(), email_re); it != std::sregex_iterator(); ++it) { std::cout << it->str() << "\n"; // 输出两个邮箱 }
std::smatch 却取不到捕获组?根本原因:没在正则里写捕获组,或用了非捕获组 (?:...) 却误以为能取值。另外,std::smatch 的 size() 返回的是**实际捕获到的子表达式数量**(包括整个匹配项,即 [0]),不是正则里写的括号个数。
(...) 而非 (?:...) 定义你要提取的部分regex_match 或 regex_search 时,必须传入 std::smatch 对象,且函数返回 true 后才能安全访问smatch.size() > 1,否则 smatch[1] 可能越界std::string input = "id=12345&name=foo";
std::regex param_re(R"(id=(\d+)&name=([^\&]+))");
std::smatch result;
if (std::regex_search(input, result, param_re)) {
if (result.size() > 2) {
std::string id = result[1].str(); // "12345"
std::string name = result[2].str(); // "foo"
}
}
std::regex 构造开销很大——它要把字符串编译成状态机。如果在高频循环(如解析千行日志)中每次 new 一个 std::regex,性能会断崖式下跌,甚至比手写字符串查找还慢。
std::regex 声明为 static const 或类成员变量,复用编译结果std::regex 才相对可用;老版本存在严重 bug(如不支持 + 量词)std::string::find 或 std::all_of,比正则快一个数量级std::regex 在 C++ 里尤其容易因 locale、语法细节和实现差异翻车。真正关键的不是“怎么写”,而是“什么时候不该用”。