JavaScript正则核心在于理解引擎执行机制而非死记语法:贪婪/惰性本质是回溯策略差异,lastIndex控制匹配位置且仅对g/y生效,捕获组编号严格按左括号顺序,替换推荐用函数避免$符号歧义。
JavaScript 正则表达式不是“学完语法就能用”,而是「写错一个标志就全匹配失败」「捕获组嵌套后 $1 对不上号」「g 和 y 标志混用导致 exec() 死循环」——入门关键不在记符号,而在理解引擎如何执行、状态如何流转。
/a+/ 能匹配 "aaa",但 /a+?/ 在 matchAll() 中表现不同?贪婪与惰性本质是回溯策略差异,不是“多匹配”或“少匹配”的简单描述。JS 正则引擎(V8)默认贪婪,会先吞掉所有可能字符,再逐步吐出试探;惰性则相反,先试最小长度,不成就扩展。
/a+/ 在 "aaab" 中匹配整个 "aaa",一次到位/a+?/ 在 "aaab" 中匹配第一个 "a",后续调用 exec() 才继续推进matchAll() 返回迭代器,每次调用内部都重置 lastIndex(除非带 g 或 y),所以惰性量词在 matchAll(/a+?/g) 中会逐个返回 "a",而非单次返回 "aaa"
exec() 的 lastIndex 是什么?为什么带 g 的正则在循环中会跳过匹配?lastIndex 是正则实例的可读写属性,表示下一次匹配的起始索引。它只对带 g(全局)或 y(粘连)标志的正则生效,且仅在 exec() 和 test() 中被自动更新。
lastIndex = 0,重复调用 exec() 会从上次结束位置继续,可能漏掉开头匹配y 比 g 更严格:要求匹配必须从 lastIndex 开始,不能跳过任何字符,否则直接返回 null
lastIndex 是共享状态,极易引发竞态 —— 推荐每次用新字面量 /(...)/g,或显式 new RegExp(..., 'g')
result[1] 到底对应哪个括号?捕获组编号严格按左括号 ( 出现顺序从 1 开始递增,和是否嵌套、是否命名无关。命名组((?)只是提供别名,不改变编号逻辑。
const re = /a((b)(c(d)))/; const str = "abcbd"; const result = re.exec(str); // result[0] → "abcbd"(完整匹配) // result[1] → "bcbd"(外层第一个 ( ... )) // result[2] → "b"(第二个 (b)) // result[3] → "cd"(第三个 (c(d))) // result[4] → "d"(最内层 (d))
(?:...) 不占编号,可用于分组但不提取/(?a((b)(c(d))))/ ,可通过 result.groups.main 访问,但编号仍为 1/(a)?b/ 中 a 缺失),对应项为 undefined,不是空字符串$1、$&、$$ 这些符号怎么用才不翻车?字符串替换中的 $ 符号是特殊元字符,只在 String.prototype.replace() 的第二个参数为字符串时生效。函数作为替换参数时,完全绕过这套机制,更可控。
$1 → 第一个捕获组内容;$& → 整个匹配字符串;$$ → 字面量 $
$1 直接消失(不是报错),容易造成意外截断str.replace(/(\w+):(\w+)/g, (match, key, value) => `${key.
toUpperCase()}:${value}`),避免 $ 解析歧义和转义混乱(match, p1, p2, ..., offset, string),不要依赖命名真正卡住人的从来不是「怎么写正则」,而是「为什么这次没匹配上」——打开浏览器控制台,用 console.log(re.lastIndex) 和 re.exec(str) 单步看返回值,比查文档快十倍。正则没有隐藏行为,只有你没看见的状态。