| 是 XPath 的节点集并集运算符,用于合并左右两个节点集并去重,要求操作数必须为节点集,不可用于属性条件“或”逻辑或混合数据类型。
XPath 本身不支持用 |(管道符)“同时选择多个路径”来合并完全无关的节点集——它不是正则表达式里的“或”,而是 XPath 中的 并集运算符,专门用于合并两个已有的节点集。
| 是 XPath 的集合并集操作符,作用是把左右两边返回的节点集合并成一个去重后的结果。它要求左右两边都必须是**节点集(node-set)**,不能是字符串、数字或布尔值。
例如:
/bookstore/book/title | /bookstore/book/price
这个表达式会选出所有 和所有 元素,合并为一个节点列表(顺序按文档顺序排列,重复节点自动去重)。

//div[@class="a" | @class="b"] 是错的 —— | 不能在属性值比较中当“或”逻辑用;正确写法是 //div[@class="a" or @class="b"]
//name | "abc" 会报错,因为右边是字符串,不是节点集(//a | //span)/@href 表示先取所有 a 和 span,再统一提取 href 属性如果目标是匹配多种标签、多种属性或多种条件,应使用更合适的 XPath 语法:
* 或联合标签名,如 //div | //span | //p ✅(合法并集),或更简洁地用 //*[self::div or self::span or self::p]
or,如 //input[@type="text" or @type="email"]
union 函数(仅 XPath 2.0+)或分两次查询再合并(编程语言中处理)想一次性提取页面中「标题 + 副标题 + 摘要」三个不同结构的文本?可以这样写:
(//h1 | //h2[@class="subtitle"] | //div[@id="summary"]/p)[1]
→ 表示取这三个路径的所有匹配节点,然后取其中第一个(按文档顺序)
注意:XPath 1.0 不支持函数式链式调用,所以 (A | B | C)/text() 是安全的,但 A | B/text() 会出错(右边不是节点集)。