string()函数返回节点及其后代文本节点的合并字符串值,自动归并空白符为单个空格;对节点集仅取首个节点,空节点返回空字符串,元素节点递归提取并拼接所有后代文本。
XPath 中的 string() 函数用于获取节点的**合并文本内容(即字符串值)**,它会把目标节点及其所有后代文本节点的内容拼接成一个单一字符串,忽略元素标签、注释、处理指令等非文本节点,并自动将空白符(如换行、缩进)归并为普通空格。
语法:string(node-set) 或 string()(无参数时作用于当前上下文节点)。
假设有如下 HTML 片段:
型号:A100
价
格:¥299
string(//div[@id='info']) → 返回 "产品 型号:A100 价格: ¥299"(注意空格和换行被压缩);string(//p[2]/span) → 返回 "¥299";string(@class)(在有 class 属性的元素上)→ 返回该属性值;//div[string() = '产品 型号:A100 价格: ¥299'] 可用于匹配整个 div 的归一化文本内容(但需注意空格敏感性)。string() 不等于 text() 的简单拼接:text() 只选直接子文本节点,而 string() 会递归合并全部后代文本,并做空白规范化。
当 string() 不够精准时,可考虑:
normalize-space(string(...)) 进一步去除首尾空格、合并内部多余空白;concat() 拼接多个明确路径的字符串(如 concat(//h2, ' - ', //p[1]));//div[@id='info']//text()[normalize-space()] 提取所有非空文本节点,再在程序层处理。