Pentaho Data Integration (Kettle) 如何处理XML输入？_技术教程

Pentaho Data Integration (Kettle) 如何处理XML输入？

答案是：文章核心内容为……（此处需根据实际文章内容填写，但用户未提供具体文章，故无法生成有效摘要）

XML 输入流步骤（也称 Get Data From XML），它不是靠“读取整个文档再解析”，而是基于 XPath 的**流式节点抽取**——只要路径写对、层级理清，哪怕嵌套再深也能拆出来。

两者名称接近但定位不同：Get Data From XML 是旧版向导式组件，仅支持单层 loop、不支持命名空间自动识别、无法处理大文件；而 XML 输入流 是 Kettle 11.x 主推的现代组件，具备分块解析、并行读取、XPath 性能优化等能力。2025 年后的新项目应默认选它。

旧版 Get Data From XML 在处理 ... 时，loop XPath 必须写成 /orders/order，且无法穿透属性或跨层级引用
XML 输入流 支持 @id 直接提取属性、支持 ../customer/name 这类相对路径、启用 Ignore namespace 后可无视 ns:order 类前缀
性能上：1GB XML 文件，旧版易 OOM，新版启用 Buffer size=128KB + Parallel parsing 后稳定在 2 分钟内完成

关键不在“写全路径”，而在“定义好 loop 节点”——所有字段映射都相对于该节点展开。例如要拆出订单头 + 明细两表，需两个 XML 输入流 步骤：

步骤1（订单头）：Loop XPath = /orders/order，字段如：id → @id，date → date，customer_name → customer/name，phone → customer/@phone
步骤2（明细项）：Loop XPath = /orders/order/items/item，字段如：item_id → @id，sku → sku，order_id → ../../@id（用 .. 回溯到父 order 节点取 ID）

若父子无直接路径关联（如明细在另一个文件），可用 JavaScript 步骤缓存父级变量：

if (xml_path_level2 != null) {
  order_id = getvariable("v_order_id", "");
} else {
  setvariable("v_order_id", id, "s");
}

不是 XPath 写错，往往是解析上下文没设对。以下错误高频出现且原因明确：

ERROR: No nodes found for XPath 'xxx' → 检查是否勾选了 Namespace aware 却没处理前缀；改勾 Ignore namespace 或把 XPath 改成 /*:order
ERROR: Cannot convert null to string → 某些节点为空时字段类型强制为 String 会崩；在字段配置里给该列设 Default value（如空字符串 "" 或 0）
输出 Excel 时明细行数远少于预期 → 未启用 Prune path to handle large files，导致深层嵌套被截断；务必勾选并设合理 Buffer size（64–256KB）
中文乱码 → 不是编码选错，而是 XML 声明里写的是 encoding="GBK"，但 Kettle 默认按 UTF-8 解析；Content Tab 中 Encoding 必须严格匹配声明值

真正上线时，XML 往往来自 API 响应或日志归档，不能靠“试出来”。必须前置控制三点：

用 Limit 参数先跑 10 行验证结构，避免全量失败后排查困难
把文件路径参数化为 ${xml_file}，配合作业调度传入，禁用硬编码路径
对含数百个的订单，别在一个步骤里拉所有字段；拆成“主订单 → 订单ID广播 → 明细流 Join”三段，内存更可控
若 XML 字段名动态（如 value），XPath 无法硬写，得用 JavaScript 步骤遍历 node.getChildNodes() 动态提取

实际项目中最容易被忽略的，是 **loop 节点的语义边界**：它决定了所有相对 XPath 的起点。写错一层，后面全偏。宁可多开一个调试转换，用 Write to log 打印出前 3 行原始节点内容，也别凭感觉写 ../../../。

17370845950