使用“Get data from XML”步骤读取XML文件最可靠,需规范XML格式、设对重复节点路径(如/orders/order),嵌套项(如items/item)需二级解析,注意编码、XPath及命名空间配置。
用 Pentaho Data Integration(Kettle)读取 XML 文件,核心是使用 “Get data from XML” 步骤,它专为解析结构化 XML 设计,比通用的 “Text file input” 更可靠、更灵活。
确保 XML 文件格式规范(有根节点、标签闭合、无非法字符),并提前查看其层级结构。例如:
Alice 299.99Laptop Mouse
注意:Kettle 默认按“重复节点”提取数据。上例中, 是重复节点,应设为循环路径; 是嵌套重复节点,需额外处理(见下文)。
在转换中添加该步骤后,关键设置包括:
${FILE_PATH})/orders/order —— 这决定每行输出对应一个
customer
customer(直接子元素)或 ../@id(取父节点属性)“Get data from XML” 本身不支持跨层级展开多个重复组。若需把每个 拆成独立行,推荐组合方案:
级数据(含 内容作为 XML 片段字段)items_xml 字段作为 XML source(选 “XML from field”),repeat node 设为 items/item
避免踩坑:
UTF-8(即使文件声明了也建议指定)text()(如 customer/text()),或启用 “Ignore empty elements”ns:customer),同时在 “Namespaces” 表格里定义前缀与 URI 映射