Power Query 导入XML数据需理解其层级结构,从文件或Web导入后逐层展开Record/List,区分Attribute(@符号)与Element,处理命名空间、大小写、空值等问题,再清洗转为正式表格。
Power Query 导入 XML 数据其实很直接,关键在于理解 XML 的结构特点和 Power Query 的解析逻辑。XML 是层级式数据(比如有父节点、子节点、属性),Power Query 会自动将其展开为表格形式,但需要你手动选择要保留的层级和字段。
在 Excel 中:数据 → 获取数据 → 从文件 → 从 XML → 浏览选中你的 .xml 文件。Power Query 编辑器会自动加载并尝试解析根节点下的结构。如果 XML 有多层嵌套(如 Orders → Order → Item),它通常会展开到最内层重复项(比如所有 Item),这时你看到的是一张扁平化表格。
适用于调用返回 XML 格式的接口(如某些老系统、政府公开数据)。选择:数据 → 获取数据 → 从 Web → 粘贴 URL。Power Query 会尝试识别响应格式;若未自动按 XML 解析,可在高级编辑器里把源代码中的 Web.Contents(...) 包裹成 Xml.Tables(Web.Contents(...))。
不是所有 XML 都规整。比如同一层级下子节点名称不统一(Price 和 price 并存)、存在命名空间(xmlns="http://...")、或混合文本与子节点,这些都会导致展开失败或列丢失。
XML 导入后仍是查询状态,需进一步整理才能用于分析。典型操作包括:重命名列(双击列名)、调整数据类型(点击列标题旁的图标选“整数”“日期”等)、筛选非空行、按某列分组聚合(如统计每个 Category 下的 Product 数量)。
datetime;若为中文格式(如“2025年3月15日”),需用 Date.FromText 配合文化参数